GEMINI

utilização da GenAI (IA Generativa) do Google para interpretação de imagens com contexto estatístico

Jodavid Ferreira | Paulo Campos

                     UFPE | CTO Think:AI

Evolução da IA


Inteligência Artificial


Existem duas abordagens da Inteligência Artificial:

IA Simbólica

tenta replicar a inteligência humana, como a capacidade de resolver problemas através de regras e lógica. Por meio de símbolos, como palavras e conceitos, uma estrutura lógica é organizada que permite ao sistema de IA realizar as tarefas.


IA Conexionista

é baseada na simulação dos componentes do cérebro (modelagem da inteligência humana), como neurônios e sinapses. Aqui as soluções são baseadas em padrões e aprendizado de máquina, tentando imitar o funcionamento do cérebro humano.

Inteligência Artificial


  • Exemplo de IA Simbólica:

    • Sistemas Especialistas

  • Exemplo de IA Conexionista

    • Redes Neurais - CNN

Inteligência Artificial



A Inteligência Artificial é dividida em duas partes:

Inteligência Artificial Geral ou IA Forte

é quando uma máquina realmente entende o que está acontecendo. Podem existir emoções e criatividade. Na maior parte, é o que vemo em filmes de ficção científica.


IA Fraca

é quando uma máquina realiza a correspondência entre padrões, e está relacionada a tarefas específicas, e as capacidades não são facilmente transferíveis para outros sistemas.

Inteligência Artificial


(fonte: AI Experience - Google)

Inteligência Artificial



Inteligência Artificial
Machine Learning
Deep Learning
IA Generativa

Inteligência Artificial



Inteligência Artificial
Machine Learning
Deep Learning
IA Generativa

Inteligência Artificial


Mas o que estão por trás da IA Generativa?

LLMs - Large Language Models
  • inicialmente foram definidos como modelos projetados para compreender e gerar linguagem natural;
  • atualmente são treinados em grandes quantidades de dados, como livros, imagens, vídeos;
  • o “large”“ em LLM refere-se ao número de parâmetros que o modelo possui, geralmente na casa dos bilhões. Geralmente utilizados em soluções que necessitam ter contexto similar a interação entre humanos.
SLMs - Small Language Models
  • são modelos menores, no sentido que posuem menos parâmetros, geralmente na faixa de milhões;
  • continuam utilizando grandes quantidades de dados como textos, imagens e vídeos;
  • necessitam de menos recursos computacionais para treinamento e inferência, logo, são mais viáveis para uso em dispositivos com recursos limitados, como:
    • smartphones e sistemas embarcados.

Inteligência Artificial


Alguns dos modelos em alta do momento?

  • OpenAI:
    • DALL-E - modelo de geração de imagens;
    • ChatGPT - modelo de linguagem natural - multimodal;
    • SORA - modelo de texto-para-vídeo;
    • Whisper - modelo de audio-para-texto;
  • Meta:
    • Llama3.1 - modelo de linguagem natural;
  • Google:
    • GEMINI - modelo multimodal;
  • Anthropic:
    • CLAUDE 3 - modelo de linguagem natural;
  • Maritaca:
    • Sabiá 31 - modelo de linguagem natural;
    • Sabiá 2 - modelo de linguagem natural;
      • baseado no LLaMA;

Introdução à Inteligência Artificial


GEMINI é um modelo de IA desenvolvido pelo Google que pode entender e gerar texto, através de próprios textos, imagens e áudio. O modelo é capaz de responder a perguntas, criar histórias e até mesmo compor músicas.

Introdução à Inteligência Artificial


GPT-4o da OpenAI, modelo multimodal que consegue interpretar áudio, visão e texto em tempo real.

Introdução à Inteligência Artificial



Algunas informações sobre os modelos:

Legenda:

Os “dados de treinamento especial” são conjuntos de dados de alta qualidade, cuidadosamente selecionados e organizados. Eles podem incluir dados diversificados e representativos, dados enriquecidos com anotações ou metadados, dados sintéticos, e dados privados ou proprietários. Esses dados são valiosos para criar modelos mais precisos e especializados, capazes de entender nuances e aplicar conhecimento em contextos específicos, como saúde, direito, ou finanças.

Introdução à Inteligência Artificial


Detalhando as duas arquiteturas dos modelos de LLMs, temos:

Arquitetura Dense

é uma arquitetura onde cada neurônio em uma camada é conectado aos demais neurônios na camada seguinte. Essa conectividade total é também conhecida como fully connected.

Arquitetura MoE

é uma arquitetura de rede neural onde o modelo é dividido em vários “experts” (sub-modelos) especializados em diferentes partes do espaço de entrada. Possui uma camada denominada gating que determina quais experts serão ativados para uma dada entrada.

Inteligência Artificial - GEMINI


  • GEMINI assim como os modelos atuais, utilizam MoE - Mixtures of Experts, que são modelos que combinam várias redes neurais especializadas em tarefas específicas.

    • Essas redes podem ser treinadas separadamente e depois combinadas para formar um modelo maior e mais poderoso.
    • Assim, se cada modelo for treinado para uma especialidade diferente, o modelo combinado pode ser mais eficaz do que qualquer um dos modelos individuais e será considerado um modelo multimodal.

Inteligência Artificial - GEMINI


  • Tokens e Embeddings são a base de qualquer modelo de IA, e o GEMINI não é diferente.
    • Tokens são a menor unidade de texto que um modelo de IA pode processar.
    • Embeddings são vetores numéricos que representam palavras, frases ou documentos.

Em 1.000 tokens de palavras em português correspondem aproximadamente a 700 a 750 palavras. Entretanto, a contagem de palavras em um texto pode variar bastante dependendo da linguagem, do tamanho das palavras e do uso de pontuações.

Inteligência Artificial - GEMINI


Modelo de Arquitetura de um Transformer. fonte: (Vaswani et al., 2017)

Modelo simplista de arquitetura do GEMINI.

Inteligência Artificial - GEMINI


Alguns conceitos importantes quando se trabalha com algoritmos de LLMs, são:

  • Tokenização: Os dados de entrada são divididos em tokens, focando em texto, é a associação de número inteiro único para cada palavra ou sub-palavra;

  • Embedding: cada token é transformado em um vetor denso (embedding);

  • Camadas de Encoder: são responsáveis por processar e refinar os embeddings;

  • Self-Attention Mechanism: Cada token na sequência avalia a importância de todos os outros tokens, permitindo a incorporação de contexto global em cada embedding.

  • Saída do Encoder: O resultado das camadas de encoder é um conjunto de embeddings contextuais, onde cada token embedding contém informações sobre todo o contexto da sequência.

Modelo de Arquitetura de um Transformer. fonte: (Vaswani et al., 2017)

Inteligência Artificial - GEMINI


Alguns conceitos importantes quando se trabalha com algoritmos de LLMs, são:

  • Preparação da Entrada do Decoder: A entrada do decoder é preparada os embeddings contextuais do encoder;

  • Camada de Self-Attention do Decoder: Semelhante ao encoder, o decoder usa múltiplas cabeças de atenção para capturar diferentes aspectos da relação entre tokens, mas respeitando a ordem causal;

  • Camada de Atenção Encoder-Decoder: A camada de atenção encoder-decoder permite que o decoder se concentre em diferentes partes da entrada do encoder, dependendo do token que está sendo gerado.

  • Saída do Decoder: O resultado do decoder é um conjunto de embeddings contextuais finais, que são usados para prever o próximo token na sequência de saída.

  • Predição do Próximo Token: O modelo prediz o próximo token na sequência de saída com base nos embeddings contextuais finais.

Modelo de Arquitetura de um Transformer. fonte: (Vaswani et al., 2017)

Inteligência Artificial - GEMINI


Inteligência Artificial - GEMINI


Inteligência Artificial - Aplicações


Aplicação 1 - Correlação

  • prompt de entrada: “O que representa a imagem acima? Faça um resumo sobre a imagem com contexto estatístico.”

Inteligência Artificial


Aplicação 1 - Correlação

A imagem acima representa uma análise de correlação entre duas variáveis, A e B. A correlação é uma medida estatística que mostra a relação entre duas variáveis. Ela pode ser positiva, negativa ou nula. Uma correlação positiva significa que as duas variáveis estão relacionadas de forma direta, ou seja, quando uma variável aumenta, a outra também aumenta. Uma correlação negativa significa que as duas variáveis estão relacionadas de forma inversa, ou seja, quando uma variável aumenta, a outra diminui. Uma correlação nula significa que não há relação entre as duas variáveis.

A imagem também mostra os diferentes tipos de correlação. A correlação linear é uma relação linear entre duas variáveis, ou seja, os pontos no gráfico formam uma linha reta. A correlação exponencial é uma relação exponencial entre duas variáveis, ou seja, os pontos no gráfico formam uma curva exponencial. A correlação em forma de U é uma relação em forma de U entre duas variáveis, ou seja, os pontos no gráfico formam uma curva em forma de U.

A imagem também mostra a força da correlação. A força da correlação é medida pelo coeficiente de correlação, que pode variar de -1 a 1. Um coeficiente de correlação de 1 indica uma correlação positiva perfeita, um coeficiente de correlação de -1 indica uma correlação negativa perfeita e um coeficiente de correlação de 0 indica uma correlação nula.

A análise de correlação é uma ferramenta útil para entender a relação entre duas variáveis. Ela pode ser usada para identificar relações positivas, negativas ou nulas, bem como a força da correlação.

Inteligência Artificial


Aplicação 2 - Distribuição de Probabilidade Normal

  • prompt de entrada:
    1. “O que você identifica na imagem acima?”
    2. “Quantos parâmetros possuem a distribuição da imagem? Encontre os estimadores de máxima verossimihança dos parâmetros da distribuição acima, mostre as equações e descreva de forma teórica.”

Inteligência Artificial


Aplicação 2 - Distribuição de Probabilidade Normal

Inteligência Artificial - LLMs


Em termos práticos, alguns problemas que temos com LLMs (SLMs) são:

  • Alucinações: o modelo gera informações que não estão presentes nos dados de treinamento;

  • Viés: o modelo pode reproduzir e amplificar preconceitos e estereótipos presentes nos dados de treinamento;

  • Insegurança: o modelo pode fornecer respostas incorretas ou enganosas, sem indicar que não tem certeza sobre a resposta;

  • Incapacidade de generalização: o modelo pode ter dificuldade em lidar com situações fora do conjunto de dados de treinamento.

Inteligência Artificial - LLMs


Duas alternativas para mitigar esses problemas são:

  • Fine-Tuning: ajustar o modelo para um conjunto de dados específico, para que ele possa aprender a tarefa desejada;

  • RAG (Retrieve and Generate): que é um modelo que combina a capacidade de recuperar informações de um grande banco de dados com a capacidade de gerar texto de um modelo de linguagem.

Conclusão


  • Este trabalho teve como objetivo expor o alguns conceitos sobre LLMs, com foco no GEMINI da Google;

  • Estes modelos já estão presentes e disponíveis em nosso meio e podemos utilizá-los talvez como ferramente auxiliar no dia-a-dia para aumento de produtividade;

  • Também é possível avançar nas pesquisas e desenvolvimentos, pois existem problemas esses modelos, como sendo alguns:

    • alucinações, viés, insegurança e incapacidade de generalização;
  • até mesmo propor uma nova forma de abordagem, além da atual arquitetura existente que é a transformer;

  • A batalha de dados está sendo um desafio de desenvolvimento com IA Generativa:

Referências


  • Reid, Machel, et al. (2024). Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530 .

  • Vaswani, A., N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin (2017). Attention is all you need. Advances in neural information processing systems 30.

  • Devlin, J., M.-W. Chang, K. Lee, and K. Toutanova (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

  • Hirschberg, J. and C. D. Manning (2015). Advances in natural language processing. Sci- ence 349 (6245), 261–266.

Referências


Fontes das imagens utilizadas:




OBRIGADO!


Slide produzido com quarto





Lattes: http://lattes.cnpq.br/4617170601890026

LinkedIn: jodavidferreira

Site Pessoal: https://jodavid.github.io/

e-mail: