GEMINI

utilização da GenAI (IA Generativa) do Google para interpretação de imagens com contexto estatístico

Jodavid Ferreira | Paulo Campos

UFPE | CTO Think:AI

Evolução da IA

Inteligência Artificial

Existem duas abordagens da Inteligência Artificial:

IA Simbólica

tenta replicar a inteligência humana, como a capacidade de resolver problemas através de regras e lógica. Por meio de símbolos, como palavras e conceitos, uma estrutura lógica é organizada que permite ao sistema de IA realizar as tarefas.

IA Conexionista

é baseada na simulação dos componentes do cérebro (modelagem da inteligência humana), como neurônios e sinapses. Aqui as soluções são baseadas em padrões e aprendizado de máquina, tentando imitar o funcionamento do cérebro humano.

Inteligência Artificial

Exemplo de IA Simbólica:
- Sistemas Especialistas

Exemplo de IA Conexionista
- Redes Neurais - CNN

Inteligência Artificial

A Inteligência Artificial é dividida em duas partes:

Inteligência Artificial Geral ou IA Forte

é quando uma máquina realmente entende o que está acontecendo. Podem existir emoções e criatividade. Na maior parte, é o que vemo em filmes de ficção científica.

IA Fraca

é quando uma máquina realiza a correspondência entre padrões, e está relacionada a tarefas específicas, e as capacidades não são facilmente transferíveis para outros sistemas.

Inteligência Artificial

(fonte: AI Experience - Google)

Inteligência Artificial

Inteligência Artificial

Machine Learning

Deep Learning

IA Generativa

Inteligência Artificial

Inteligência Artificial

Machine Learning

Deep Learning

IA Generativa

Inteligência Artificial

Mas o que estão por trás da IA Generativa?

LLMs - Large Language Models

inicialmente foram definidos como modelos projetados para compreender e gerar linguagem natural;
atualmente são treinados em grandes quantidades de dados, como livros, imagens, vídeos;
o “large”“ em LLM refere-se ao número de parâmetros que o modelo possui, geralmente na casa dos bilhões. Geralmente utilizados em soluções que necessitam ter contexto similar a interação entre humanos.

SLMs - Small Language Models

são modelos menores, no sentido que posuem menos parâmetros, geralmente na faixa de milhões;
continuam utilizando grandes quantidades de dados como textos, imagens e vídeos;
necessitam de menos recursos computacionais para treinamento e inferência, logo, são mais viáveis para uso em dispositivos com recursos limitados, como:
- smartphones e sistemas embarcados.

Inteligência Artificial

Alguns dos modelos em alta do momento?

OpenAI:
- DALL-E - modelo de geração de imagens;
- ChatGPT - modelo de linguagem natural - multimodal;
- SORA - modelo de texto-para-vídeo;
- Whisper - modelo de audio-para-texto;
Meta:
- Llama3.1 - modelo de linguagem natural;

Google:
- GEMINI - modelo multimodal;
Anthropic:
- CLAUDE 3 - modelo de linguagem natural;

Maritaca:
- Sabiá 3¹ - modelo de linguagem natural;
- Sabiá 2 - modelo de linguagem natural;
  - baseado no LLaMA;

Introdução à Inteligência Artificial

GEMINI é um modelo de IA desenvolvido pelo Google que pode entender e gerar texto, através de próprios textos, imagens e áudio. O modelo é capaz de responder a perguntas, criar histórias e até mesmo compor músicas.

Introdução à Inteligência Artificial

GPT-4o da OpenAI, modelo multimodal que consegue interpretar áudio, visão e texto em tempo real.

Introdução à Inteligência Artificial

Algunas informações sobre os modelos:

Legenda:

Os “dados de treinamento especial” são conjuntos de dados de alta qualidade, cuidadosamente selecionados e organizados. Eles podem incluir dados diversificados e representativos, dados enriquecidos com anotações ou metadados, dados sintéticos, e dados privados ou proprietários. Esses dados são valiosos para criar modelos mais precisos e especializados, capazes de entender nuances e aplicar conhecimento em contextos específicos, como saúde, direito, ou finanças.

Introdução à Inteligência Artificial

Detalhando as duas arquiteturas dos modelos de LLMs, temos:

Arquitetura Dense

é uma arquitetura onde cada neurônio em uma camada é conectado aos demais neurônios na camada seguinte. Essa conectividade total é também conhecida como fully connected.

Arquitetura MoE

é uma arquitetura de rede neural onde o modelo é dividido em vários “experts” (sub-modelos) especializados em diferentes partes do espaço de entrada. Possui uma camada denominada gating que determina quais experts serão ativados para uma dada entrada.

Inteligência Artificial - GEMINI

GEMINI assim como os modelos atuais, utilizam MoE - Mixtures of Experts, que são modelos que combinam várias redes neurais especializadas em tarefas específicas.
- Essas redes podem ser treinadas separadamente e depois combinadas para formar um modelo maior e mais poderoso.
- Assim, se cada modelo for treinado para uma especialidade diferente, o modelo combinado pode ser mais eficaz do que qualquer um dos modelos individuais e será considerado um modelo multimodal.

Inteligência Artificial - GEMINI

Tokens e Embeddings são a base de qualquer modelo de IA, e o GEMINI não é diferente.
- Tokens são a menor unidade de texto que um modelo de IA pode processar.
- Embeddings são vetores numéricos que representam palavras, frases ou documentos.

Em 1.000 tokens de palavras em português correspondem aproximadamente a 700 a 750 palavras. Entretanto, a contagem de palavras em um texto pode variar bastante dependendo da linguagem, do tamanho das palavras e do uso de pontuações.

Inteligência Artificial - GEMINI

Modelo de Arquitetura de um Transformer. fonte: (Vaswani et al., 2017)

Modelo simplista de arquitetura do GEMINI.

Inteligência Artificial - GEMINI

Alguns conceitos importantes quando se trabalha com algoritmos de LLMs, são:

Tokenização: Os dados de entrada são divididos em tokens, focando em texto, é a associação de número inteiro único para cada palavra ou sub-palavra;
Embedding: cada token é transformado em um vetor denso (embedding);
Camadas de Encoder: são responsáveis por processar e refinar os embeddings;
Self-Attention Mechanism: Cada token na sequência avalia a importância de todos os outros tokens, permitindo a incorporação de contexto global em cada embedding.
Saída do Encoder: O resultado das camadas de encoder é um conjunto de embeddings contextuais, onde cada token embedding contém informações sobre todo o contexto da sequência.

Inteligência Artificial - GEMINI

Alguns conceitos importantes quando se trabalha com algoritmos de LLMs, são:

Preparação da Entrada do Decoder: A entrada do decoder é preparada os embeddings contextuais do encoder;
Camada de Self-Attention do Decoder: Semelhante ao encoder, o decoder usa múltiplas cabeças de atenção para capturar diferentes aspectos da relação entre tokens, mas respeitando a ordem causal;
Camada de Atenção Encoder-Decoder: A camada de atenção encoder-decoder permite que o decoder se concentre em diferentes partes da entrada do encoder, dependendo do token que está sendo gerado.
Saída do Decoder: O resultado do decoder é um conjunto de embeddings contextuais finais, que são usados para prever o próximo token na sequência de saída.
Predição do Próximo Token: O modelo prediz o próximo token na sequência de saída com base nos embeddings contextuais finais.

Inteligência Artificial - GEMINI

Inteligência Artificial - Aplicações

Aplicação 1 - Correlação

prompt de entrada: “O que representa a imagem acima? Faça um resumo sobre a imagem com contexto estatístico.”

Inteligência Artificial

Aplicação 1 - Correlação

A imagem acima representa uma análise de correlação entre duas variáveis, A e B. A correlação é uma medida estatística que mostra a relação entre duas variáveis. Ela pode ser positiva, negativa ou nula. Uma correlação positiva significa que as duas variáveis estão relacionadas de forma direta, ou seja, quando uma variável aumenta, a outra também aumenta. Uma correlação negativa significa que as duas variáveis estão relacionadas de forma inversa, ou seja, quando uma variável aumenta, a outra diminui. Uma correlação nula significa que não há relação entre as duas variáveis.

A imagem também mostra os diferentes tipos de correlação. A correlação linear é uma relação linear entre duas variáveis, ou seja, os pontos no gráfico formam uma linha reta. A correlação exponencial é uma relação exponencial entre duas variáveis, ou seja, os pontos no gráfico formam uma curva exponencial. A correlação em forma de U é uma relação em forma de U entre duas variáveis, ou seja, os pontos no gráfico formam uma curva em forma de U.

A imagem também mostra a força da correlação. A força da correlação é medida pelo coeficiente de correlação, que pode variar de -1 a 1. Um coeficiente de correlação de 1 indica uma correlação positiva perfeita, um coeficiente de correlação de -1 indica uma correlação negativa perfeita e um coeficiente de correlação de 0 indica uma correlação nula.

A análise de correlação é uma ferramenta útil para entender a relação entre duas variáveis. Ela pode ser usada para identificar relações positivas, negativas ou nulas, bem como a força da correlação.

Inteligência Artificial

Aplicação 2 - Distribuição de Probabilidade Normal

prompt de entrada:
1. “O que você identifica na imagem acima?”
2. “Quantos parâmetros possuem a distribuição da imagem? Encontre os estimadores de máxima verossimihança dos parâmetros da distribuição acima, mostre as equações e descreva de forma teórica.”

Inteligência Artificial

Aplicação 2 - Distribuição de Probabilidade Normal

Inteligência Artificial - LLMs

Em termos práticos, alguns problemas que temos com LLMs (SLMs) são:

Alucinações: o modelo gera informações que não estão presentes nos dados de treinamento;

Viés: o modelo pode reproduzir e amplificar preconceitos e estereótipos presentes nos dados de treinamento;

Insegurança: o modelo pode fornecer respostas incorretas ou enganosas, sem indicar que não tem certeza sobre a resposta;

Incapacidade de generalização: o modelo pode ter dificuldade em lidar com situações fora do conjunto de dados de treinamento.

Inteligência Artificial - LLMs

Duas alternativas para mitigar esses problemas são:

Fine-Tuning: ajustar o modelo para um conjunto de dados específico, para que ele possa aprender a tarefa desejada;
RAG (Retrieve and Generate): que é um modelo que combina a capacidade de recuperar informações de um grande banco de dados com a capacidade de gerar texto de um modelo de linguagem.

Conclusão

Este trabalho teve como objetivo expor o alguns conceitos sobre LLMs, com foco no GEMINI da Google;
Estes modelos já estão presentes e disponíveis em nosso meio e podemos utilizá-los talvez como ferramente auxiliar no dia-a-dia para aumento de produtividade;
Também é possível avançar nas pesquisas e desenvolvimentos, pois existem problemas esses modelos, como sendo alguns:
- alucinações, viés, insegurança e incapacidade de generalização;
até mesmo propor uma nova forma de abordagem, além da atual arquitetura existente que é a transformer;

A batalha de dados está sendo um desafio de desenvolvimento com IA Generativa:

Referências

Reid, Machel, et al. (2024). Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530 .
Vaswani, A., N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin (2017). Attention is all you need. Advances in neural information processing systems 30.
Devlin, J., M.-W. Chang, K. Lee, and K. Toutanova (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Hirschberg, J. and C. D. Manning (2015). Advances in natural language processing. Sci- ence 349 (6245), 261–266.

Referências

Fontes das imagens utilizadas:

OBRIGADO!

Slide produzido com quarto

Lattes: http://lattes.cnpq.br/4617170601890026

LinkedIn: jodavidferreira

Site Pessoal: https://jodavid.github.io/

e-mail: jodavid.ferreira@ufpe.br