utilização da GenAI (IA Generativa) do Google para interpretação de imagens com contexto estatístico
UFPE | CTO Think:AI

Existem duas abordagens da Inteligência Artificial:
tenta replicar a inteligência humana, como a capacidade de resolver problemas através de regras e lógica. Por meio de símbolos, como palavras e conceitos, uma estrutura lógica é organizada que permite ao sistema de IA realizar as tarefas.
é baseada na simulação dos componentes do cérebro (modelagem da inteligência humana), como neurônios e sinapses. Aqui as soluções são baseadas em padrões e aprendizado de máquina, tentando imitar o funcionamento do cérebro humano.
Exemplo de IA Simbólica:

Exemplo de IA Conexionista

A Inteligência Artificial é dividida em duas partes:
é quando uma máquina realmente entende o que está acontecendo. Podem existir emoções e criatividade. Na maior parte, é o que vemo em filmes de ficção científica.
é quando uma máquina realiza a correspondência entre padrões, e está relacionada a tarefas específicas, e as capacidades não são facilmente transferíveis para outros sistemas.
(fonte: AI Experience - Google)
GEMINI é um modelo de IA desenvolvido pelo Google que pode entender e gerar texto, através de próprios textos, imagens e áudio. O modelo é capaz de responder a perguntas, criar histórias e até mesmo compor músicas.
GPT-4o da OpenAI, modelo multimodal que consegue interpretar áudio, visão e texto em tempo real.
Algunas informações sobre os modelos:

Legenda:

Os “dados de treinamento especial” são conjuntos de dados de alta qualidade, cuidadosamente selecionados e organizados. Eles podem incluir dados diversificados e representativos, dados enriquecidos com anotações ou metadados, dados sintéticos, e dados privados ou proprietários. Esses dados são valiosos para criar modelos mais precisos e especializados, capazes de entender nuances e aplicar conhecimento em contextos específicos, como saúde, direito, ou finanças.
Detalhando as duas arquiteturas dos modelos de LLMs, temos:
é uma arquitetura onde cada neurônio em uma camada é conectado aos demais neurônios na camada seguinte. Essa conectividade total é também conhecida como fully connected.
é uma arquitetura de rede neural onde o modelo é dividido em vários “experts” (sub-modelos) especializados em diferentes partes do espaço de entrada. Possui uma camada denominada gating que determina quais experts serão ativados para uma dada entrada.
GEMINI assim como os modelos atuais, utilizam MoE - Mixtures of Experts, que são modelos que combinam várias redes neurais especializadas em tarefas específicas.

Em 1.000 tokens de palavras em português correspondem aproximadamente a 700 a 750 palavras. Entretanto, a contagem de palavras em um texto pode variar bastante dependendo da linguagem, do tamanho das palavras e do uso de pontuações.



Alguns conceitos importantes quando se trabalha com algoritmos de LLMs, são:
Tokenização: Os dados de entrada são divididos em tokens, focando em texto, é a associação de número inteiro único para cada palavra ou sub-palavra;
Embedding: cada token é transformado em um vetor denso (embedding);
Camadas de Encoder: são responsáveis por processar e refinar os embeddings;
Self-Attention Mechanism: Cada token na sequência avalia a importância de todos os outros tokens, permitindo a incorporação de contexto global em cada embedding.
Saída do Encoder: O resultado das camadas de encoder é um conjunto de embeddings contextuais, onde cada token embedding contém informações sobre todo o contexto da sequência.

Alguns conceitos importantes quando se trabalha com algoritmos de LLMs, são:
Preparação da Entrada do Decoder: A entrada do decoder é preparada os embeddings contextuais do encoder;
Camada de Self-Attention do Decoder: Semelhante ao encoder, o decoder usa múltiplas cabeças de atenção para capturar diferentes aspectos da relação entre tokens, mas respeitando a ordem causal;
Camada de Atenção Encoder-Decoder: A camada de atenção encoder-decoder permite que o decoder se concentre em diferentes partes da entrada do encoder, dependendo do token que está sendo gerado.
Saída do Decoder: O resultado do decoder é um conjunto de embeddings contextuais finais, que são usados para prever o próximo token na sequência de saída.
Predição do Próximo Token: O modelo prediz o próximo token na sequência de saída com base nos embeddings contextuais finais.



A imagem acima representa uma análise de correlação entre duas variáveis, A e B. A correlação é uma medida estatística que mostra a relação entre duas variáveis. Ela pode ser positiva, negativa ou nula. Uma correlação positiva significa que as duas variáveis estão relacionadas de forma direta, ou seja, quando uma variável aumenta, a outra também aumenta. Uma correlação negativa significa que as duas variáveis estão relacionadas de forma inversa, ou seja, quando uma variável aumenta, a outra diminui. Uma correlação nula significa que não há relação entre as duas variáveis.
A imagem também mostra os diferentes tipos de correlação. A correlação linear é uma relação linear entre duas variáveis, ou seja, os pontos no gráfico formam uma linha reta. A correlação exponencial é uma relação exponencial entre duas variáveis, ou seja, os pontos no gráfico formam uma curva exponencial. A correlação em forma de U é uma relação em forma de U entre duas variáveis, ou seja, os pontos no gráfico formam uma curva em forma de U.
A imagem também mostra a força da correlação. A força da correlação é medida pelo coeficiente de correlação, que pode variar de -1 a 1. Um coeficiente de correlação de 1 indica uma correlação positiva perfeita, um coeficiente de correlação de -1 indica uma correlação negativa perfeita e um coeficiente de correlação de 0 indica uma correlação nula.
A análise de correlação é uma ferramenta útil para entender a relação entre duas variáveis. Ela pode ser usada para identificar relações positivas, negativas ou nulas, bem como a força da correlação.



Em termos práticos, alguns problemas que temos com LLMs (SLMs) são:
Duas alternativas para mitigar esses problemas são:
Fine-Tuning: ajustar o modelo para um conjunto de dados específico, para que ele possa aprender a tarefa desejada;
RAG (Retrieve and Generate): que é um modelo que combina a capacidade de recuperar informações de um grande banco de dados com a capacidade de gerar texto de um modelo de linguagem.

Este trabalho teve como objetivo expor o alguns conceitos sobre LLMs, com foco no GEMINI da Google;
Estes modelos já estão presentes e disponíveis em nosso meio e podemos utilizá-los talvez como ferramente auxiliar no dia-a-dia para aumento de produtividade;
Também é possível avançar nas pesquisas e desenvolvimentos, pois existem problemas esses modelos, como sendo alguns:
até mesmo propor uma nova forma de abordagem, além da atual arquitetura existente que é a transformer;

Reid, Machel, et al. (2024). Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530 .
Vaswani, A., N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin (2017). Attention is all you need. Advances in neural information processing systems 30.
Devlin, J., M.-W. Chang, K. Lee, and K. Toutanova (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Hirschberg, J. and C. D. Manning (2015). Advances in natural language processing. Sci- ence 349 (6245), 261–266.
Fontes das imagens utilizadas:
https://iaexpert.academy/2017/03/23/ia-simbolica-x-ia-conexionista/
https://www.zendesk.com.br/blog/inteligencia-artificial-simbolica-e-conexionista/
https://bleedaiacademy.com/overview-of-the-field-artificial-intelligence-part-4/
https://www.researchgate.net/publication/ 221053431_Application_of_Mixture_of_Experts_to_Construct_Real_Estate_Appraisal_Models
https://lena-voita.github.io/nlp_course/word_embeddings.html
OBRIGADO!
Slide produzido com quarto
Lattes: http://lattes.cnpq.br/4617170601890026
LinkedIn: jodavidferreira
Site Pessoal: https://jodavid.github.io/
e-mail: jodavid.ferreira@ufpe.br

GEMINI - Inteligência Artificial Generativa - Jodavid Ferreira