
Básico de LLM (Large Language Models) e o Modelo Estatístico
UFPE

Expandindo a linha do tempo para Modelos de Linguagem (Patriota, 2024):
(fonte: AI Experience - Google)
Estatisticamente, um modelo de linguagem é uma função que estima a distribuição de probabilidade condicional do próximo elemento da sequência, dado o histórico.
Entrada (Contexto): O histórico observado (uma sequência de tokens \(w_1, \dots, w_t\)). Saída: Um vetor de probabilidades sob parâmetros \(\boldsymbol{\theta}\) para a próxima ‘palavra’ (token \(w_{t+1}\)), dado o contexto.
\[ f(w_1, \dots, w_t; \boldsymbol{\theta}) = \boldsymbol{p}_\theta(w_1, \ldots, w_t) = \begin{pmatrix} P(w_{t+1} = v_1 | w_1, \dots, w_t; \boldsymbol{\theta}) \\ \vdots \\ P(w_{t+1} = v_V | w_1, \dots, w_t; \boldsymbol{\theta}) \end{pmatrix} \]
Onde \(\mathcal{V} = \{v_1, \dots, v_V\}\) é o conjunto do vocabulário de tamanho \(V\).
Imagine o contexto: “Recife é uma”. O modelo calcula as probabilidades condicionais:
O modelo atribui probabilidades altas para continuações plausíveis e baixas para incoerentes. Estas probabilidades são estimadas via métodos estatísticos (e.g., Máxima Verossimilhança).
Algumas informações sobre os modelos:

Legenda:

Os “dados de treinamento especial” são conjuntos de dados de alta qualidade, cuidadosamente selecionados e organizados. Eles podem incluir dados diversificados e representativos, dados enriquecidos com anotações ou metadados, dados sintéticos, e dados privados ou proprietários. Esses dados são valiosos para criar modelos mais precisos e especializados, capazes de entender nuances e aplicar conhecimento em contextos específicos, como saúde, direito, ou finanças.
Detalhando as duas arquiteturas dos modelos de LLMs, temos:
é uma arquitetura onde cada neurônio em uma camada é conectado aos demais neurônios na camada seguinte. Essa conectividade total é também conhecida como fully connected.
é uma arquitetura de rede neural onde o modelo é dividido em vários “experts” (sub-modelos) especializados em diferentes partes do espaço de entrada. Possui uma camada denominada gating que determina quais experts serão ativados para uma dada entrada.
A tokenização é o processo de pegar o texto e transformar as sequências de entrada para números.
<PAD>, <UNK>, <EOS> (End of Sentence).Para o tratamento estatístico multivariado, representamos cada token categórico via codificação One-Hot (vetor indicadora). Cada token torna-se um vetor de zeros com um 1 na posição correspondente à palavra no vocabulário.
Para um vocabulário \(\{A, B, C, D\}\), a sequência \(A, A, B\) vira uma sequência de vetores \(\dot{\mathbf{x}}_1, \dot{\mathbf{x}}_2, \dot{\mathbf{x}}_3\):
\[ \dot{\mathbf{x}}_1 = \begin{pmatrix} 1 \\ 0 \\ 0 \\ 0 \end{pmatrix}_A, \quad \dot{\mathbf{x}}_2 = \begin{pmatrix} 1 \\ 0 \\ 0 \\ 0 \end{pmatrix}_A, \quad \dot{\mathbf{x}}_3 = \begin{pmatrix} 0 \\ 1 \\ 0 \\ 0 \end{pmatrix}_B \]
Em probabilidade, tratamos o próximo token como uma variável aleatória multivariada (vetor aleatório) \(\mathbf{x}\) e as observações passadas como valores fixos \(\dot{\mathbf{x}}\).

Apesar da referência, palavras grandes podem ser divididas em subtokens menores, sendo assim, em 1.000 tokens de palavras em português correspondem aproximadamente a 700 a 750 palavras do nosso idioma.

Com tokens One-Hot, a variável aleatória do próximo token \(\mathbf{x}_{t+1}\) condicionada ao contexto histórico \(\dot{\mathbf{x}}_{1:t}\) segue uma distribuição Multinomial com tamanho de amostra \(n=1\):
\[ \mathbf{x}_{t+1} | \dot{\mathbf{x}}_{1:t} \sim \text{Multinomial}\left(1, \, \boldsymbol{p}_\theta(\dot{\mathbf{x}}_{1:t})\right) \]
em que \(\boldsymbol{p}_\theta(\dot{\mathbf{x}}_{1:t})\) é o vetor de probabilidades condicionais estimado pelo modelo (a rede neural), ou seja, dado que reescrevemos \(w_i\) como one-hot’s \(\dot{\mathbf{x}}_i\) (Slide 8), temos:
\[ f(w_1, \dots, w_t; \boldsymbol{\theta}) = \boldsymbol{p}_\theta(w_1, \ldots, w_t) \rightarrow f(x_1, \dots, x_t; \boldsymbol{\theta}) = \boldsymbol{p}_\theta(\dot{\mathbf{x}}_{1:t}) \]
Treinar o LLM nada mais é do que a estimação dos parâmetros \(\boldsymbol{\theta}\) da rede neural via Máxima Verossimilhança. Para uma sequência de \(T\) tokens, a função de verossimilhança é o produto das densidades multinomiais:
\[ L(\boldsymbol{\theta}) = \prod_{t=1}^{T-1} \prod_{j=1}^{V} \left[ p_{\theta, j}(\dot{\mathbf{x}}_{1:t}) \right]^{x_{j, t+1}} \]
onde \(x_{j, t+1} \in \{0, 1\}\) é o componente \(j\) do token one-hot verdadeiro no tempo \(t+1\).
Na prática, é minimizado a log-verossimilhança negativa, que também pode ser chamada de Função de Perda de Entropia Cruzada (Cross-Entropy Loss): \[ \ell(\boldsymbol{\theta}) = - \sum_{t=1}^{T-1} \sum_{j=1}^{V} x_{j, t+1} \log p_{\theta, j}(\dot{\mathbf{x}}_{1:t}) \]
Embeddings são vetores numéricos obtidos dos tokens e representam palavras, frases ou documentos.
As word embeddings transformam os valores inteiros únicos obtidos a partir do tokenizador em um array \(n\)-dimensional.
Por exemplo, a palavra ‘gato’ pode ter o valor ‘20’ a partir do tokenizador, mas a camada de embedding utilizará todas as palavras no seu vocabulário associadas a ‘gato’ para construir o vetor de embeddings. Ela encontra “dimensões” ou características, como “ser vivo”, “felino”, “humano”, “gênero”, etc.
Assim, a palavra ‘gato’ terá valores diferentes para cada dimensão/característica.

Detalhes importantes:
Similaridade do Cosseno (\(Sim_{cos}\)):
Distância do Cosseno (\(D_{cos} = 1 - Sim_{cos}\)):

Dada a sequência de tokens em formato One-Hot no contexto \(\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_t\):
O estimador não-paramétrico de Nadaraya-Watson estima a relação \(m(x) = \mathbb{E}[Y|X=x]\) a partir de observações históricas \((x_i, y_i)_{i=1}^t\):
\[ \hat{m}(x) = \sum_{i=1}^t w_i(x) y_i \quad \text{onde } \quad w_i(x) = \frac{K(x, x_i)}{\sum_{j=1}^t K(x, x_j)} \] sendo \(K(\cdot, \cdot)\) uma função de Kernel de similaridade.
No mecanismo de Atenção, a nova representação do token atual \(\mathbf{h}_t\) é a média ponderada dos valores \(\mathbf{v}_i\) e utilizado o Kernel Exponencial:
\[ \mathbf{h}_t = \sum_{i=1}^t w_i(\mathbf{q}_t) \mathbf{v}_i \quad \text{onde } \quad w_i(\mathbf{q}_t) = \frac{\exp\left(\frac{\mathbf{q}_t^\top \mathbf{k}_i}{\sqrt{d_k}}\right)}{\sum_{j=1}^t \exp\left(\frac{\mathbf{q}_t^\top \mathbf{k}_j}{\sqrt{d_k}}\right)} \]
A equivalência matemática entre a Estatística e o Deep Learning é direta:
| Estatística (Nadaraya-Watson) | Deep Learning (Attention) | Significado Semântico |
|---|---|---|
| Ponto de Avaliação (\(x\)) | Query atual (\(\mathbf{q}_t\)) | Representação do token na posição \(t\) que busca contexto |
| Covariável de Histórico (\(x_i\)) | Keys passadas (\(\mathbf{k}_i\)) | Representação dos tokens do contexto (\(i \le t\)) para busca |
| Resposta Observada (\(y_i\)) | Values passados (\(\mathbf{v}_i\)) | Conteúdo informacional dos tokens do contexto (\(i \le t\)) |
| Função de Kernel \(K(x, x_i)\) | Kernel Exponencial \(\exp\left(\frac{\mathbf{q}_t^\top \mathbf{k}_i}{\sqrt{d_k}}\right)\) | Medida de similaridade/associação |
| Média Ponderada \(\hat{m}(x)\) | Vetor de Saída \(\mathbf{h}_t\) | Nova representação contextualizada do token na posição \(t\) |
Desse modo, a Atenção nada mais é do que uma Suavização de Núcleo (Kernel Smoothing) Multivariada parametrizada e adaptada a representações vetoriais.
O Transformer atua como um enorme extrator de características (feature extractor). Se olharmos a última camada, ela é uma Regressão Logística Multinomial:
\[ \boldsymbol{p}_\theta(\dot{\mathbf{x}}_{1:t}) = \text{softmax}(W_U \mathbf{h}_t + \mathbf{b}) \]
Dessa forma, a rede neural profunda (“deep learning”) apenas constrói as covariáveis perfeitas \(\mathbf{h}_t\) para que a tradicional Regressão Logística Multinomial preveja a próxima palavra.
Para consolidar o fluxo do modelo probabilístico:
Alguns conceitos importantes quando se trabalha com algoritmos de LLMs, são:
Tokenização: Os dados de entrada são divididos em tokens;
Embedding: cada token é transformado em um vetor denso;
Camadas de Encoder: processam e refinam os embeddings;
Self-Attention Mechanism: Cada token avalia a importância de todos os outros.
Saída do Encoder: Conjunto de embeddings contextuais.

Alguns conceitos importantes quando se trabalha com algoritmos de LLMs, são:
Preparação da Entrada do Decoder: A entrada do decoder é preparada os embeddings contextuais do encoder;
Camada de Self-Attention do Decoder: Semelhante ao encoder, o decoder usa múltiplas cabeças de atenção para capturar diferentes aspectos da relação entre tokens, mas respeitando a ordem causal;
Camada de Atenção Encoder-Decoder: A camada de atenção encoder-decoder permite que o decoder se concentre em diferentes partes da entrada do encoder, dependendo do token que está sendo gerado.
Saída do Decoder: O resultado do decoder é um conjunto de embeddings contextuais finais, que são usados para prever o próximo token na sequência de saída.
Predição do Próximo Token: O modelo prediz o próximo token na sequência de saída com base nos embeddings contextuais finais.

Após estimar os parâmetros, o texto é gerado de forma autoregressiva. O token gerado é inserido no contexto e o processo é repetido até gerar o token <EOS>.
\[ f(x_1, \dots, x_k) \to x_{k+1} \] \[ f(x_1, \dots, x_k, x_{k+1}) \to x_{k+2} \] \[ \vdots \]
Para escolher o próximo token a partir das probabilidades, usamos técnicas como top-k e top-p.
Os modelos possuem alguns hiperparâmetros ajustáveis para inferência dos retornos.
Entretanto, vamos falar primeiramente definições de Top-k e Top-p e depois detalharemos sobre a Temperatura.
O top-k proporciona uma aleatoriedade controlada ao considerar um número fixo de tokens mais prováveis, enquanto o top-p permite um controle dinâmico sobre o número de tokens considerados, resultando em diferentes níveis de diversidade no texto gerado.
A probabilidade cumulativa refere-se ao somatório das probabilidades de um conjunto de eventos ou opções, somadas em ordem decrescente de probabilidade até que um certo limite seja atingido
Suponha que o modelo tenha os seguintes tokens candidatos, com suas probabilidades associadas:
| Token | Probabilidade |
|---|---|
| Token A | 0,40 |
| Token B | 0,30 |
| Token C | 0,15 |
| Token D | 0,10 |
| Token E | 0,05 |
Agora, se você definir top-p = 0,85, o modelo irá selecionar tokens até que a probabilidade cumulativa atinja 0,85.
Assim, apenas os tokens A, B e C serão considerados, pois a soma de suas probabilidades atinge 0,85. Tokens com probabilidade mais baixa (como D e E) serão excluídos da escolha, a menos que top-p seja aumentado.
Vamos relembrar…
\[softmax(z_i) = \frac{e^{z_i}}{\sum_{j=1}^V e^{z_j}},\]
em que \(z_i\) é o logit do token \(i\) e \(V\) é o tamanho do vocabulário.
O parâmetro de temperatura é aplicado diretamente à função softmax.
\[softmax(z_i, T) = \frac{e^{\frac{z_i}{T}}}{\sum_{j=1}^V e^{\frac{z_j}{T}}},\]
onde \(T\) é a temperatura.
Efeito da Temperatura
À medida que a temperatura se aproxima de 0, as probabilidades de saída se tornam mais “agudas”. Uma das probabilidades ficará próxima de 1.
Conforme a temperatura aumenta, as probabilidades de saída se tornam mais “planas” ou “uniformes”, reduzindo a diferença entre as probabilidades dos diferentes elementos.
O intervalo do parâmetro de temperatura é definido entre 0 e 1 na documentação da OpenAI. No contexto da Cohere, os valores de temperatura estão dentro do intervalo de 0 a 5.

O que esses modelos modernos podem fazer?
Problemas:
O modelo ainda erra de forma confiante.
Não se sabe se apenas inserir módulos ou modificar o treinamento resolveria questões lógicas complexas.
Em termos práticos, alguns problemas que temos com LLMs (SLMs) são:
Duas alternativas para mitigar esses problemas são:
Fine-Tuning: ajustar o modelo para um conjunto de dados específico, para que ele possa aprender a tarefa desejada;
RAG (Retrieve and Generate): que é um modelo que combina a capacidade de recuperar informações de um grande banco de dados com a capacidade de gerar texto de um modelo de linguagem.

Patriota, A. G. (2024). O modelo estatístico por trás dos Modelos de Linguagem Modernos. Apresentação para o V EPBEST.
Reid, Machel, et al. (2024). Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530 .
Vaswani, A., N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin (2017). Attention is all you need. Advances in neural information processing systems 30.
Devlin, J., M.-W. Chang, K. Lee, and K. Toutanova (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Fontes das imagens utilizadas:
https://iaexpert.academy/2017/03/23/ia-simbolica-x-ia-conexionista/
https://www.zendesk.com.br/blog/inteligencia-artificial-simbolica-e-conexionista/
https://bleedaiacademy.com/overview-of-the-field-artificial-intelligence-part-4/
https://www.researchgate.net/publication/ 221053431_Application_of_Mixture_of_Experts_to_Construct_Real_Estate_Appraisal_Models
https://lena-voita.github.io/nlp_course/word_embeddings.html
OBRIGADO!
Slide produzido com quarto
Lattes: http://lattes.cnpq.br/4617170601890026
LinkedIn: jodavidferreira
Site Pessoal: https://jodavid.github.io/
e-mail: jodavid.ferreira@ufpe.br
Redes Neurais - Prof. Jodavid Ferreira