Modelos e dados
UFPE
representam variáveies aleatórias (v.a.);
representam realizações da variáveis aleatórias;
representam vetores aleatórios;
representam realização de vetores aleatórios;
representam matrizes aleatórios;
representam realização de matrizes aleatória;
dimensão das \(features\), variáveis, parâmetros
tamanho da amostra
\(i\)-ésima observação, instância
\(j\)-ésima \(feature\), variável, parâmetro
Machine Leaning (ML) ou Aprendizado de máquina (AM) é um subcampo da Inteligência Artificial que estuda, desenvolve e analisa os algoritmos de aprendizado. Através de utilização dos métodos de AM, modelos baseado em dados podem ser criados para solucionar um determinado tipo de problema específico que de IA, dentre eles, aprendizados supervisionados, não supervisionados e aprendizagem por reforço.
Inicialmente, as aplicações que eram consideradas de AM eram apenas as desenvolvidas estritamente pela comunidade da computação, contudo, no final dos anos 90, as aplicações de AM começaram a ter intersecções com as de estatística.
Atualmente, a comunidade de AM é bastante interdisciplinar, sendo a estatística uma das áreas. Enquanto que até os anos 90, métodos criados pela estatística começavam a ser incorporados em AM, atualmente a direção oposta está cada vez mais comum: métodos desenvolvidos por AM começaram a ser usados em estatística.
Dessa forma, hoje os algoritmos existentes em Machine Learning e Inteligência Artificial possuem como base em sua maioria conceitos da Estatística e Computação.
O machine learning assume muitas formas e é conhecido por muitos nomes:
Alguns terão vida longa, outros durarão menos.
O machine learning às vezes é confundido com IA, mas como já sabem, ele é um subcampo da IA, entretanto, cresceu tanto e foi tão bem-sucedido que ofusca sua orgulhosa mãe.
O machine learning às vezes é confundido com IA, mas como já sabem, ele é um subcampo da IA, entretanto, cresceu tanto e foi tão bem-sucedido que ofusca sua orgulhosa mãe.
Aprendizado de Máquina combina dados, modelos e otimização e aprendizado.
Três elementos essenciais:
Objetivo central:
“O que define um bom modelo?”
Performance em dados não vistos + métricas objetivas
A função \(f\) é desconhecida. Representa a solução IDEAL.
Os algoritmos de ML buscan uma função \(g \approx f\).
Os dados são organizados em uma matriz \(\dot{\mathbf{X}} \in \mathbb{R}^{n \times p}\), onde:
Exemplo:
ID | Idade | Salário |
---|---|---|
1 | 25 | 3000 |
2 | 40 | 5000 |
3 | 60 | 7000 |
4 | 30 | 3500 |
5 | 40 | 8000 |
em que, cada linha é um vetor \(\dot{\mathbf{x}}_i \in \mathbb{R}^p\), \(i = 1, \ldots, n\), denominado instância, observação, ou até mesmo amostra.
Um modelo pode ser representado por uma função matemática \(f: \mathbb{R}^p \rightarrow \mathbb{R}\):
\[f(\dot{\mathbf{x}}) = \boldsymbol{\theta}^\top \dot{\mathbf{x}} + \theta_0\]
em que:
Em modelos probabilísticos, associamos uma distribuição de probabilidade aos dados, e assim, incorporamos incerteza através das distribuições.
No exemplo abaixo, de uma regressão com ruído Gaussiano é assumido que o valor \(y_i\) segue uma distribuição normal centrada em \(\boldsymbol{\theta}^T \dot{\mathbf{x}}_i\),
\[p(y_i|\dot{\mathbf{x}}_i, \boldsymbol{\theta}) = \mathcal{N}(y_i|\boldsymbol{\theta}^\top \dot{\mathbf{x}}_i, \sigma^2)\]
\[p(y_i|\dot{\mathbf{x}}_i, \boldsymbol{\theta}) = \mathcal{N}(y_i|\boldsymbol{\theta}^\top \dot{\mathbf{x}}_i, \sigma^2)\]
Conceitos importantes incluem:
Conceitos importantes incluem:
O aprendizado supervisionado é o tipo mais comum de aprendizado de máquina. Ele é usado para prever um resultado com base em um conjunto de variáveis de entrada.
O aprendizado supervisionado é chamado assim porque o algoritmo aprende a partir de um conjunto de dados rotulados, ou seja, um conjunto de dados que contém entradas e saídas desejadas.
O aprendizado supervisionado é usado em uma ampla variedade de aplicações, geralmente com algoritmos de classificação e regressão.
Quando a saída desejada é uma variável qualitativa \((y \in \mathbb{N})\), o problema é chamado de CLASSIFICAÇÃO.
Obtém um modelo otimizado por meio de treinamento e aprendizado baseado em observações \(\mathbf{x}_i\), com \(i = 1, 2, \ldots, n\), para as quais se tem a respectiva resposta \(y_i\) desejada.
Cada observação \(\mathbf{x}_i\) pode ser formada por \(p\) variáveis (features) independentes \(\mathbf{x}_i = x_{i1}, x_{i2}, \ldots, x_{ip}\), com \(p \geq 1\).
Por exemplo:
\[\mathbf{x}_{new} = [\text{Weather = 'Rainy', Temperature = 'Warm', Wind Speed = 'Weak'}] \rightarrow y_{new}= ?\]
Quando a saída desejada é referentes a uma variável quantintativa seja essa, pertencente aos números inteiros \((y \in \mathbb{Z})\) ou aos números reais \((y \in \mathbb{R})\)1, o problema é chamado de REGRESSÃO2.
Por exemplo:
O aprendizado não supervisionado é o tipo de aprendizado de máquina que é usado para fazer inferências a partir de conjuntos de dados não rotulados.
O aprendizado não supervisionado é chamado assim porque o algoritmo não é treinado com dados rotulados. Em vez disso, o algoritmo aprende com os dados de treinamento e é capaz de fazer inferências sobre novos dados.
O aprendizado não supervisionado é usado em uma ampla variedade de aplicações, com algoritmos de clusterização, redução de dimensionalidade.
Geralmente é utilizada para um conjunto de dados sendo os grupos formados o objetivo final, entretanto, é possível alocar novas observações para os grupos formados através das semelhanças entre novas observações e os elementos dos grupos.
No lugar da amostra, temos uma sequência de ações que são tomadas em um ambiente, e o algoritmo aprende a melhor sequência de ações para maximizar uma recompensa.
Para cada ação, há um feedback que indica se a ação foi boa ou ruim.
Por exemplo: Após várias jogadas, ganhou o jogo de damas.
Figure 1
Observe que o processo é iterativo, ou seja, é necessário voltar a etapas anteriores para ajustar o modelo.
Dataset: designa amplamente os dados usados no aprendizado de máquina. Cada registro é nomeado de observação, exemplo, instância ou amostra (sample), a qual é formada por variáveis ou características (features). “Features” são partes relevantes para caracterizar as observações.
Conjunto de treinamento (training set): é o conjunto de dados usado para treinar o modelo (aprendizado). É formado por um conjunto de observações e suas respectivas saídas desejadas.
Conjunto de teste (test set): é o conjunto de dados usado para avaliar o modelo treinado. Simula a situação real, onde o modelo é aplicado a novos dados. É formado por um conjunto de observações de entrada.
Se os dados forem bons, não há como garantir que o modelo será bom
Se os dados não são bons, podemos garantir que o modelo será ruim
Limpeza \(\rightarrow\) Remoção de dados duplicados, outliers, dados faltantes, evitar incosisntências e erros na leitura dos dados;
Redução dimensional \(\rightarrow\) evitar explosão dimensional, reduzindo o número de variáveis;
Normalização \(\rightarrow\) padronização dos dados, evitando que variáveis com escalas diferentes influenciem o modelo, reduz ruídos e melhora a performance do modelo;
O Processo começa pela limpeza dos dados, mas observe a divisão do trabalho utilizando dados reais, dados brutos
Geralmente, os modelos de aprendizado de máquina não funcionam bem com dados faltantes, duplicados ou inconsistentes.
É comum ter dados coletados que só podem ser usados após uma etapa de preparação, que pode incluir:
A etapa de conversão ocorre entre o pré-processamento e a etapa de selação de variáveis e consiste em converter os dados para o formato adequado para o modelo.
Por exemplo:
Geralmente, há um grande número de “features” nas bases de dados. Algumas podem ser rendundantes ou irrelevantes para a predição que se deseja fazer, podendo ser desprezadas.
Essa etapa independe do algorito de aprendizagem de máquina.
Há quatro motivações para implementar a seleção de “features”.
Destacamos três conjuntos de métodos:
Engloba técnicas baseadas na correlação entre as “features” e a variável alvo.
Geralmente, usam parâmetros estatísticos para selecionar as “features” mais relevantes, através de um limiar, ou seja, um “rank” das “features”.
Métodos Comuns:
Limitações:
Engloba técnicas que usam um modelo de aprendizado de máquina para avaliar a importância das “features”.
Geralmente, usam um modelo de aprendizado de máquina para avaliar a importância das “features” e selecionar as mais relevantes.
Métodos Comuns:
Limitações:
Engloba técnicas em que a seleção de “features” é incorporada ao treinamento do modelo.
A forma mais comum de seleção de “features” incorporada é a regularização.
Métodos Comuns:
Limitações:
Regularização L1 (Lasso):
Por exemplo: pesos de features redundantes se anulam naturalmente…
Resumo geral da construção de um Modelode 1 até 6… Observe 2!
Um exemplo de Aprendizado Supervisionado \(\rightarrow\) Etapa de Aprendizado
Um exemplo de Aprendizado Supervisionado \(\rightarrow\) Etapa de Aprendizado
Um exemplo de Aprendizado Supervisionado \(\rightarrow\) Etapa de Predição
O que define um modelo como bom?
Quais são as perguntas certas?
Validade do Modelo - Definições
Capacidade de generalização: capacidade do modelo de prever corretamente para novos dados.
Erro: diferença entre o valor previsto e o valor real. Há dois tipos:
Capacidade do modelo: capacidade do modelo de se ajustar aos dados de treinamento e generalizar para novos dados.
Pré-processamento: Codificação de features, Normalização (quando necessário)
Treinamento: Através de métodos de otimizações
Avaliação: Através de métricas e validação cruzada
Aprendizado de Máquina: uma abordagem estatística, Izibicki, R. and Santos, T. M., 2020, link: https://rafaelizbicki.com/AME.pdf.
An Introduction to Statistical Learning: with Applications in R, James, G., Witten, D., Hastie, T. and Tibshirani, R., Springer, 2013, link: https://www.statlearning.com/.
Mathematics for Machine Learning, Deisenroth, M. P., Faisal. A. F., Ong, C. S., Cambridge University Press, 2020, link: https://mml-book.com.
An Introduction to Statistical Learning: with Applications in python, James, G., Witten, D., Hastie, T. and Tibshirani, R., Taylor, J., Springer, 2023, link: https://www.statlearning.com/.
Matrix Calculus (for Machine Learning and Beyond), Paige Bright, Alan Edelman, Steven G. Johnson, 2025, link: https://arxiv.org/abs/2501.14787.
Machine Learning Beyond Point Predictions: Uncertainty Quantification, Izibicki, R., 2025, link: https://rafaelizbicki.com/UQ4ML.pdf.
Mathematics of Machine Learning, Petersen, P. C., 2022, link: http://www.pc-petersen.eu/ML_Lecture.pdf.
OBRIGADO!
Slide produzido com quarto
Aprendizagem de Máquina - Prof. Jodavid Ferreira