Processo de Aprendizagem ML
UFPE
Figure 1
Observe que o processo é iterativo, ou seja, é necessário voltar a etapas anteriores para ajustar o modelo.
Dataset: designa amplamente os dados usados no aprendizado de máquina. Cada registro é nomeado de observação, exemplo, instância ou amostra (sample), a qual é formada por variáveis ou características (features). “Features” são partes relevantes para caracterizar as observações.
Conjunto de treinamento (training set): é o conjunto de dados usado para treinar o modelo (aprendizado). É formado por um conjunto de observações e suas respectivas saídas desejadas.
Conjunto de teste (test set): é o conjunto de dados usado para avaliar o modelo treinado. Simula a situação real, onde o modelo é aplicado a novos dados. É formado por um conjunto de observações de entrada.
Se os dados forem bons, não há como garantir que o modelo será bom
Se os dados não são bons, podemos garantir que o modelo será ruim
Limpeza \(\rightarrow\) Remoção de dados duplicados, outliers, dados faltantes, evita incosisntências e erros na leitura dos dados;
Redução dimensional \(\rightarrow\) evitar explosão dimensional, reduzindo o número de variáveis;
Normalização \(\rightarrow\) padronização dos dados, evitando que variáveis com escalas diferentes influenciem o modelo, reduz ruídos e melhora a performance do modelo;
O Processo começa pela limpeza dos dados, mas observe a divisão do trabalho relatada por cientistas de dados…
Geralmente, os modelos de aprendizado de máquina não funcionam bem com dados faltantes, duplicados ou inconsistentes.
É comum ter dados coletados que só podem ser usados após uma etapade preparação que pode incluir:
A etapa de conversão ocorre entre o pré-processamento e a etapa de selação de variáveis e consiste em converter os dados para o formato adequado para o modelo.
Por exemplo:
Geralmente, há um grande número de “features” nas bases de dados. Algumas podem ser rendundantes ou irrelevantes para a previsão que se deseja fazer, podendo ser desprezadas.
Essa etapa independe do algorito de aprendizagem de máquina.
Há quatro motivações para implementar a seleção de “features”.
Destacamos três conjuntos de métodos:
Filtros: métodos que selecionam “features” com base em métricas estatísticas, como correlação, entropia, etc.
Wrappers: métodos que selecionam “features” com base no desempenho de um modelo de aprendizado de máquina.
Embedded: métodos que selecionam “features” durante o treinamento do modelo.
Engloba técnicas baseadas na correlação entre as “features” e a variável alvo.
Geralmente, usam parâmetros estatísticos para selecionar as “features” mais relevantes, através de um limiar, ou seja, um “rank” das “features”.
Métodos Comuns:
Limitações:
Engloba técnicas que usam um modelo de aprendizado de máquina para avaliar a importância das “features”.
Geralmente, usam um modelo de aprendizado de máquina para avaliar a importância das “features” e selecionar as mais relevantes.
Métodos Comuns:
Limitações:
Engloba técnicas em que a seleção de “features” é incorporada ao treinamento do modelo.
A forma mais comum de seleção de “features” incorporada é a regularização.
Métodos Comuns:
Limitações:
Regularização L1 (Lasso):
Por exemplo: pesos de features redundantes se anulam naturalmente…
Resumo geral da construção de um Modelode 1 até 6… Observe 2!
Um exemplo de Aprendizado Supervisionado \(\rightarrow\) Etapa de Aprendizado
Um exemplo de Aprendizado Supervisionado \(\rightarrow\) Etapa de Aprendizado
Um exemplo de Aprendizado Supervisionado \(\rightarrow\) Etapa de Previsão
O que define um modelo como bom?
Quais são as perguntas certas?
Validade do Modelo - Definições
Capacidade de generalização: capacidade do modelo de prever corretamente para novos dados.
Erro: diferença entre o valor previsto e o valor real. Há dois tipos:
Capacidade do modelo: capacidade do modelo de se ajustar aos dados de treinamento e generalizar para novos dados.
Validade do Modelo - Definições
Underfitting
Validade do Modelo - Definições
Overfitting
Validade do Modelo - Definições
Good fitting (Ajuste adequado)
Variância e Tendência (Variance and Bias)
O erro total de previsão depende da variância e do viés do modelo:
\[ \text{Erro Total} = \text{Erro de Viés} + \text{Erro de Variância} + \text{Erro Irredutível} \]
Como regra geral:
Por sua origem, os erros podem ser divididos em duas categorias:
Variância e Tendência (Variance and Bias) \(\rightarrow\) Aprendizado de Máquina
Análise qualitativa:
Esse comportamento é compatível com overfitting!
Esse comportamento é compatível com underfitting!
Capacidade do Modelo vs Erro de Previsão \(\rightarrow\) Baixa Complexidade
Capacidade do Modelo vs Erro de Previsão \(\rightarrow\) Alta Complexidade
Capacidade do Modelo vs Erro de Previsão \(\rightarrow\) Compromisso
Como avaliar quantitativamente o desempenho do modelo?
Como avaliar quantitativamente o desempenho do modelo?
Problemas de Regressão:
\[MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2\]
\[RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}\]
em que, \(n\) é o número de observações, \(y_i\) é o valor real e \(\hat{y}_i\) é o valor previsto.
Como avaliar quantitativamente o desempenho do modelo?
Problemas de Regressão:
\[R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}\] em que, \(n\) é o número de observações, \(y_i\) é o valor real, \(\hat{y}_i\) é o valor previsto e \(\bar{y}\) é a média dos valores reais.
Como avaliar quantitativamente o desempenho do modelo?
Problemas de Classificação:
Como avaliar quantitativamente o desempenho do modelo?
Problemas de Classificação:
Problemas de Classificação \(\rightarrow\) Métricas: Acurácia e Taxa de Erro
Problemas de Classificação \(\rightarrow\) Métricas: Sensibilidade e Especificidade
Problemas de Classificação \(\rightarrow\) Métricas: Precisão
Problemas de Classificação \(\rightarrow\) Métricas: \(F_1\) Score e \(F_{\beta}\)
Exemplo de avaliação de desempenho de um modelo de ML
Um modelo de ML foi treinado para identificar se o objeto presente em imagens é um gato. Foram usadas 200 imagens para avaliar o desempenho do modelo, tendo sido obtida a seguinte matriz de confusão:
Deseja-se calcular as métricas de precisão, sensibilidade e acurácia do modelo.
Resposta
Qual o significado desses valores?
Imagens retiradas de um Curso de ML da Huawei.
The Elements of Statistical Learning: Data Mining, Inference and Prediction, Hastie, T., Tibshirani, R. and Friedman, J., 2nd ed., Springer-Verlag, 2009.
An Introduction to Statistical Learning: With Applications in R, James, G., Witten, D., Hastie, T. and Tibshirani, R., Springer-Verlag, 2013.
Aprendizado de máquina: uma abordagem estatística, Izbicki, R. and Santos, T. M., 2020.
Extras:
Morris, Meredith Ringel, et al. “Levels of AGI: Operationalizing Progress on the Path to AGI.” arXiv preprint arXiv:2311.02462 (2023).
Weijermars, Ruud, Umair bin Waheed, and Kanan Suleymanli. “Will ChatGPT and Related AI-tools Alter the Future of the Geosciences and Petroleum Engineering?.” First Break 41.6 (2023): 53-61.
OBRIGADO!
Slide produzido com quarto
Redes Neurais - Prof. Jodavid Ferreira