- O agrupamento (Clustering) é uma das tarefas mais importantes no
aprendizado não supervisionado.
- Explique o que é a tarefa de agrupamento e em que tipo de cenário
ela é aplicada.
- Diferencie o Agrupamento (Clustering) da Análise de Componentes
Principais (PCA) em termos de seus objetivos principais.
- O algoritmo K-Means é um método clássico de partição.
- Descreva o algoritmo K-Means passo a passo.
- Qual é a função objetivo matemática que o K-Means tenta
minimizar?
- Por que é necessário executar o algoritmo múltiplas vezes com
inicializações aleatórias diferentes?
- A determinação do número ideal de clusters \(K\) é uma das maiores dificuldades práticas
do K-Means.
- Explique como funciona o Método do Cotovelo (Elbow Method). O que é
plotado nos eixos e como identificamos o número ótimo de clusters?
- Por que simplesmente escolher o \(K\) que minimiza o erro de reconstrução
dentro do cluster (Within-Cluster Sum of Squares - WSS) não funciona sem
um critério de parada ou penalização?
- O agrupamento hierárquico (Hierarchical Clustering) evita a
necessidade de fixar previamente o número de clusters \(K\).
- O que é um dendrograma e como ele pode ser utilizado para obter
partições com diferentes números de clusters? Como interpretamos a
altura das fusões (fusions) no gráfico?
- Defina os seguintes tipos de ligação (linkage): Completa (Complete),
Simples (Single), Média (Average) e Centroide (Centroid).
- Decisões metodológicas na preparação dos dados têm enorme influência
nos resultados do agrupamento.
- Dê um exemplo prático de cenário onde a padronização (scaling) das
variáveis altera drasticamente os grupos gerados e explique o porquê.
- K-Means e agrupamento hierárquico forçam cada observação a pertencer
a exatamente um grupo e são sensíveis a outliers.
- Como os Modelos de Mistura Gaussiana (GMM) resolvem o problema de
“soft clustering” (atribuição probabilística) e quais são as etapas do
algoritmo EM para estimar seus parâmetros?