1. O agrupamento (Clustering) é uma das tarefas mais importantes no aprendizado não supervisionado.
    1. Explique o que é a tarefa de agrupamento e em que tipo de cenário ela é aplicada.
    2. Diferencie o Agrupamento (Clustering) da Análise de Componentes Principais (PCA) em termos de seus objetivos principais.
  2. O algoritmo K-Means é um método clássico de partição.
    1. Descreva o algoritmo K-Means passo a passo.
    2. Qual é a função objetivo matemática que o K-Means tenta minimizar?
    3. Por que é necessário executar o algoritmo múltiplas vezes com inicializações aleatórias diferentes?
  3. A determinação do número ideal de clusters \(K\) é uma das maiores dificuldades práticas do K-Means.
    1. Explique como funciona o Método do Cotovelo (Elbow Method). O que é plotado nos eixos e como identificamos o número ótimo de clusters?
    2. Por que simplesmente escolher o \(K\) que minimiza o erro de reconstrução dentro do cluster (Within-Cluster Sum of Squares - WSS) não funciona sem um critério de parada ou penalização?
  4. O agrupamento hierárquico (Hierarchical Clustering) evita a necessidade de fixar previamente o número de clusters \(K\).
    1. O que é um dendrograma e como ele pode ser utilizado para obter partições com diferentes números de clusters? Como interpretamos a altura das fusões (fusions) no gráfico?
    2. Defina os seguintes tipos de ligação (linkage): Completa (Complete), Simples (Single), Média (Average) e Centroide (Centroid).
  5. Decisões metodológicas na preparação dos dados têm enorme influência nos resultados do agrupamento.
    1. Dê um exemplo prático de cenário onde a padronização (scaling) das variáveis altera drasticamente os grupos gerados e explique o porquê.
  6. K-Means e agrupamento hierárquico forçam cada observação a pertencer a exatamente um grupo e são sensíveis a outliers.
    1. Como os Modelos de Mistura Gaussiana (GMM) resolvem o problema de “soft clustering” (atribuição probabilística) e quais são as etapas do algoritmo EM para estimar seus parâmetros?