1. Explique a diferença fundamental entre classificadores gerativos (Generative Classifiers) e classificadores discriminativos (Discriminative Classifiers). Dê exemplos de algoritmos para cada uma das duas abordagens.

  2. No contexto da regressão logística para classificação binária (\(\mathcal{C} = \{0, 1\}\)):

    1. Por que não se utiliza a regressão linear padrão diretamente para estimar a probabilidade condicional? Qual o papel da função logística (sigmoide)?
    2. Como é feita a estimação dos parâmetros \(\boldsymbol{\beta}\)? Existe solução analítica de forma fechada?
  3. O classificador de Bayes é o classificador ótimo na teoria de decisão.

    1. Defina o classificador de Bayes e explique o conceito de taxa de erro de Bayes (Bayes error rate).
    2. Explique resumidamente o que o teorema de garantia de seleção de modelo (Model Selection Guarantee) estabelece sobre comparar estimadores em um conjunto de validação independente.
  4. O algoritmo Naive Bayes é amplamente utilizado devido à sua simplicidade e eficiência computacional.

    1. Qual é a suposição “ingênua” (naive) que dá nome ao classificador? Escreva a fórmula da densidade condicional conjunta sob essa hipótese.
    2. Em termos práticos, por que frequentemente computamos a probabilidade usando a escala logarítmica (log-sum-exp trick/soma de logs)?
  5. A Análise Discriminante Linear (LDA) e a Análise Discriminante Quadrática (QDA) são métodos clássicos de classificação gerativa.

    1. Quais são as suposições distribucionais de cada método e qual a diferença fundamental entre eles em relação às matrixes de covariância?
    2. Como essa diferença afeta o formato das fronteiras de decisão e o trade-off viés-variância (bias-variance trade-off) entre LDA e QDA?
  6. O classificador \(k\)-Vizinhos Mais Próximos (\(k\)-NN) é um método não-paramétrico flexível.

    1. Explique brevemente como o \(k\)-NN realiza a classificação de uma nova observação \(\dot{\mathbf{x}}_0\).
    2. Qual é o efeito prático do valor do hiperparâmetro \(k\) na flexibilidade do modelo (viés e variância)?
    3. Por que a padronização (scaling) das variáveis preditoras é um passo crítico antes de aplicar o \(k\)-NN?