1. Primeira parte com Python

  1. Acesse o link https://storage.googleapis.com/subject-materials-databases/datasets_curso/CARS4U.zip, baixe o arquivo e descompacte-o. O arquivo contém um conjunto de dados de uma empresa de aluguel de carros. Usando pandas, leia os dados do arquivo ‘used_cars_data.csv’ em um DataFrame chamando de dados, através da função read_csv.


  1. Quantas características estão neste conjunto de dados, ou seja, quantas variáveis existem nessa base de dados?

  2. Quais são os nomes e tipos iniciais das características?

  3. Verifique a quantidade de dados faltantes nas colunas da base de dados.

  4. Remova a variável id usando a função drop.

  5. Utilizando a função describe, interprete a saída e descreva o que aconteceu com as variáveis da base de dados.

  6. Encontre os quantis 0,0.25,0.5,0.75,1 da variável preco e interprete os resultados.

  7. Encontre a matriz de covariância das variáveis numéricas.

  8. Encontre a matriz de correlação das variáveis numéricas.

  9. Utilizando a biblioteca seaborn como sns e matplotlib.pyplot como plt, faça um HeatMap (mapa de calor) das correlações entre as variáveis numéricas.

  10. Com as variáveis numéricas e utilizando a biblioteca matplotlib.pyplot como plt, faça gráficos de histogramas e boxplot para cada variável numérica.

  11. Com a variável ano, crie uma nova variável no DataFrame de chamada idade_carro.

  12. Sabendo que a primeira parte de cada valor da variável nome é a marca do carro, crie uma nova variável chamada marca, com a parte do nome do carro que representa a marca. Verifique a quantidade de carros por marca.


2. Segunda parte com R

  1. Refaça todas as letras de a até l da questão 1 da parte de Python, mas agora utilizando a linguagem R, adaptando as funções e pacotes para a nova linguagem de programação.