Lista 2 - Exercícios

Acesse o link https://storage.googleapis.com/subject-materials-databases/datasets_curso/CARS4U.zip, baixe o arquivo e descompacte-o. O arquivo contém um conjunto de dados de uma empresa de aluguel de carros. Usando pandas, leia os dados do arquivo ‘used_cars_data.csv’ em um DataFrame chamando de dados, através da função read_csv.

Quantas características estão neste conjunto de dados, ou seja, quantas variáveis existem nessa base de dados?
Quais são os nomes e tipos iniciais das características?
Verifique a quantidade de dados faltantes nas colunas da base de dados.
Remova a variável id usando a função drop.
Utilizando a função describe, interprete a saída e descreva o que aconteceu com as variáveis da base de dados.
Encontre os quantis 0,0.25,0.5,0.75,1 da variável preco e interprete os resultados.
Encontre a matriz de covariância das variáveis numéricas.
Encontre a matriz de correlação das variáveis numéricas.
Utilizando a biblioteca seaborn como sns e matplotlib.pyplot como plt, faça um HeatMap (mapa de calor) das correlações entre as variáveis numéricas.
Com as variáveis numéricas e utilizando a biblioteca matplotlib.pyplot como plt, faça gráficos de histogramas e boxplot para cada variável numérica.
Com a variável ano, crie uma nova variável no DataFrame de chamada idade_carro.
Sabendo que a primeira parte de cada valor da variável nome é a marca do carro, crie uma nova variável chamada marca, com a parte do nome do carro que representa a marca. Verifique a quantidade de carros por marca.