pandas, leia os
dados do arquivo ‘used_cars_data.csv’ em um DataFrame chamando
de dados, através da função read_csv.Quantas características estão neste conjunto de dados, ou seja, quantas variáveis existem nessa base de dados?
Quais são os nomes e tipos iniciais das características?
Verifique a quantidade de dados faltantes nas colunas da base de dados.
Remova a variável id usando a função
drop.
Utilizando a função describe, interprete a saída e
descreva o que aconteceu com as variáveis da base de dados.
Encontre os quantis 0,0.25,0.5,0.75,1 da variável
preco e interprete os resultados.
Encontre a matriz de covariância das variáveis numéricas.
Encontre a matriz de correlação das variáveis numéricas.
Utilizando a biblioteca seaborn como
sns e matplotlib.pyplot como plt,
faça um HeatMap (mapa de calor) das correlações entre as
variáveis numéricas.
Com as variáveis numéricas e utilizando a biblioteca
matplotlib.pyplot como plt, faça gráficos de
histogramas e boxplot para cada variável numérica.
Com a variável ano, crie uma nova variável no
DataFrame de chamada idade_carro.
Sabendo que a primeira parte de cada valor da variável
nome é a marca do carro, crie uma nova variável chamada
marca, com a parte do nome do carro que representa a marca.
Verifique a quantidade de carros por marca.
R,
adaptando as funções e pacotes para a nova linguagem de
programação.