pandas
, leia os
dados do arquivo ‘used_cars_data.csv’ em um DataFrame chamando
de dados
, através da função read_csv
.Quantas características estão neste conjunto de dados, ou seja, quantas variáveis existem nessa base de dados?
Quais são os nomes e tipos iniciais das características?
Verifique a quantidade de dados faltantes nas colunas da base de dados.
Remova a variável id
usando a função
drop
.
Utilizando a função describe
, interprete a saída e
descreva o que aconteceu com as variáveis da base de dados.
Encontre os quantis 0,0.25,0.5,0.75,1 da variável
preco
e interprete os resultados.
Encontre a matriz de covariância das variáveis numéricas.
Encontre a matriz de correlação das variáveis numéricas.
Utilizando a biblioteca seaborn
como
sns
e matplotlib.pyplot
como plt
,
faça um HeatMap (mapa de calor) das correlações entre as
variáveis numéricas.
Com as variáveis numéricas e utilizando a biblioteca
matplotlib.pyplot
como plt
, faça gráficos de
histogramas e boxplot para cada variável numérica.
Com a variável ano
, crie uma nova variável no
DataFrame de chamada idade_carro
.
Sabendo que a primeira parte de cada valor da variável
nome
é a marca do carro, crie uma nova variável chamada
marca
, com a parte do nome do carro que representa a marca.
Verifique a quantidade de carros por marca.
R
,
adaptando as funções e pacotes para a nova linguagem de
programação.