Introdução à Ciência de Dados

Introdução à Python

Prof. Jodavid Ferreira

UFPE

R e Python

O que é o Python? O que é o R?

R e Python

Fonte: https://www.statista.com/statistics/793628/worldwide-developer-survey-most-used-languages/

R e Python

- python na 3º posição;

- R na 21º posição;

Por que Progamar? O que é Programação orientada a objetos?

A referência dessa seção foi baseada no livro do ‘Leite, Thiago et al. 2016. Orientação a Objetos: Aprenda Seus Conceitos e Suas Aplicabilidades de Forma Efetiva. Editora Casa do Código.’

Por que Programar?

Geralmente, utilizamos a programação quando “se precisa automatizar processos do nosso dia a dia”.

Para programarmos, usamos uma linguagem de programação que possibilita informar ao computador como ele deve se comportar para assim conseguirmos automatizar o processo desejado

Por que Progamar?

- Programação de Alto Nível:

Uma linguagem de programação de alto nível disponibiliza comandos (palavras-chaves) bem próximos de uma linguagem natural. Com isso, o processo de “conversar” com o computador é facilitado, pois essas palavras-chaves fornecem uma maior clareza de como se deve orquestrar o que o computador deve fazer por nós.

- Programação de Baixo Nível:

Uma linguagem de programação de baixo nível é mais próxima da linguagem de máquina, ou seja, mais próxima do que o computador entende. Com isso, o processo de “conversar” com o computador é mais difícil, pois é necessário entender como o computador funciona para poder programar. Um exemplo de linguagem de baixo nível é o Assembly, que é uma linguagem de programação que utiliza códigos de máquina para programar.

Por que Progamar?

Exemplo em R

# Exemplo de código em R
cat('Hello, World!\n')

Exemplo em python

# Exemplo de código em python
print('Hello, World!')

Exemplo em Assembly

section .data
    msg db 'Hello, World!', 0xA  ; Mensagem a ser impressa seguida de nova linha
    len equ $ - msg              ; Calcula o comprimento da string

section .text
    global _start                ; Define o ponto de entrada do programa

_start:
    mov edx, len                ; Define o terceiro argumento: tamanho da mensagem
    mov ecx, msg                ; Define o segundo argumento: ponteiro para a mensagem
    mov ebx, 1                  ; Define o primeiro argumento: descritor de arquivo (stdout)
    mov eax, 4                  ; Define o número da chamada de sistema para sys_write
    int 0x80                    ; Chama o kernel

    mov eax, 1                  ; Define o número da chamada de sistema para sys_exit
    xor ebx, ebx                ; Define o argumento para sys_exit: 0
    int 0x80                    ; Chama o kernel

Por que é interessante aprender python?

Ambientes Virtuais

Em python, geralmente utilizamos ambientes virtuais para isolar as dependências de um projeto. Isso é útil para que possamos ter diferentes versões de uma mesma biblioteca em projetos diferentes.
O Anaconda é um gerenciador de ambientes virtuais é o mais utilizado nos últimos anos por cientistas, desenvolvedores e engenheiros de dados que utilizam python. A vantagem de utilizar o anaconda é que ele já vem com várias bibliotecas instaladas, o que facilita o trabalho do cientista de dados.
Para fazer o download do Anaconda acesse o link: https://www.anaconda.com/products/distribution e faça o download da versão mais recente para seu sistema operacional.

Anaconda

Alguns comandos são importantes para utilização do Anaconda, como por exemplo:

Criação de ambiente virtual: conda create -n nome_do_ambiente python=3.11.5
Lista de ambientes virtuais: conda env list
Ativação de ambiente virtual: conda activate nome_do_ambiente
Desativação de ambiente virtual: conda deactivate
Remoção de ambiente virtual: conda env remove -n nome_do_ambiente

Anaconda

E as instalações de bibliotecas são realizadas utilizando o comando conda install nome_da_biblioteca, mas geralmente as bibliotecas em python sao utilizando o pip, que é o gerenciador de pacotes do python. Para instalar uma biblioteca utilizando o pip, utilizamos o comando pip install nome_da_biblioteca.

Por exemplo, para instalar a biblioteca pandas, utilizamos o comando:

pip install pandas

E podemos verificar se a instalação foi bem sucessida, utilizando:

pip show pandas

Name: pandas
Version: 1.5.3
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /home/jodavid/anaconda3/lib/python3.11/site-packages
Requires: numpy, numpy, python-dateutil, pytz
Required-by: altair, datasets, datashader, gradio, holoviews, hvplot, mizani, panel, plotnine, pymilvus, seaborn, statsmodels, sweetviz, TTS, xarray

Módulos

Também conhecidos como bibliotecas, os módulos são arquivos que contém funções, variáveis e classes que podem ser utilizadas em outros programas.
Para utilizar um módulo em python, utilizamos o comando import nome_do_modulo. Caso deseje utilizar apenas uma função específica de um módulo, utilizamos o comando from nome_do_modulo import nome_da_funcao.
Como por exemplo, utilizando o modulo math:

# Exemplo de importação de módulo
import math
math.sqrt(25)

5.0

Acima o math é o módulo e sqrt é a função que calcula a raiz quadrada de um número.

Módulos

Em python é comum utilizarmos a abreviação de um módulo, para facilitar a utilização de suas funções. Por exemplo, o módulo pandas é comumente abreviado como pd, o módulo numpy é abreviado como np, o módulo matplotlib é abreviado como plt, entre outros.

Vale uma observação é que essas abreviações elas são abraçadas pela comunidade, ou seja, não é uma regra, mas existe uma boa prática de por exemplo, abreviar o pandas como pd, o numpy como np, o matplotlib como plt, e existe isso para várias outras bibliotecas.

Módulos

Também existe o caso de você explicitar as funções que desejas nos módulos, com o intuito de usar diretamente o nome da função, sem a necessidade de chamar o módulo. Por exemplo, ao invés de utilizar math.sqrt(25), você pode utilizar from math import sqrt e depois utilizar sqrt(25).

# Exemplo de importação de função
from math import sqrt
sqrt(25)

5.0

Note que a função sqrt foi importada diretamente do módulo math, e por isso não é necessário chamar o módulo para utilizá-la, ou seja, se a função não for utilizada como na forma acima, e utilizar o import math é necessário utilizar o math.sqrt(25) para obter o resultado, informando que a função sqrt pertence ao módulo math.

Módulos

O python também permite que você utilize um apelido para a função importada, por exemplo, ao invés de utilizar from math import sqrt, você pode utilizar from math import sqrt as raiz_quadrada, e depois utilizar raiz_quadrada(25) para obter o resultado. Isso é útil quando a função importada possui um nome muito grande, ou quando o nome da função importada é muito comum e pode gerar confusão com outras funções. Então, um exemplo para esse caso é:

# Exemplo de importação de função com apelido
from math import sqrt as raiz_quadrada
raiz_quadrada(25)

5.0

Laços e Condicionais

Muitas linguagens usam chaves para delimitar blocos de código, mas em Python, a indentação é usada para isso. A indentação é uma parte importante da linguagem Python e, muitas vezes, é uma fonte de erros para os programadores que estão começando a aprender a linguagem.

# Exemplo de condicional
x = 10
if x > 5:
    print("x é maior que 5")
else:
    print("x é menor ou igual a 5")

x é maior que 5

Como é possível observar acima, o bloco de código que está dentro do if e do else está indentado, ou seja, está com um espaço a mais em relação ao bloco de código que está fora do if e do else. Isso é necessário para que o python entenda que o bloco de código está dentro do if e do else.

Laços e Condicionais

Quando o laço é utilizando for e while, a indentação também é necessária para delimitar o bloco de código que está dentro do laço.

# Exemplo de laço for
for i in range(5):
    print(i)

# Exemplo de laço while
i = 0
while i < 5:
    print(i)
    i += 1

Uma observação importante, é que diferente da linguagem R o python inicia sua indexação em 0, ou seja, o primeiro elemento de uma lista, por exemplo, é o elemento 0, o segundo elemento é o elemento 1, e assim por diante. No R a indexação inicia em 1.

Laços Complexos

Em python, se você possui uma lista, é possível acessar os elementos da lista diretamente da iteração no laço for. Isso é muito útil quando você deseja acessar o índice e o valor de um elemento da lista.

# Exemplo de laço for com acesso ao índice e ao valor
lista = [10, 20, 30, 40, 50,  60, 70, 80, 90, 100]
for i in lista:
    print(i)

Laços Complexos

Em python, se você possui uma lista, é possível acessar os elementos da lista diretamente da iteração no laço for. Isso é muito útil quando você deseja acessar o índice e o valor de um elemento da lista.

# Exemplo de laço for com acesso ao índice e ao valor
lista = [10, 20, 30, 40, 50,  60, 70, 80, 90, 100]
for i in lista:
    print(i)

Laços Complexos

Uma forma mais complexa é utilizando a função enumerate para acessar o índice e o valor de um elemento da lista.

# Exemplo de laço for com acesso ao índice e ao valor
lista = [10, 20, 30, 40, 50]
for i, valor in enumerate(lista):
    print(f"O elemento {i} da lista é {valor}")

O elemento 0 da lista é 10
O elemento 1 da lista é 20
O elemento 2 da lista é 30
O elemento 3 da lista é 40
O elemento 4 da lista é 50

Mas vamos avançando aos poucos, e vamos ver como podemos criar funções em python.

Funções

Em python, as funções são criadas utilizando a palavra-chave def, seguida pelo nome da função, seguida por parênteses, seguida por dois pontos. O bloco de código que está dentro da função é indentado, ou seja, está com um espaço a mais em relação ao bloco de código que está fora da função.

# Exemplo de função
def minha_funcao():
    print("Olá, mundo!")

Para chamar a função, basta utilizar o nome da função seguido por parênteses.

# Chamando a função
minha_funcao()

Olá, mundo!

Como boas práticas de programação, é interessante que as funções possuam argumentos e docstring, ou seja, parâmetros que são passados para a função e dentro da função um cabeçalho indicando o que cada argumento representa, respectivamente. Isso torna a função mais flexível e mais útil.

Funções

Um exemplo de função com argumentos e docstring é:

# Exemplo de função com argumentos e docstring
def saudacao(nome, saudacao="Olá"):
    """
    Função para saudar alguém
    Argumentos:
    nome: str, nome da pessoa a ser saudada
    saudacao: str, saudação a ser utilizada
    """
    print(f"{saudacao}, {nome}!")

No exemplo acima, a função saudacao possui dois argumentos, nome e saudacao, onde nome é obrigatório e saudacao é opcional, pois possui um valor padrão. Além disso, a função possui um cabeçalho que indica o que cada argumento representa.

Funções

Também existe em python as chamdas funções anônimas ou funções lambda, que são funções que não possuem um nome, e são utilizadas para criar funções simples e rápidas.

E o interessante é que as funções lambda podem ser utilizadas em conjunto com as funções map, filter e reduce para realizar operações em listas.

# Exemplo de função lambda com map
lista = [1, 2, 3, 4, 5]
quadrado = map(lambda x: x ** 2, lista)
list(quadrado)

Funções

É possível também atribuir funções lambda a variáveis, como no exemplo abaixo:

# Exemplo de função lambda
lambda x: x ** 2
quadrado(5)

Entretanto, a maioria das pessoas vão preferir e lhe dizer para usar a função def ao invés da função lambda, pois a função def é mais legível e mais fácil de entender.

Como por exemplo:

soma = lambda x, y: x + y # Não faça isso
def soma(x, y): return x + y # faça isso

Strings

As strings podem ser demilitadas por aspas simples ou duplas, e podem ser acessadas como listas, ou seja, é possível acessar cada caractere da string utilizando a indexação.

# Exemplo de string
single_quoted_string = 'data science'
double_quoted_string = "data science"
single_quoted_string == double_quoted_string

True

O python usa barra invertida para codificar caracteres especiais. Por exemplo, para incluir uma aspa simples em uma string delimitada por aspas simples, você deve usar \'.

# Exemplo de string com aspas simples
tab_string = "\t" # representa o caractere de tabulação
len(tab_string)

Strings

Também é possível criar strings múltiplas linhas utilizando três aspas simples ou duplas.

# Exemplo de string com múltiplas linhas
multi_line_string = """Esta é a primeira linha.
e esta é a segunda linha
e esta é a terceira linha"""
print(multi_line_string)

Esta é a primeira linha.
e esta é a segunda linha
e esta é a terceira linha

O python também possui uma série de funções para manipular strings, como por exemplo, a função split que divide uma string em uma lista de substrings.

# Exemplo de função split
s = "Olá, mundo!"
s.split()

['Olá,', 'mundo!']

Listas

As listas são uma das estruturas de dados mais importantes do python. Elas são similares aos vetores em outras linguagens, como por exemplo na linguagem R^[No R,tipos diferentes no vetor ele converte para character, por exemplo vetor <-c("a",1,TRUE), entretanto, são mais flexíveis. Elas são mais flexíveis, pois podem armazenar qualquer tipo de dado, e não são limitadas a um único tipo de dado.

# Exemplo de lista
integer_list = [1, 2, 3]
heterogeneous_list = ["string", 0.1, True]
list_of_lists = [integer_list, heterogeneous_list, []]
list_length = len(integer_list)
list_sum = sum(integer_list)

print(integer_list)

[1, 2, 3]

print(heterogeneous_list)

['string', 0.1, True]

print(list_of_lists)

[[1, 2, 3], ['string', 0.1, True], []]

print(list_length)

print(list_sum)

Listas

Você pode acessar ou modificar o i-ésimo elemento de uma lista utilizando colchetes.

# Exemplo de acesso a elementos de uma lista
x = list(range(10))
zero = x[0]
one = x[1]
nine = x[-1]
eight = x[-2]
x[0] = -1

Listas

Além disso, o python possui uma sintaxe de corte que permite acessar múltiplos elementos de uma lista.

# Exemplo de corte de lista
first_three = x[:3]
three_to_end = x[3:]
one_to_four = x[1:5]
last_three = x[-3:]
without_first_and_last = x[1:-1]
copy_of_x = x[:]

print(first_three)

[-1, 1, 2]

print(three_to_end)

[3, 4, 5, 6, 7, 8, 9]

print(one_to_four)

[1, 2, 3, 4]

print(last_three)

[7, 8, 9]

print(without_first_and_last)

[1, 2, 3, 4, 5, 6, 7, 8]

print(copy_of_x)

[-1, 1, 2, 3, 4, 5, 6, 7, 8, 9]

Listas

Um operação interessante é utilizando o operator in para verificar se um elemento está contido em uma lista.

# Exemplo de operador in
1 in [1, 2, 3]

True

0 in [1, 2, 3]

False

OBS.: Essa operação é muito mais lenta em listas do que em dicionários e conjuntos, pois o python faz uma busca linear em listas, ou seja, verifica os elementos da lista um de cadas vez, sendo assim a verificação em um conjunto ou dicionário é muito rápido. Vamos estudar consjuntos e dicionários mais a frente.

Com listas, também podemos concatenar, ou seja, adicionar mais informações a lista, e isso pode ser feito de várias formas, como adição de elementos a lista, junção de várias listas, ou multiplicação de listas. Abaixo segue exemplos de como fazer isso.

Listas

# Exemplo de concatenação de listas
x = [1, 2, 3]
x.extend([4, 5, 6])
print(x)

[1, 2, 3, 4, 5, 6]

# Exemplo de concatenação de listas
x = [1, 2, 3]
y = x + [4, 5, 6]
print(y)

[1, 2, 3, 4, 5, 6]

# Exemplo de concatenação de elementos a lista
x = [1, 2, 3]
x.append(0)
y = x[-1]
z = len(x)
print(x)

[1, 2, 3, 0]

print(y)

print(z)

Listas

# Exemplo de junção de listas
x, y = [1, 2], [3, 4]
z = x + y
print(z)

[1, 2, 3, 4]

# Exemplo de multiplicação de listas
x = [1, 2] * 3
print(x)

[1, 2, 1, 2, 1, 2]

Tuplas

Chegamos a Tuplas, e o que seria isso? Tuplas são muito parecidas com listas, mas com uma diferença fundamental, elas são imutáveis, ou seja, uma vez que você cria uma tupla, você não pode adicionar, remover ou modificar elementos dela. Tuplas são geralmente utilizadas para funções que retornam múltiplos valores. Vamos a exemplos:

# Exemplo de tuplas
my_list = [1, 2]
my_tuple = (1, 2)
other_tuple = 3, 4
my_list[1] = 3
try:
    my_tuple[1] = 3
except TypeError:
    print("Não é possível modificar uma tupla")

Não é possível modificar uma tupla

Tuplas

Um outro exemplo:

# Exemplo de tuplas
def sum_and_product(x, y):
    return (x + y), (x * y)
  
sp = sum_and_product(2, 3)
s, p = sum_and_product(5, 10)
print(sp)

(5, 6)

print(s)

print(p)

As tuplas (e listas) podem ser usadas para atribuições múltiplas, o que é muito útil para trocar valores de variáveis.

# Exemplo de atribuição múltipla
x, y = 1, 2
x, y = y, x
print(x)

print(y)

Dicionários

Outra estrutura fundamental é o dicionário, que é uma coleção de pares chave-valor, onde as chaves devem ser únicas. Dicionários são como listas, mas mais gerais, pois você pode indexá-los com qualquer tipo imutável, não apenas inteiros. Vamos a exemplos:

# Exemplo de dicionários
empty_dict = {}
empty_dict2 = dict()
grades = {"Joel": 80, "Tim": 95}
joels_grade = grades["Joel"]
print(empty_dict)

{}

print(empty_dict2)

{}

print(grades)

{'Joel': 80, 'Tim': 95}

print(joels_grade)

Dicionários

# Exemplo de operador in
joel_has_grade = "Joel" in grades
kate_has_grade = "Kate" in grades
print(joel_has_grade)

True

print(kate_has_grade)

False

# Exemplo de get
joels_grade = grades.get("Joel", 0)
kates_grade = grades.get("Kate", 0)
no_ones_grade = grades.get("No One")
print(joels_grade)

print(kates_grade)

print(no_ones_grade)

None

Dicionários

# Exemplo de atribuição de valores
grades["Tim"] = 99
grades["Kate"] = 100
num_students = len(grades)
print(grades)

{'Joel': 80, 'Tim': 99, 'Kate': 100}

print(num_students)

Dicionários são muito utilizados para contadores, ou seja, para contar a frequência de ocorrência de elementos em uma lista. Vamos a um exemplo:

# Exemplo de contadores
document = ["data", "science", "from", "scratch", "data", "science", "data"]
word_counts = {}
for word in document:
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1
print(word_counts)

{'data': 3, 'science': 2, 'from': 1, 'scratch': 1}

Dicionários

Frequentemente usamos dicionários para representar dados “semi-estruturados”. Por exemplo, poderíamos ter um dicionário por usuário em uma rede social, onde as chaves são os nomes das colunas e os valores são os dados do usuário. Por exemplo:

# Exemplo de dicionários semi-estruturados
tweet = {
    "user" : "joelgrus",
    "text" : "Data Science.",
    "retweet_count" : 100,
    "hashtags" : ["#data", "#science", "#datascience", "#bigdata"]
}
print(tweet)

{'user': 'joelgrus', 'text': 'Data Science.', 'retweet_count': 100, 'hashtags': ['#data', '#science', '#datascience', '#bigdata']}

Dicionários

Além de procurar por chaves específicas, podemos olhar para todas elas. Por exemplo:

# Exemplo de chaves e valores
tweet_keys = tweet.keys()
tweet_values = tweet.values()
tweet_items = tweet.items()
print(tweet_keys)

dict_keys(['user', 'text', 'retweet_count', 'hashtags'])

print(tweet_values)

dict_values(['joelgrus', 'Data Science.', 100, ['#data', '#science', '#datascience', '#bigdata']])

print(tweet_items)

dict_items([('user', 'joelgrus'), ('text', 'Data Science.'), ('retweet_count', 100), ('hashtags', ['#data', '#science', '#datascience', '#bigdata'])])

As chaves dos dicionários devem ser imutáveis, o que significa que podemos usar strings, números ou tuplas como chaves, mas não listas. Por exemplo:

# Exemplo de chaves imutáveis
#bad idea
#bad_dict = {[1, 2, 3]: "one two three"}
#good idea
good_dict = {(1, 2, 3): "one two three"}
print(good_dict)

{(1, 2, 3): 'one two three'}

Conjuntos

Conjuntos são uma outra estrutura de dados em Python. Um conjunto é uma coleção de elementos distintos, ou seja, não há repetição de elementos. Os conjuntos em python são similares aos conjuntos em matemática e utilizam a função set() para criá-los. Vamos a exemplos:

# Exemplo de conjuntos
s = set()
s.add(1)
s.add(2)
s.add(2)
x = len(s)
y = 2 in s
z = 3 in s
print(s)

{1, 2}

print(x)

print(y)

True

print(z)

False

Conjuntos

Conjuntos são muito úteis para verificar a existência de elementos distintos em uma coleção¹. Por exemplo, podemos verificar a existência de palavras distintas em um texto. Vamos a um exemplo:

# Exemplo de palavras distintas
text = "data science from scratch data science data"
words = text.split()
word_set = set(words)
print(words)

['data', 'science', 'from', 'scratch', 'data', 'science', 'data']

print(word_set)

{'science', 'data', 'scratch', 'from'}

OBRIGADO!

Slide produzido com quarto