Inteligência Artificial e Estatística:

Conceitos, Visão geral sobre mercado de trabalho e apresentação de um case de IA

Prof. Dr. Jodavid Ferreira

UFPE

Professor Depto. de Estatística da UFPE

Quem é o Dr. Jodavid Ferreira?

Graduação em Estatística pela UFPB - 2015;
Mestrado em Estatística pela UFPE - 2017;
Doutor em Estatística pela UFPE - 2021;
Pós-Doutorado em Modelos de Decisão e Saúde (UFPB) - 2024;

Experiências e Linhas de Pesquisa

Processamento de Imagens;
Distribuições matriciais de Probabilidade;
Distribuições de Probabilidade Fuzzy;
Machine Learning, Deep Learning;

Experiências Profissionais - 2021 | 2024

HartB Group e ThinkAI Group (Startups com foco em Inteligência Artificial);
Certificado em IA pela Huawei e em Engenharia de dados pela Google;

Tópicos abordados

Inteligência Artificial;

Conexão entre IA e Estatística;

Visão breve sobre Mercado de Trabalho;

Solução com Inteligência Artificial;

Inteligência Artificial

Pense na pessoa mais inteligente que você conhece!!!

O que você percebeu nessa pessoa para considerá-la como a mais inteligente para você?

Ela é uma pessoa que pensa rápida? Ela é capaz de internalizar e aplicar novos conhecimentos imediatamente?

Ela é altamente criativa, é capaz de gerar continuamente ideias novas que você nunca pensaria?

Ela é uma pessoa altamente perceptiva e consegue captar todos os menores detalhes do mundo ao seu redor?

Ou talvez, ela seja profundamente empática e entenda como você está se sentindo antes mesmo de você?

Inteligência Artificial

A Inteligência, mais especificamente inteligência humana é um termo interessante de discutir, ela envolve (Sternberg, 2000):

o cérebro humano, que é o órgão mais complexo do corpo humano;
a mente, sendo esta relacionada a capacidade de pensar, raciocinar, lembrar, entender e sentir;
o pensamento lógico, que é a capacidade de raciocinar e resolver problemas;
a compreensão, associado a capacidade de entender e interpretar informações;
a aplicabilidade, que vai de encontro a capacidade de aplicar conhecimentos e habilidade em sua maioria sendo em situações práticas;

Inteligência Artificial

Independente de ser gênios da matemática ou vendedores carismáticos, nós utilizamos habilidades cognitivas como memória, atenção, reconhecimento de padrões, e outras habilidades para entender e ter sucesso no mundo todos os dias.

Em geral, a inteligência pode ser bem definida como a capacidade de um indivíduo realizar tarefas efetivamente usando seu próprio conhecimento, interpretação e perspicácia.

O nível de inteligência varia de pessoa para pessoa em termos de como percebem e realizam ações.

Inteligência Artificial

O conceito de IA está disponível desde a década de 1940 (Newell, 1982);

O primeiro método de computação baseado em “inteligência” foi introduzido pelo matemático Alan Turing em 1947. Ele afirmou que mais descobertas sobre a inteligência das máquinas poderiam ser obtidas usando programas de computador e simulação;

Inteligência Artificial

Durante a década de 1950, Turing também discutiu as circunstâncias para considerar uma máquina tão inteligente como um humano. Ele opinou fortemente que qualquer máquina pode ser capaz de imitar e fingir que é um ser humano para outro humano, sem deixar dúvidas, e assim ser considerado inteligente.

Esse conceito de testar a inteligência da máquina, introduzido por Alan Turing, é conhecido como o Teste de Turing.

Qualquer máquina que complete com sucesso o Teste de Turing pode ser considerada inteligente, mas uma máquina extraordinariamente inteligente pode sempre imitar humanos mesmo sem conhecer muito sobre eles.

Inteligência Artificial

O que é o Teste de Turing?

Turing propôs seu conceito por meio do jogo chamado “party test”, também conhecido como “teste de imitação”

O conceito básico deste jogo é descobrir se o participante é humano ou um computador.
O cenário 1 do teste consiste em três jogadores, onde o primeiro jogador é um “homem”, o segundo jogador é uma “mulher” e o terceiro jogador é o “interrogador”, que pode ser tanto um homem quanto uma mulher. Os dois primeiros jogadores estarão em salas diferentes, e o interrogador não sabe quem são os jogadores. Agora, o desafio do interrogador é descobrir o gênero dos dois primeiros jogadores com base nas respostas escritas dadas por eles para as perguntas feitas pelo interrogador. Outro desafio será criado fazendo com que o primeiro jogador dê intencionalmente respostas incorretas às perguntas, o que pode induzir o interrogador a inferir que o primeiro jogador é uma “mulher” em vez de um “homem”. A Figure 1 mostra o cenário do teste de imitação.

Inteligência Artificial

O que é o Teste de Turing?

Turing tentou projetar este jogo com uma pequena alteração, na qual substituiu um dos dois primeiros jogadores por um computador no cenário de teste 2.
Ele analisou se a máquina tinha a capacidade de agir como um jogador humano aplicando sua própria inteligência.
Ele provou através do teste que o computador tem uma melhor capacidade de confundir o interrogador com sua inteligência, de modo que o interrogador tem a possibilidade de interpretar erroneamente o primeiro jogador como humano em vez de computador.
A inteligência da máquina foi comprovada através do teste de Alan Turing e amplamente aceita pela comunidade de pesquisa na época.

Inteligência Artificial

Entretanto, o termo “Inteligência Artificial” efetivamente cunhado por John McCarthy em 1956, em uma conferência no Dartmouth College, marcando o início de uma nova era nos estudos de pesquisa em IA (McCorduck and Cfe, 2004).

E com esse novo termo e ramo de pesquisa, os objetivos estavam/estão à missão de usar computadores e a ciência para estudar e reproduzir a inteligência e as habilidades de tomadas de decisão associadas a um ser humano.

Assim, a utilização da IA é investigar a viabilidade de máquinas simularem aspectos do intelecto humano através de modelos computacionais e algoritmos, que foram impulsionadas pelos trabalhos de pesquisadores como Turing, Shannon, McCarthy, Minsky, entre outros.

Inteligência Artificial

Timeline 1 da IA.(fonte:Weijermars, et.al. )

Inteligência Artificial

Timeline 2 da IA.(fonte: Momentum Works report – The future by ChatGPT)

Inteligência Artificial

(fonte: AI Experience - Google)

Inteligência Artificial

Existem três abordagens da Inteligência Artificial:

Behaviorismo

é uma escola de pensamento que diz que a inteligência depende da percepção e da ação. Assim, o comportamento da inteligência só pode ser demonstrado no mundo real através da constante interação com o meio.

IA Simbólica

tenta replicar a inteligência humana, como a capacidade de resolver problemas através de regras e lógica. Por meio de símbolos, como palavras e conceitos, uma estrutura lógica é organizada que permite ao sistema de IA realizar as tarefas.

IA Conexionista

é baseada na simulação dos componentes do cérebro (modelagem da inteligência humana), como neurônios e sinapses. Aqui as soluções são baseadas em padrões e aprendizado de máquina, tentando imitar o funcionamento do cérebro humano.

Inteligência Artificial

Exemplo de Behaviorismo: Aprendizado por reforço (Reinforcement Learning)

Exemplo de IA Simbólica: Sistemas Especialistas

Exemplo de IA Conexionista: Redes Neurais - CNN

Inteligência Artificial

A Inteligência Artificial é dividida em duas partes:

Inteligência Artificial Geral ou IA Forte

é quando uma máquina realmente entende o que está acontecendo. Podem existir emoções e criatividade. Na maior parte, é o que vemo em filmes de ficção científica.

IA Fraca

é quando uma máquina realiza a correspondência entre padrões, e está relacionada a tarefas específicas, e as capacidades não são facilmente transferíveis para outros sistemas.

Inteligência Artificial

Inteligência Artificial

Machine Learning

Deep Learning

IA Generativa

Inteligência Artificial

Inteligência Artificial

Machine Learning

Deep Learning

IA Generativa

Inteligência Artificial

Quais as hype do momento?

OpenAI:
- DALL-E - modelo de geração de imagens;
- ChatGPT - modelo de linguagem natural;
- SORA - modelo de texto-para-vídeo;
- Whisper - modelo de audio-para-texto;
Meta:
- T5 - modelo de tradução de linguagem natural;
- Llamma3.1 - modelo de linguagem natural;

Google:
- BERT - modelo de linguagem natural;
- GEMINI - modelo multimodal;
- LaMDA - modelo de linguagem natural;
Anthropic:
- CLAUDE 3 - modelo de linguagem natural;

Ambiente da IA

O ambiente de inteligência artificial consiste em cinco componentes principais:

Máquina: é um componente básico e implícito tanto em ambientes não baseados em IA quanto em ambientes baseados em IA;

Inteligência Humana: esse componente é essencial para incorpor ‘inteligência’ à máquina, para que ela atue como uma máquina inteligente carregando inteligência humana, na forma de uma lista de instruções também chamada de programas, softwares ou codificação;

Internet das Coisas (IoT): Atualmente, a Internet das Coisas (IoT) têm uma relação muito próxima com o ambiente de IA, uma vez que a maioria das atuais tomadas de decisão dependem dos dados que são produzidos em tempo real pelos humanos e pelas máquinas;

Algoritmos de Aprendizado de Máquina (ML): algoritmos de aprendizado de máquina desempenham um papel importante, na IA. Esses algoritmos são muito úteis na previsão de eventos com base nos dados disponíveis. Dentres os tipos de aprendizados estão os supervisionados (Regressão, Classificação), não supervisionados (métodos de agrupamento, redução de dimensionalidade), entre outros.

Ciência e Engenharia de Dados: A Ciência e Engenharia de Dados é outro componente importante no ambiente de IA. A análise de dados desempenha um papel importante na maioria das aplicações em tempo real, pois qualquer tomada de decisão feita pela máquina por meio de programação depende principalmente da análise eficiente de dados.

Ambiente da IA

O ambiente de inteligência artificial consiste em cinco componentes principais:

Máquina: é um componente básico e implícito tanto em ambientes não baseados em IA quanto em ambientes baseados em IA;

Inteligência Humana: esse componente é essencial para incorpor ‘inteligência’ à máquina, para que ela atue como uma máquina inteligente carregando inteligência humana, na forma de uma lista de instruções também chamada de programas, softwares ou codificação;

Internet das Coisas (IoT): Atualmente, a Internet das Coisas (IoT) têm uma relação muito próxima com o ambiente de IA, uma vez que a maioria das atuais tomadas de decisão dependem dos dados que são produzidos em tempo real pelos humanos e pelas máquinas;

Algoritmos de Aprendizado de Máquina (ML): algoritmos de aprendizado de máquina desempenham um papel importante, na IA. Esses algoritmos são muito úteis na previsão de eventos com base nos dados disponíveis. Dentres os tipos de aprendizados estão os supervisionados (Regressão, Classificação), não supervisionados (métodos de agrupamento, redução de dimensionalidade), entre outros.

Ciência e Engenharia de Dados: A Ciência e Engenharia de Dados é outro componente importante no ambiente de IA. A análise de dados desempenha um papel importante na maioria das aplicações em tempo real, pois qualquer tomada de decisão feita pela máquina por meio de programação depende principalmente da análise eficiente de dados.

Machine Learning

Machine Leaning (ML) ou Aprendizado de máquina (AM) é um subcampo da Inteligência Artificial que estuda, desenvolve e analisa os algoritmos de aprendizado. Através de utilização dos métodos de AM, modelos baseado em dados podem ser criados para solucionar um determinado tipo de problema específico que de IA, dentre eles, aprendizados supervisionados, não supervisionados e aprendizagem por reforço.

Machine Learning

Inicialmente, as aplicações que eram consideradas de AM eram apenas as desenvolvidas estritamente pela comunidade da computação, contudo, no final dos anos 90, as aplicações de AM começaram a ter intersecções com as de estatística.

Atualmente, a comunidade de AM é bastante interdisciplinar, sendo a estatística uma das áreas. Enquanto que até os anos 90, métodos criados pela estatística começavam a ser incorporados em AM, atualmente a direção oposta está cada vez mais comum: métodos desenvolvidos por AM começaram a ser usados em estatística.

Dessa forma, hoje os algoritmos existentes em Machine Learning e Inteligência Artificial possuem como base em sua maioria conceitos da Estatística e Computação.

Machine Learning

Atualmente no mercado de trabalho, nomenclaturas estão surgindo para diferenciar as áreas que trabalham com dados. As mais frequentes utilizadas atualmente são:

Engenheiro de dados;

Analista de dados;

Cientista de Dados;

Engenheiro de Machine Learning;

Engenheiro de Prompt;

Machine Learning

Atualmente no mercado de trabalho, nomenclaturas estão surgindo para diferenciar as áreas que trabalham com dados. As mais frequentes utilizadas atualmente são:

Engenheiro de dados;

Analista de dados;

Cientista de Dados;

Engenheiro de Machine Learning;

Engenheiro de Prompt;

Machine Learning e Ciência de Dados

A Ciência de dados é um dos assuntos em evidência atualmente. Ser um profissional de dados, como “cientista de dados” está em alta na mídia, redes sociais, livros, jornais de negócio, conferências, em vários outros lugares.

Como podemo definir a Ciência de dados?

O que é ciência de dados?

A ciência de dados é uma ciência que tem como princípios fundamentais a extração de conhecimento e informações a partir de dados utilizando o ‘ferramental’ e conceitos da matemática, estatística e computação. Com a ciência de dados é possível criar soluções e gerar resultados para obter insights, prever eventos futuros que auxiliam na tomada de decisões.

Machine Learning e Ciência de Dados

Atualmente, a ciência de dados é sinônimo ou está relacionando a termos como:

business analytics
pesquisa operacional
business intelligence
competitive intelligence
análise de dados
modelagem e extração de conhecimento
entre outros campos de pesquisa e atuação

…mas isso é apenas um novo giro ou nomenclatura em áreas que existem a muito tempo.

Machine Learning e Ciência de Dados

Graças ao avanço de tecnologias computacionais a

nível de hardware e software, a capacidade de:

coletar,
armazenar e
analisar dados (e grandes volumes de dados),

tornou-se mais acessível e eficiente.

Dessa forma as técnicas estatísticas e computacionais que são utilizadas na ciência de dados ganharam uma âncora em negócios nos últimos anos;

Cenário Atual - Mundo

Atualmente, existem aproximadamente 22,2 bilhões de dispositivos conectados à internet;
8.2 bilhões de pessoas vivendo em nosso planeta;
Essas conexões entre pessoas e dispositivos geram uma massa de dados estimada:
- 402.74 milhões de terabytes de dados gerados por dia;
- aproximadamente 147 zettabytes serão gerados até o fim de 2024;
- aproximadamente 181 zettabytes serão gerados até o fim de 205;

Para se ter uma ideia do que isso significa, vamos entender rapidamente a estrutura de armazenamento de dados com exemplos que temos no cotidiano.

Cenário Atual - Mundo

bit (b)
byte (B)
kilobyte (KB)
megabyte (MB)
gigabyte (GB)
terabyte (TB)
petabyte (PB)
exabyte (EB)
zettabyte (ZB)
‘yottabyte’ (YB)

Este último, equivale a ’todas as centrais

de dados, discos rígidos, pendrives e servidores de todo o mundo’.

Cenário Atual - Brasil

No Brasil, atualmente, 72,5 milhões de domicílios tem acesso à Internet (92,5%), sendo 77% estão nas mídias sociais, como blogs, Facebook, X, Instagram, SlideShare, Youtube, entre outros, realizando algum tipo de interação e assim trocando dados e informações.

Uso digital no Brasil. Fonte: We are social.

Processo de solução com dados

Fluxograma do processo de ciência de dados de Doing Data Science, de Schutt & O’Neil (2013)

Entendimento dos dados

Dois entendimentos essencias para uma boa análise com dados:

Compreensão da problemática e

Compreensão do contexto

Compreensão da Problemática

É preciso ter uma visão clara do problema de negócio a ser resolvido.

Compreensão do Contexto

Quem é seu público?

O que você precisa que ele saiba?

Compreender os dados e descobrir o que pode ser digno de nota ou interessante a destacar para outras pessoas.

Dados Tabulados (Tidy Data)

Mesmo sabendo que existem dados de diferentes formas, quando estamos no contexto de dados estrurados é importante ter essa reflexão em mente!

Reflexão:

Conjuntos de dados arrumados são todos iguais, mas cada conjunto de dados bagunçado, é bagunçado de sua própria maneira.

- Hadley Wickham

Dados Tabulados (Tidy Data)

Há três regras inter-relacionadas que tornam um conjunto de dados arrumados (tidy):

Cada variável deve ter sua própria coluna.
Cada observação deve ter sua própria linha.
Cada valor deve ter sua própria célula.

Ciência de Dados

A Ciência de Dados pode ser entendida como uma área interdisciplinar

Pode-se afirmar que para aplicar ciência de dados é preciso ter conhecimentos de

Estatística
Computação e
principalmente, conhecimento sobre o problema investigado, ou problema de negócio, ou seja, hipóteses que necessitem de alguma resolução com ciência de dados

Isto é importante, porque as ferramentas e algoritmos desenvolvidos são baseadas nestas áreas. Por isso, eles são considerdos a essência da Ciência de Dados

Ciência de Dados

Ao considerar as áreas de

Estatística
Computação e
Área do fenômeno em estudo

é possível destacar 4 (quatro) pilares fundamentais para se tornar um cientista de dados

Pilares para cientista de dados

Primeiro pilar:

Possuir “Pensamento e raciocínio lógico matemático”, é extremamente necessário ter a capacidade de realizar operações lógicas, ou seja, a capacidade de organizar dados ou informações para se obter um contexto, um significado e um resultado ou consequência

Pilares para cientista de dados

Segundo pilar:

Em seguida, a “Matemática e Estatística” é a base de todos os algoritmos aplicados à machine learning e inteligência artificial, no qual os conceitos matemáticos e a estatística é característica intrínseca da ciência de dados.

Pilares para cientista de dados

Terceiro pilar:

Outro ponto importante é o “Conhecimento em Programação”, a extração de dados exige criatividade devido ao emaranhado de dados possíveis para um determinado fim e exige também formas viáveis para extração. Tanto a criatividade quanto a viabilidade são postas em prática a partir de programas oriundos do conhecimento de linguagens de programação.

Pilares para cientista de dados

Quarto pilar:

Por fim, o quarto pilar, podemos dizer que é o “Conhecimento em Banco de dados”, todos os dados disponíveis podem ser armazenados, ainda que temporariamente, para produzirem o conhecimento necessário para determinado fim e praticamente em quase todas as fases do ciclo de vida do dado pertencente à análises estarão relacionadas à bancos de dados, sejam estes relacionais ou não relacionais, que são assuntos que o cientista de dados deve dominar no seu dia a dia.

Ferramentas da área

Fonte: https://www.statista.com/statistics/793628/worldwide-developer-survey-most-used-languages/

Mercado de trabalho

Realizado 16 de outubro de 2023 e 06 de dezembro de 2023 e contou com 5.293 respondentes em todo o Brasil

Link para Estudo:

State of Data 2023 - Um raio-x dos profissionais de dados do Brasil

Mercado de trabalho

Exemplo de Solução com IA

Exemplo de solução com IA

Problemática:

Estamos precisando de uma solução para Karaokê. Gostaríamos de utilizar uma solução de Inteligência Artificial que possua o mínimo de interação humana. A solução será utilizada em programa de TV e queremos algo inovador para nosso meio. Nosso time não possui especialistas em IA, assim, precisamos de uma solução que possamos enviar via *.mp3 ou qualquer outra extensão, e a solução consiga gerar um vídeo com a música escolhida e a letra sendo passada no tempo correto. A maioria das músicas serão em português e inglês.

O que fazer? O que podemos utilizar e propor para criar essa solução?

Exemplo de solução com IA

Solução proposta:

Usar 4 redes neurais profundas para realizar a tarefa do Karaokê;
Desenvolver uma plataforma para manipulação dos áudios e conversão do vídeo final;

Por que 4 redes neurais?

Rede Neural responsável para pegar letra da música e sincronizar com áudio;

Rede Neural responsável por isolar o vocal da música para que a sincronização com o texto fique mais eficiente;

Rede Neural para fazer transcrição da música, ou seja, converter áudio para texto;

Rede Neural responsável por isolar o vocal da música para que a transcrição do texto fique mais correta;

Exemplo de solução com IA

Desenho simples de arquitetura:

Exemplo de solução com IA

Rede Neural para transcrição de texto - Whisper - OpenAI (Dezembro 2022) - Link do paper: https://arxiv.org/pdf/2212.04356:
- O modelo de transcrição multilingual, e foi treinado com aproximadamente 680.000 horas de áudio, sendo 117.000 horas em 96 linguagens diferentes
Rede Neural para Isolamento de Vocal - Demucs - FacebookResearch (Abril 2021) - Link do paper: https://hal.science/hal-02379796/document:
- Modelo denominado audio2audio (audio-to-audio), e o modelo é capaz de isolar instrumentos musicais de uma música, ou seja, é capaz de separar o vocal da música
Rede Neural de sincronização de texto - MMS - Massively Multilingual Speech - OpenAI e Meta (Maio 2023) - Link do paper: https://arxiv.org/pdf/2305.13516
- É um modelo que pode ser utilizado speech-to-text e text-to-speech;

Exemplo de solução com IA

Flor de Lis com áudio original:

Flor de Lis com Isolamento de Vocal:

Flor de Lis com Instrumental:

Exemplo de solução com IA

Aplicação da solução em forma de vídeo:

Exemplo de solução com IA

Solução sendo aplicada:

https://www.instagram.com/reel/C7QCTCcpxhH/?igsh=MTRpb2txc2piNjFmYw==

https://www.instagram.com/reel/C8H6eJWJo9s/?igsh=dmJxcXV5bWl2eWZl

Qualidade do sinal

Para concluir

Os cientistas de dados são profissionais interdisciplinares. Eles podem lidar com todos os aspectos de um problema, desde a coleta inicial de dados e condicionamento de dados até a obtenção de conclusões. Eles podem e devem pensar fora da caixa para encontrar novas maneiras de ver o problema ou trabalhar com problemas definidos de uma maneira muito ampla, e eles sempre devem estar prontos para o seguinte questionamento:

‘Aqui estão os dados, o que você pode fazer com eles?’

Mike Loukides

vice-presidente de estratégia de conteúdo da O’Reilly Media

Referências

Newell, Allen. “Intellectual issues in the history of artificial intelligence.” Artificial Intelligence: Critical Concepts (1982): 25-70.
Kaliraj, P., and T. Devi, eds. Artificial intelligence theory, models, and applications. CRC press, 2021.

Livros:

R para Data Science;
Data Science do zero;
Estatística e Ciêcia de Dados;

Links e Imagens

OBRIGADO!

Slide produzido com quarto

Lattes: http://lattes.cnpq.br/4617170601890026

LinkedIn: jodavidferreira

Site Pessoal: https://jodavid.github.io/

e-mail: jodavid.ferreira@ufpe.br