Conceitos da área e visão geral sobre mercado de trabalho
Jodavid Ferreira
UFPB - PPGMDS | HartB Group
Atualmente no mercado de trabalho, nomenclaturas estão surgindo para diferenciar as áreas que trabalham com dados. As mais frequentes atualmente são:
Atualmente no mercado de trabalho, nomenclaturas estão surgindo para diferenciar as áreas que trabalham com dados. As mais frequentes atualmente são:
O data science é um dos assuntos em evidência atualmente, está alta na mídia, redes sociais, em livros, jornais de negócio, em conferências, entre outros lugares
Existem os que falam que “é considerado o emprego mais sexy do Século 21”.
Pode-se definir de forma prática o data science, como um conjuntos de princípios fundamentais que norteiam a extração de conhecimento a partir de dados, transformando tais dados por meio da matemática e estatística em insights, decisões e produtos valiosos.
Entretanto essa é uma definição centrada em negócios, e uma questionamento que pode surgir é:
Por que dessa definição nesse contexto?
E como resposta, temos que: Não estamos nisso por motivos de achar que os dados possuem um mérito estético ou por considerar o emprego como o mais sexy do século, mas, estamos nisso porque queremos através da ciência de dados ajudar nossa organização a funcionar melhor, gerando valor através dos dados analisados.
Atualmente, o data science é sinônimo ou está relacionando a termos como:
mas isso é apenas um novo giro ou nomenclatura em áreas que existem a muito tempo.
Graças ao avanço de tecnologias computacionais a
nível de hardware e software
dessa forma as técnicas estatísticas e computacionais que são utilizadas no data science ganharam uma âncora em negócios nos últimos anos;
Atualmente, existem aproximadamente 50 bilhões de dispositivos conectados à internet;
7.4 bilhões de pessoas vivendo em nosso planeta.
Essas conexões entre pessoas e dispositivos geram uma massa de dados estimada em 5 zettabytes.
Para se ter uma ideia do que isso significa, vamos entender rapidamente a estrutura de armazenamento de dados com exemplos que temos no cotidiano.
Este último, equivale a ’todas as centrais
de dados, discos rígidos, pendrives e servidores de todo o mundo’.
No Brasil, atualmente, 71% da população brasileira está acessando a internet e 66% estão nas mídias sociais, como blogs, Facebook, Twitter, Instagram, SlideShare, Youtube, entre outros, realizando algum tipo de interação e assim trocando dados e informações.
Uso digital no Brasil. Fonte: We are social.
Fluxograma do processo de ciência de dados de Doing Data Science, de Schutt & O’Neil (2013)
Compreender os dados e descobrir o que pode ser digno de nota ou interessante a destacar para outras pessoas.
Mesmo sabendo que existem dados de diferentes formas, quando estamos no contexto de dados estrurados é importante ter essa reflexão em mente!
- Hadley Wickham
Há três regras inter-relacionadas que tornam um conjunto de dados arrumados (tidy):
Cada variável
deve ter sua própria coluna.
Cada observação
deve ter sua própria linha.
Cada valor
deve ter sua própria célula.
Áreas que podem se beneficiar com Ciência de Dados
a ciência e a tecnologia caminham juntas há tempos, e nessa área podemos comentar por exemplo sobre os dispositivos e sensores portáteis que conectados ao corpo enviam dados em tempo real sobre as condições de saúde de um paciente, dessa forma é possível extrair diversas análises sobre os dados coletados.
Também podemos comentar sobre os avanços nos diagnósticos de doenças como o câncer, reduzindo o tempo dos exames e extinguindo a chance de erro médico, dessa forma quanto mais rápido o diagnóstico, maiores as chances de cura do paciente.
a tecnologia junto com as análises já alterou a forma como os professores ministram as aulas, substituindo livros por imersões no tema estudado com recursos de realidade virtual por exemplo. Através de análises e transformando-as em inteligência (inteligência artificial), o progresso dos alunos podem ser indicados por níveis e através destes conteúdos adaptados são direcionados para cada um deles.
Também, podemos exemplificar que através de um sistema on-line, o aluno completando atividades, é possível criar um algoritmo que identifica o quanto ele aprendeu, e vai traçando um plano de estudo de acordo com sua evolução.
neste caso podemos utilizar a ciência de dados para personalização da compra, que é uma experiência positiva para o cliente. Através de algoritmos de aprendizado, a máquina estabelece as preferências do público de acordo com histórico de compras e recomendações, assim as tomadas de decisões sobre as ações são mais acertadas e direcionadas para o desejo dos clientes.
nesta área as empresas procuram identificar padrões e informações que favoreçam a negociação, também para facilitar a rotina das transações e combater fraudes, seja analisando perfis de risco, ou com tecnologias mais atuais como cibersegurança.
responder e oferecer serviços a potenciais clientes era 100% humano, hoje existem os chatbots que com determinados algoritmos, aprendem a cada conversa, e se tornam cada vez melhores em se relacionar com os clientes, dessa forma, empresas que oferecem serviços de integração dos chatbots com redes sociais e com sistemas de pagamento já deslumbram um cenário otimista.
prever tendências de compra, personalizar experiências e o relacionamento com chatbots, são benefícios da ciência de dados com Inteligência Artificial e amplamente aplicados na moda. Além do e-commerce, a analise dados é uma importante aliada no desenvolvimento de novos tecidos, através de simulações e inteligência, as reações humanas são imitadas, com controles sobre a transpiração.
Pode-se afirmar que para aplicar ciência de dados é preciso ter conhecimentos de
Isto porque as ferramentas e algoritmos são baseadas nestas áreas, por isso eles são a essência da Ciência de Dados
Ao considerar as áreas de
é possível destacar 4 (quatro) pilares fundamentais para se tornar um cientista de dados
Possuir “Pensamento e raciocínio lógico matemático”, é extremamente necessário ter a capacidade de realizar operações lógicas, ou seja, a capacidade de organizar dados ou informações para se obter um contexto, um significado e um resultado ou consequência
Em seguida, a “Matemática e Estatística” é a base de todos os algoritmos aplicados à machine learning e inteligência artificial, no qual os conceitos matemáticos e a estatística é característica intrínseca da ciência de dados.
Outro ponto importante é o “Conhecimento em Programação”, a extração de dados exige criatividade devido ao emaranhado de dados possíveis para um determinado fim e exige também formas viáveis para extração. Tanto a criatividade quanto a viabilidade são postas em prática a partir de programas oriundos do conhecimento de linguagens de programação.
Por fim, o quarto pilar, podemos dizer que é o “Conhecimento em Banco de dados”, todos os dados disponíveis podem ser armazenados, ainda que temporariamente, para produzirem o conhecimento necessário para determinado fim e praticamente em quase todas as fases do ciclo de vida do dado pertencente à análises estarão relacionadas à bancos de dados, sejam estes relacionais ou não relacionais, que são assuntos que o cientista de dados deve dominar no seu dia a dia.
Os cientistas de dados combinam empreendedorismo com paciência, vontade de construir produtos de dados de forma incremental, capacidade de explorar e capacidade de iterar sobre uma solução. São inerentemente interdisciplinares. Eles podem lidar com todos os aspectos de um problema, desde a coleta inicial de dados e condicionamento de dados até a obtenção de conclusões. Eles podem pensar fora da caixa para encontrar novas maneiras de ver o problema ou trabalhar com problemas definidos de maneira muito ampla, eles devem estar prontos para o seguinte questionamento:
‘Aqui estão os dados, o que você pode fazer com eles?’
Mike Loukides
vice-presidente de estratégia de conteúdo da O’Reilly Media
Link para Notebook:
Livros:
OBRIGADO!
Slide produzido com quarto
Lattes: http://lattes.cnpq.br/4617170601890026
LinkedIn: jodavidferreira
Site Pessoal: https://jodavid.github.io/
Instagram: jodavidferreira
Ciência de Dados - V Semana de Engenharia de Produção - Jodavid Ferreira