O documento apresenta uma introdução à ciência de dados, abordando os principais conceitos da área como: características dos grandes volumes de dados, aplicações da análise de dados, desafios do uso de big data em diferentes setores e o processo de ciência de dados.
1. Introdução à Ciência de Dados
Noções Gerais de Data Science
Copyright @2012, Concurrent, Inc.
João Pedro Albino
Departamento de Computação
Faculdade de Ciências
UNESP - Bauru
3. Data, data
everywhere
• Information has gone from scarce to superabundant.
That brings huge new benefits, says Kenneth Cukier — but
also big headaches.
http://www.economist.com/node/15557443
5. perspectivas de uso de big data
fonte: https://www.simplilearn.com/why-and-how-data-science-matters-to-business-article
6. desafios para o
big data -
comunicações,
mídia e
entretenimento
• Consumidores esperam rich media
• vídeo, áudio ou outros elementos que incentivam a interação e
envolvimento on-demand em diferentes formatos e dispositivos
• Coleta, análise e uso dos insights do consumidor
• Aproveitar o conteúdo de mídia móvel e social
• Compreensão dos padrões de uso de conteúdo de mídia em tempo real
• Aplicações de big data
• Criar perfis detalhados de clientes
• Criar conteúdo para diferentes públicos-alvo
• Recomendar conteúdo sob demanda
• Medir o desempenho do conteúdo
7. desafios para o big data -
educação
• Do ponto de vista técnico:
• incorporar dados importantes
• diferentes fontes/plataformas /fornecedores
• não foram projetados para trabalhar uns com os outros!
• Do ponto de vista prático
• funcionários / instituições
• aprender novas ferramentas de gerenciamento / análise de dados
• Do lado técnico-prático
• integrar dados!!
• Politicamente
• privacidade e proteção dos dados pessoais para fins educacionais
• LGPD / LGPD
• Lei nº 13.709/2018 / Lei nº 13.853, de 2019
• http://www.planalto.gov.br/ccivil_03/_ato2015-
2018/2018/lei/L13709.htm#art65..
• Vigência: agosto de 2020
8. desafios para
o big data -
educação
• Usado de forma significativa no ensino superior
• medir a eficácia do professor
• garantir boa experiência para alunos / professores
• desempenho do professor ajustado / medido
• variáveis
• número de estudantes, assunto, demografia estudantil, aspirações
estudantis, classificação comportamental
• Departamento de Educação dos EUA
• grandes dados para análises
• ajudar alunos que se distraem ao usar recursos on-line
• padrões de clique usados para detectar aborrecimento
9. desafios
para o big
data -
educação
• Seamless Learning
https://link.springer.com/chapter/10.1007/978-981-13-3071-1_1
10. desafios para o big
data - educação
• Learning Analytics
https://medium.com/@limaolflavio/a-import%C3%A2ncia-do-learning-analytics-na-avalia%C3%A7%C3%A3o-do-aprendizado-on-line-b43d67685848
13. ‣ Não estruturado
‣ Semi estruturado
‣ Estruturado
‣ Velocidade
de geração
‣ Taxa de análise
‣ Não confiável
‣ “Sujo”/ Não limpo
‣ Click stream
‣ Sensor ativo/passivo
‣ Logs
‣ Evento
‣ Corpus
‣ Fala
‣ Mídia social
‣ Tradicional
características do Big Data: 4 V's
14. o que é ciência de dados?
Uma continuação dos
campos de mineração de dados e
análise preditiva.
É a extração de
conhecimento (insights) de grandes
volumes de dados
estruturados ou
não estruturados.
16. Cientista de Dados:
Valores fundamentais
• Um Cientista de Dados é alguém
que sabe obter, tabular, explorar,
modelar e interpretar dados,
combinando e utilizando estatística
e aprendizagem de máquina.
• Cientistas de Dados não somente
são adeptos a trabalhar com dados,
mas apreciam esses dados como um
produto de primeira classe.
• Hillary Mason
• Cientista de Dados
• Accel
20. pensamento estatístico
• um modo de raciocínio que inclui tanto o raciocínio lógico quanto o analítico: avaliar a
totalidade de um problema, bem como suas partes componentes; busca avaliar os
efeitos na mudança em uma ou mais variáveis
• esta abordagem tenta entender não apenas problemas e soluções, mas também os
processos envolvidos e suas variações
• particularmente valioso no trabalho do Big Data quando combinado com experiência
prática em comunicação - p.ex.:aproximadamente 50% dos meus pares vêm do
jornalismo ou de rádio e tv ... os programadores normalmente não pensam assim!
22. fluxo de ciência de dados
Dados “brutos"
“limpeza" dos dados
“Exploração”
dos dados
Desenvolvimento
do “modelo"
(Estatística básica,
plotagem de gráficos,
tendências,
mineração de padrões) (Seleção de variáveis, seleção de
atributos ou seleção de subconjunto
de variáveis)
Atualizar/
Aprimorar
o modelo
Domínio do
Conhecimento
Aprender
o modelo
Conhecimento
especializado
Avaliar o
experimento
Teste A/B
23. ponto de inflexão: o lado da demanda
• grandes sucessos na Internet após a temporada de férias de 1997 ...
AMZN, EBAY, então GOOG, Inktomi (YAHOO Search)
• considere esta métrica:
receita anual por cliente / loja de dados operacional em tamanho
superior a 100x dentro de alguns anos após 1997
• Os custos de armazenamento e processamento caíram, agora pode-se
trabalhar muito mais inteligentemente para extrair o ROI de dados
grandes - big data … os métodos devem se adaptar…
• A "sabedoria convencional" das ferramentas RDBMS e BI tornou-se
menos viável; o quadro de negócios ainda focado em tabelas dinâmicas e
gráficos de pizza ... que tende para a inércia…
• a pilha de código aberto para MapReduce e Hadoop cresceram ligados
diretamente à partir deste novo contexto ... mas isso resolve apenas parte
do problema
ruptura maciça no varejo, na publicidade, no jornalismo, etc.,
"Toda Fortune 500 está em alerta pelos próximos 10 anos"
– Geoffrey Moore, 2012 (Mohr Davidow Ventures)
26. big data: uma linha de tempo
from: https://smalldatagroup.files.wordpress.com/2013/11/big-data-timeline.png
27. habilidades mais
importantes
• aproximadamente 80% do custo (tempo +
dinheiro) em projetos relacionados aos
dados são gastos na preparação destes
dados - principalmente no problemas de
limpeza e de qualidade dos dados
• infelizmente, os orçamentos relativos a
dados tendem a entrar em frameworks que
só podem ser utilizadas após a sua limpeza
28. Habilidades importantes
• Habilidades mais importantes:
• aprender a utilizar ferramentas
programáveis que preparem os dados
• aprender a gerar visualizações de
dados convincentes
• aprender a estimar a confiança dos
resultados relatados
• aprender a automatizar o trabalho,
tornando a análise repetível
• Outras habilidades secundárias
• Modelagem
• algoritmos,
• etc.
29. advertências sociais
• a frase "Este dado pode não estar correto!" Pode ser um aviso prévio sobre a própria
organização dos dados
• depende muito de como as pessoas com quem você trabalha tendem chegar a suas
decisões:
‣ provavelmente boa: indução, captura, limitação
‣ provavelmente pobre: dedução, especulação, justificação
Em geral, uma boa visualização de dados pode reduzir/eliminar muito da argumentação
verbal
xkcd
31. processo de ciência de dados
descoberta
modelagem
integração
apps
sistemas
auxilia pessoas fazerem as
perguntas corretas
a automação permite que
se faça previsões seguras
entregar o nível de
produtos adequado aos
clientes
alavancagem inteligente
nas características do
produto
manter a infraestrutura
funcionando e rentável
Gephi
32. processo de ciência de dados
O modelo se baseia nas etapas:
análises estatísticas
transformação (análise, raspagem e formatação de dados)
visualização (gráficos, sumários, ferramentas, etc.)
34. sistemas de recomendação
• Representam uma subclasse dos sistemas de filtragem de informação
• procuram prever a “classificação” ou a “preferência” que um usuário daria para um item
---- Wikipedia
35. filtragem colaborativa
• Pressuposto básico
•Usuários com interesses
semelhantes têm preferência
similar
•Um número suficientemente
grande de preferências do usuário
estão disponíveis
• Principais Abordagens
•Baseado no usuário
•Baseado em itens
40. porque os cientistas de dados necessitam de
ferramentas de visualização?
Dar sentido aos dados ganhou grande importância neste século 21.
Programar é uma das formas de se manipular os dados que estão
disponíveis e torná-los utilizável. Entretanto, nem todo mundo é
“programador” e para tais pessoas os cientistas de dados podem
usar ferramentas de visualização de dados para “contar estórias”.
40
42. fluxo de ciência de dados
Dados “brutos"
“limpeza" dos dados
“Exploração”
dos dados
Desenvolvimento
do “modelo"
(Estatística básica,
plotagem de gráficos,
tendências,
mineração de padrões) (Seleção de variáveis, seleção de
atributos ou seleção de subconjunto
de variáveis)
Atualizar/
Aprimorar
o modelo
Domínio do
Conhecimento
Aprender
o modelo
Conhecimento
especializado
Avaliar o
experimento
Teste A/B
43. ultrapassando
obstáculos
para obter
Informação
•“Criar" (gerar) os próprios dados, através de instrumentos (p.
ex. questionários, surveys, etc.)
•Obter os dados através de APIs web, interfaces providas por
bases de dados e por várias aplicações web modernas
(incluindo Twitter, Facebook, dentre outras).
•Extrair as informações de arquivos PDF.
•Extrair informações de telas dos sites (scraping).
46. o que é a linguagem R?
•A plataforma R” é uma “ferramenta” gráfica
para gerenciamento de dados estatísticos.
•R é plataforma de código aberto, mantido e
desenvolvido por uma comunidade de
desenvolvedores.
•O repositório de código R, bem como os
“binários compilados” (software pronto para
instalar) estão disponíveis em: http://cran.r-
project.org
•R compreende um projeto centralizado com
mais de 15.323 “pacotes” complementares
disponíveis livremente.
47. CRAN-R
The Comprehensive R Archive Network
https://cran.r-project.org/
• https://pt.wikipedia.org/wiki/R_(linguagem_de_programa%C3%A7%C3%A3o)
48. então, por que utilizar o “R" ?
• Software estatísticos populares e seus públicos:
• SPSS: cientistas sociais
• Stata: cientistas sociais
• Mathematica / Matlab: engenheiros, matemáticos,
informáticos e físicos
• Python / NumPy: cientistas da computação,
desenvolvedores web
• SAS: indústrias intensivas em dados (por exemplo, serviços
financeiros)
• Excel: todos os tipos de organizações
• R é popular e usado por grande número de
analistas/acadêmicos
Fonte: Albino, J. P. (2016). Uma Abordagem para Criação de Valor em Dados Abertos para Pequenas e Médias Empresas Utilizando o Ecossistema R, 3o.
Encontro Internacional de Dados, Tecnologia e Informação, UNESP – Marília.
50. porém …
• Surgiu em 1993
• Usuários gostam de apontar e clicar
• R é orientado a linha de comando (linguagem
de programação)
• R-Studio é um ambiente de desenvolvimento
integrado (IDE) para R
• R é gratuito (open software)
• R não é uma linguagem de programação de
uso geral
• R não é usado para outras tarefas além de
programação estatística
• Suporte comercial para o R
• Microsoft / Revolution Analytics / Azure
• Oracle / Big Data Appliance / Oracle R
Enterprise
• JMP, Mathematica, MATLAB, Spotfire, SP
SS, STATISTICA, Platform Symphony, SAS
• TIBCO / S-Plus
52. exemplo 2: mapa do brasil em R
Fonte: Criando um mapa do Brasil no R em 7 passos
https://dataficacao.wordpress.com/2017/02/21/criando-mapa-brasil-r
Dados Abertos
54. inovação
Um(a) grande cientista de dados deve ser
inovador(a) e criativo(a) com as
habilidades que possui.
A criatividade de um(a) cientista de dados
o(a) ajuda a determinar onde os dados
podem agregar valor e trazer resultados
lucrativos para a sua “aplicação".
55. conhecimento
do negócio
(business)
• Cientistas de Dados precisam ter profunda experiência naquilo em
que estão trabalhando, para ter um melhor entendimento de quais
problemas está buscando resolver.
• O campo da Ciência de Dados exige identificar os problemas que
são importantes para um negócio e quais são as novas estratégias
que podem ser adotadas para alavancar os dados no sentido de
resolver estes problemas
56. 3 C’s
O papel do(a) Cientista de Dados está fortemente voltado a estes três C’s:
Nota: do Inglês Curiosity, Common Sense e Communication Skills!
57. intuição sobre os
dados
• Um bom cientista de dados
não é aquele que apenas
adiciona todas as possíveis
características sem um modelo
de aprendizagem de máquina e
analisa os resultados.
• A coisa mais importante que
um cientista de dados deve
fazer antes de alimentar um
modelo de aprendizagem de
máquina é pensar se aquele
modelo tem sentido!
• Um cientista de dados deve
ter intuição sobre os dados!
58. Introdução à Ciência de Dados
Noções Gerais de Data Science
Copyright @2012, Concurrent, Inc.
João Pedro Albino
Departamento de Computação
Faculdade de Ciências
UNESP - Bauru