SlideShare uma empresa Scribd logo
1 de 46
Baixar para ler offline
Open Source Data Science
Elaborando uma plataforma de Big Data &
Analytics 100% Open Source com apoio do
Pentaho.
Palestrante: Marcio Junior Vieira
CEO e Data Scientist na Ambiente Livre
marcio@ambientelivre.com.br
Marcio Junior Vieira
●
17 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial e Analise de Dados.
●
Trabalhando com Free Software e Open Source desde 2000 com serviços
de consultoria e treinamento.
●
Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
●
Palestrante FLOSS em: CONISLI, SOLISC, FISL, LATINOWARE, SFD,
JDBR, Campus Party, Pentaho Day, TDC.
●
Organizador Geral do Pentaho Day 2017,2015 e apoio nas edições 2013
e 2014.
●
CEO da Ambiente Livre.
●
Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas.
Nosso Ecossistema
Quarto paradigma da
ciência
●
Empírica, É uma maneira de adquirir conhecimento por
meio de observação ou experiência direta e indireta.
●
Investigação, Melhorar as teorias científicas para uma
melhor compreensão ou previsão de fenômenos naturais.
Muitas vezes impulsionado pela curiosidade.
●
Computação: Estuda as técnicas, metodologias e
instrumentos computacionais, que automatiza processos e
desenvolve soluções baseadas no uso do processamento
digital.
●
Baseada em dados ( data-driven )
Ciência Sobre os Dados ou Ciência dos Dados
Data Science
●
Campo interdisciplinar de pesquisa sobre métodos científicos,
processos e sistemas para extrair conhecimentos ou insights
a partir de dados em várias formas, estruturadas ou não
estruturadas, semelhantes ao KDD.
●
Unificar estatísticas, análise de dados e seus métodos
relacionados, a fim de compreender e analisar fenômenos
reais com dados.
●
Emprega técnicas e teorias extraídas das áreas amplas de
matemática, estatística, ciência da informação e ciência da
computação, aprendizagem de máquinas, classificação,
análise de cluster, mineração de dados, bancos de dados e
visualização.
Software Livre
Software Livre
●
"Software Livre" se refere à liberdade dos usuários
executarem, copiarem, distribuírem, estudarem,
modificarem e aperfeiçoarem o software. São 4 tipos
de liberdade, para os usuários do software:
●
1. A liberdade de executar o programa, para qualquer propósito.
●
2. A liberdade de estudar como o programa funciona, e adaptá-lo para as suas
necessidades. Acesso ao código-fonte é um pré-requisito para esta liberdade.
●
3. A liberdade de redistribuir cópias de modo que você possa ajudar ao seu
próximo.
●
4. A liberdade de aperfeiçoar o programa, e liberar
os seus aperfeiçoamentos, de modo que toda a
comunidade se beneficie.
Em Curitiba 02 de Junho!
http://rms.curitibalivre.org.br/
Open Source
●
Criado pela OSI (Open Source Initiative)
●
Não refere-se a software também conhecido por
software livre.
●
Qualquer licença de software
livre é também uma licença
de código aberto (Open Source)
●
Mas o contrário nem sempre é
verdade
●
Criado por Eric Raymond e
outros fundadores da OSI.
Free Software X OSI
●
4 Lei da GPL
●
OBRIGATORIEDADE:
A liberdade de aperfeiçoar o programa, e
liberar os seus aperfeiçoamentos, de modo
que toda a comunidade se beneficie.
X
Evolução das Coisas - IOT
Sensores de Automóveis
Sensores de Voo
Data Lake
●
Fonte única
●
Grande Volume
●
Não Refinado
●
Pode estar tratado.
Como era antes!
Data Mart(s)
Data Source
Arquitetura de Big Data
Data Mart(s)
Data Source
Data Lake(s)
ad-hoc Datawarehouse
Arquitetura
Fonte Armazenamento Analise
Arquitetura - IoT
●
U$ 4 a 11 trilhões a partir de 2025
Captura de Dados
●
Web crawler
●
IoT
●
Equipamentos de Redes
●
Open Source (Data System) Erps, CRMs, etc
●
Logs
●
Etc, etc, etc
Armazenar
Armazenamento
Processar
Processamento e Integração
Visualização e Analise
Machine Learning
Fundação Apache
●
Data Science = Apache = Open Source
●
Apache é lider em Big Data e Data Science!
●
~31 projetos da linha “Big Data” incluindo
“Apache Hadoop” e “Spark”
●
3 Pilares do Pentaho
●
Plataforma abrangente para integração de
dados e Business Analytics.
Pentaho Data Integration
●
Processa em Paralelo ( em breve em Cluster Spark)
●
Acessar dados diretamente (se necessário sem DW )
●
Permite publicar dados diretamente em Reports, Ad-Hoc Reports e
Dasboards.
●
“Programação e Fluxo Visual” com aproximadamente 350 steps diferentes
Integração ampla e
adaptável de Big Data
●
Conexões nativas e camada adaptável de Big Data e
acesso funcionalidades dos populares big data stores.
●
Capacidade de acessar dados, processá-los combiná-
los e consumi-los em qualquer lugar.
●
Flexibilidade, isolamento das mudanças no
ecossistema de dados
●
Suporte a distros Hadoop
●
Acessar dados para preparação via SQL no Spark e
orquestrar aplicativos Spark (Scala, Java e Python)
●
Integração com NoSQL stores
Pentaho Report Designer
●
Visualização Web ou Embed.
●
Assistente de geração de relatórios
●
Amplo suporte de fonte de dados, incluindo
relacionais, OLAP, XML e Pentaho Analysis,
arquivos flat, objetos Java e ...
●
Big Data Reports ( integra-se com PDI )
ETL como Data Source
●
O data source do
report é um ETL.
●
Isso muda tudo!
Exemplo de dados do
Twitter Report
●
Libere na API acesso
●
Crie seu ETL no PDI ( Pentaho Data
Integration )
●
Defina onde quer os dados ( database,
hadoop, Report ou dashboard )
Dashboards
ETL
●
Dashboards permiter
integração com ETL
ETL para datasets D3.js
http://romsson.github.io/dragit/example/nations.html
https://bl.ocks.org/mbostock/1136236
http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
Pentaho Sparkl
●
Framework que usa o PDI como “fonte”
●
App Builder que permite desenvolver plugins de
Big Data Analytics e outros em alguns passos.
●
Menus = Dados
●
Campos = metaDados
●
Botão = Dispara Serviço
●
Filtros = Lista Dados
●
Todos mais faça JS/Jquery :)
Pentaho Data Mining
●
Solução completa para Machine Learning
●
Aprox. 79
Algorítimos
- Classificação
- Associação
- Cluster
Comunidade Brasileira
Comunidade Brasileira
●
Maior comunidade do Mundo!
●
Lista de Discussão com + de 1900 membros
●
Organiza a 7 anos o Pentaho Day Brasil
●
Composta por desenvolvedores, usuários , empresas e
acadêmia.
●
Utilizado em mais de 185 países.
●
+10.000 Produtos desenvolvidos sobre a plataforma Pentaho.
●
+ 4 milhões de Downloads
●
Em 2015 +- 60.000 downloads dia
Open Source gera valor
●
Facebook vende software? Não mas entrega
muita tecnologia open source assim como
milhares de outras startup. Exemplo Hive.
Dificuldades ou Desculpas
criadas por “vendos”
●
Como vai gerenciar Schedulers ?
●
Como vai gerenciar Segurança ?
●
Como vai gerenciar o Cluster ?
Como ? Como ? Como?
●
cron
●
chmod 600
●
Shell script
●
Open Source
Data Scientist Nutela Data Scientist Raiz
Diferenciais Reais mas não
impeditivos
●
Interface
●
Aceleração do Trabalho
●
BI Self Service – Será mesmo ?
●
Suporte do Desenvolvedor
Dificuldades Reais
●
Alto investimento em capital intelectual das
pessoas
●
Encontrar pessoas com perfil “hacker e
pesquisador”
●
Tempo
●
Persistência
Acontecendo no mercado
●
Compram Player de Mercado...
●
Montamos Cluster na Amazon, Azure, Azure
●
Uso o Framework da Nuvem
●
O custo sobe.. a empresa cresce.. e crise
vem... o dólar sobe...!
●
Começo a mesclar usando Open Source
●
Startups! Começam ao Contrário! Open Sorce
sempre primeiro.
Minhas Perguntas aos
Grandes
●
Sei que você usa arquitetura “mesclada”, mas
é possível fazer 100% Open Source?
●
Sim recebidos!
Data Science 100%
Open Source
SIM by
Contatos
●
marcio @ ambientelivre.com.br
●
http://twitter.com/ambientelivre
●
@ambientelivre
●
@marciojvieira
●
Blog: blogs.ambientelivre.com.br/marcio
●
Facebook/ambientelivre

Mais conteúdo relacionado

Mais procurados

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...Ambiente Livre
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Ambiente Livre
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...Ivanilton Polato
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceAmbiente Livre
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataAmbiente Livre
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...Ambiente Livre
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 

Mais procurados (19)

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine Intelligence
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Hadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud ComputingHadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud Computing
 

Semelhante a Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open Source com apoio do Pentaho

TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDatatdc-globalcode
 
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013Marcio Junior Vieira
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoAmbiente Livre
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoPentahoBrasil
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Caio Moreno
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...IT4biz IT Solutions
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011Campus Party Brasil
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Ambiente Livre
 
Oficina inpe sadeck
Oficina inpe sadeckOficina inpe sadeck
Oficina inpe sadeckLuis Sadeck
 
Software Livre como instrumento de formação
Software Livre como instrumento de formaçãoSoftware Livre como instrumento de formação
Software Livre como instrumento de formaçãoRicardo Ferreira Costa
 
Ciencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeCiencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeJohn Lemos Forman
 
Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015Rodrigo Ribeiro
 
Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoDaniel Brandão
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreCaio Moreno
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreIT4biz IT Solutions
 
Clients pb dl03-web-v.4.8
Clients pb dl03-web-v.4.8Clients pb dl03-web-v.4.8
Clients pb dl03-web-v.4.8confidencial
 
Tecnologias Abertas: Visão geral, mitos, produtividade e dinheiro no bolso
Tecnologias Abertas: Visão geral, mitos, produtividade e dinheiro no bolsoTecnologias Abertas: Visão geral, mitos, produtividade e dinheiro no bolso
Tecnologias Abertas: Visão geral, mitos, produtividade e dinheiro no bolsoRodrigo Calumby
 

Semelhante a Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open Source com apoio do Pentaho (20)

TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma Pentaho
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma Pentaho
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
 
Oficina inpe sadeck
Oficina inpe sadeckOficina inpe sadeck
Oficina inpe sadeck
 
Software Livre como instrumento de formação
Software Livre como instrumento de formaçãoSoftware Livre como instrumento de formação
Software Livre como instrumento de formação
 
Software Livre nas Empresas
Software Livre nas EmpresasSoftware Livre nas Empresas
Software Livre nas Empresas
 
Ciencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeCiencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividade
 
Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015Análise de dados com R - TDC 2015
Análise de dados com R - TDC 2015
 
Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de Informação
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
Clients pb dl03-web-v.4.8
Clients pb dl03-web-v.4.8Clients pb dl03-web-v.4.8
Clients pb dl03-web-v.4.8
 
Tecnologias Abertas: Visão geral, mitos, produtividade e dinheiro no bolso
Tecnologias Abertas: Visão geral, mitos, produtividade e dinheiro no bolsoTecnologias Abertas: Visão geral, mitos, produtividade e dinheiro no bolso
Tecnologias Abertas: Visão geral, mitos, produtividade e dinheiro no bolso
 

Mais de Ambiente Livre

Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreAmbiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISAmbiente Livre
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Ambiente Livre
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportAmbiente Livre
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAmbiente Livre
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceAmbiente Livre
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicAmbiente Livre
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMAmbiente Livre
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONAmbiente Livre
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectAmbiente Livre
 

Mais de Ambiente Livre (13)

Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice Basic
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRM
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSON
 
Gerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProjectGerenciamento de Projetos com dotProject
Gerenciamento de Projetos com dotProject
 

Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open Source com apoio do Pentaho

  • 1. Open Source Data Science Elaborando uma plataforma de Big Data & Analytics 100% Open Source com apoio do Pentaho. Palestrante: Marcio Junior Vieira CEO e Data Scientist na Ambiente Livre marcio@ambientelivre.com.br
  • 2. Marcio Junior Vieira ● 17 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial e Analise de Dados. ● Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante FLOSS em: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day, TDC. ● Organizador Geral do Pentaho Day 2017,2015 e apoio nas edições 2013 e 2014. ● CEO da Ambiente Livre. ● Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas.
  • 4.
  • 5. Quarto paradigma da ciência ● Empírica, É uma maneira de adquirir conhecimento por meio de observação ou experiência direta e indireta. ● Investigação, Melhorar as teorias científicas para uma melhor compreensão ou previsão de fenômenos naturais. Muitas vezes impulsionado pela curiosidade. ● Computação: Estuda as técnicas, metodologias e instrumentos computacionais, que automatiza processos e desenvolve soluções baseadas no uso do processamento digital. ● Baseada em dados ( data-driven ) Ciência Sobre os Dados ou Ciência dos Dados
  • 6. Data Science ● Campo interdisciplinar de pesquisa sobre métodos científicos, processos e sistemas para extrair conhecimentos ou insights a partir de dados em várias formas, estruturadas ou não estruturadas, semelhantes ao KDD. ● Unificar estatísticas, análise de dados e seus métodos relacionados, a fim de compreender e analisar fenômenos reais com dados. ● Emprega técnicas e teorias extraídas das áreas amplas de matemática, estatística, ciência da informação e ciência da computação, aprendizagem de máquinas, classificação, análise de cluster, mineração de dados, bancos de dados e visualização.
  • 8. Software Livre ● "Software Livre" se refere à liberdade dos usuários executarem, copiarem, distribuírem, estudarem, modificarem e aperfeiçoarem o software. São 4 tipos de liberdade, para os usuários do software: ● 1. A liberdade de executar o programa, para qualquer propósito. ● 2. A liberdade de estudar como o programa funciona, e adaptá-lo para as suas necessidades. Acesso ao código-fonte é um pré-requisito para esta liberdade. ● 3. A liberdade de redistribuir cópias de modo que você possa ajudar ao seu próximo. ● 4. A liberdade de aperfeiçoar o programa, e liberar os seus aperfeiçoamentos, de modo que toda a comunidade se beneficie. Em Curitiba 02 de Junho! http://rms.curitibalivre.org.br/
  • 9. Open Source ● Criado pela OSI (Open Source Initiative) ● Não refere-se a software também conhecido por software livre. ● Qualquer licença de software livre é também uma licença de código aberto (Open Source) ● Mas o contrário nem sempre é verdade ● Criado por Eric Raymond e outros fundadores da OSI.
  • 10. Free Software X OSI ● 4 Lei da GPL ● OBRIGATORIEDADE: A liberdade de aperfeiçoar o programa, e liberar os seus aperfeiçoamentos, de modo que toda a comunidade se beneficie. X
  • 14. Data Lake ● Fonte única ● Grande Volume ● Não Refinado ● Pode estar tratado.
  • 15. Como era antes! Data Mart(s) Data Source
  • 16. Arquitetura de Big Data Data Mart(s) Data Source Data Lake(s) ad-hoc Datawarehouse
  • 18. Arquitetura - IoT ● U$ 4 a 11 trilhões a partir de 2025
  • 19. Captura de Dados ● Web crawler ● IoT ● Equipamentos de Redes ● Open Source (Data System) Erps, CRMs, etc ● Logs ● Etc, etc, etc
  • 26. Fundação Apache ● Data Science = Apache = Open Source ● Apache é lider em Big Data e Data Science! ● ~31 projetos da linha “Big Data” incluindo “Apache Hadoop” e “Spark” ●
  • 27. 3 Pilares do Pentaho ● Plataforma abrangente para integração de dados e Business Analytics.
  • 28. Pentaho Data Integration ● Processa em Paralelo ( em breve em Cluster Spark) ● Acessar dados diretamente (se necessário sem DW ) ● Permite publicar dados diretamente em Reports, Ad-Hoc Reports e Dasboards. ● “Programação e Fluxo Visual” com aproximadamente 350 steps diferentes
  • 29. Integração ampla e adaptável de Big Data ● Conexões nativas e camada adaptável de Big Data e acesso funcionalidades dos populares big data stores. ● Capacidade de acessar dados, processá-los combiná- los e consumi-los em qualquer lugar. ● Flexibilidade, isolamento das mudanças no ecossistema de dados ● Suporte a distros Hadoop ● Acessar dados para preparação via SQL no Spark e orquestrar aplicativos Spark (Scala, Java e Python) ● Integração com NoSQL stores
  • 30. Pentaho Report Designer ● Visualização Web ou Embed. ● Assistente de geração de relatórios ● Amplo suporte de fonte de dados, incluindo relacionais, OLAP, XML e Pentaho Analysis, arquivos flat, objetos Java e ... ● Big Data Reports ( integra-se com PDI )
  • 31. ETL como Data Source ● O data source do report é um ETL. ● Isso muda tudo!
  • 32. Exemplo de dados do Twitter Report ● Libere na API acesso ● Crie seu ETL no PDI ( Pentaho Data Integration ) ● Defina onde quer os dados ( database, hadoop, Report ou dashboard )
  • 34. ETL para datasets D3.js http://romsson.github.io/dragit/example/nations.html https://bl.ocks.org/mbostock/1136236 http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
  • 35. Pentaho Sparkl ● Framework que usa o PDI como “fonte” ● App Builder que permite desenvolver plugins de Big Data Analytics e outros em alguns passos. ● Menus = Dados ● Campos = metaDados ● Botão = Dispara Serviço ● Filtros = Lista Dados ● Todos mais faça JS/Jquery :)
  • 36. Pentaho Data Mining ● Solução completa para Machine Learning ● Aprox. 79 Algorítimos - Classificação - Associação - Cluster
  • 38. Comunidade Brasileira ● Maior comunidade do Mundo! ● Lista de Discussão com + de 1900 membros ● Organiza a 7 anos o Pentaho Day Brasil ● Composta por desenvolvedores, usuários , empresas e acadêmia. ● Utilizado em mais de 185 países. ● +10.000 Produtos desenvolvidos sobre a plataforma Pentaho. ● + 4 milhões de Downloads ● Em 2015 +- 60.000 downloads dia
  • 39. Open Source gera valor ● Facebook vende software? Não mas entrega muita tecnologia open source assim como milhares de outras startup. Exemplo Hive.
  • 40. Dificuldades ou Desculpas criadas por “vendos” ● Como vai gerenciar Schedulers ? ● Como vai gerenciar Segurança ? ● Como vai gerenciar o Cluster ? Como ? Como ? Como? ● cron ● chmod 600 ● Shell script ● Open Source Data Scientist Nutela Data Scientist Raiz
  • 41. Diferenciais Reais mas não impeditivos ● Interface ● Aceleração do Trabalho ● BI Self Service – Será mesmo ? ● Suporte do Desenvolvedor
  • 42. Dificuldades Reais ● Alto investimento em capital intelectual das pessoas ● Encontrar pessoas com perfil “hacker e pesquisador” ● Tempo ● Persistência
  • 43. Acontecendo no mercado ● Compram Player de Mercado... ● Montamos Cluster na Amazon, Azure, Azure ● Uso o Framework da Nuvem ● O custo sobe.. a empresa cresce.. e crise vem... o dólar sobe...! ● Começo a mesclar usando Open Source ● Startups! Começam ao Contrário! Open Sorce sempre primeiro.
  • 44. Minhas Perguntas aos Grandes ● Sei que você usa arquitetura “mesclada”, mas é possível fazer 100% Open Source? ● Sim recebidos!
  • 45. Data Science 100% Open Source SIM by