SlideShare uma empresa Scribd logo
1 de 44
BIG DATA
to MACHINE LEARNING
@renan_oliveira
CARA QUE
GOSTA DE
DADOS NA
GLOBO.COM
@renan_oliveira
Líderemaudiênciaeumadasprincipais
empresasdetecnologiadoBrasil
70 MILHÕESDE USUÁRIOS ÚNICOS POR MÊS
10milhõesde usuários únicos por dia
2milhõesde conexões simultâneas
4bilhõesde eventos diários
100mil novos conteúdos por mês
Como aprendemosos
interesses dos usuários
dado a sua navegação.
desde2012
COMEÇAMOS
Começamos com
nenhuma
experiência em
BigData
CENÁRIO
Processargrande volume de dados
Frameworkstotalmente novos
Recomendaçãoem foco
Semcache
Cientistasdedados?Nãotem!
PIXEL
TRACKER
DESAFIOS
Algoritmosescritos em pig
CTRcomo única métrica
Logem text como fonte
ABnão escalável para todo pv
Desconfiançase era bom mesmo
Cenário inicial
para um vendedor
event tracker by globo.com
Melhoramos o processo de
capturadeeventos
YARN
Novastack
CENÁRIO
Controlesobre a execução dos jobs
Parquetcomo formato padrão
Streaming simplificado
Scalapara API e Jobs
Amadurecimentoda área
ArquiteturaLambda
data culture/ab
NÚMEROS
+2000experimentos
Scala com VM < 2gb
5ms de tempo médio de resposta
Visuaise deAlgoritmos
100 rodando hoje
A/B
80%daaudiência 20%daaudiência
vs
80%daaudiência 20%daaudiência
vsA/B
80%daaudiência 20%daaudiência
vs
+78%conversão
A/B
recomendação
NÚMEROS
+100milrecomendações por minuto
Homes,MatériaseVídeos
Spark pra todo lado
Consolidado!
ABem todas recomendações
COLLABORATIVE
FILTERING
CONTENT BASED TOP
COLLABORATIVE FILTERING CONTENT BASED TOP
COLLABORATIVE FILTERING CONTENT BASED TOP
surf medina
peniche
prancha
mundial de
surf john john
mineirinho
pipeline
futebol
guerrero
flamengo
STJD
copa do brasil
fluminense henrique
brasileirão
COLLABORATIVE FILTERING CONTENT BASED TOP
COLLABORATIVE
FILTERING
CONTENT BASED TOP
T R A B A L H A N D O C O M
100algoritmos
SUPERVISED
UNSUPERVISED
REINFORCEMENT
RECOMENDAÇÃO
CTRindo além
DIVERSITY
COVERAGE
FRESHNESS
SERENDIPITY
PIPELINETF
PREDICTIVE
CHURNRATE
UP-SELL
GROWTH
MAB
MINWORST
MVT
EXPERIMENTATION
https://blog.acolyer.org/2017/09/27/an-efficient-bandit-algorithm-for-real-time-multivariate-optimization/
300experimentos
MULTI-ARMEDBANDIT
TITLE
SECTIONS
ALGORITHM
THUMBNAIL
DMP
MARKET
SEGMENTATION
USERCENTRIC
PROFILE
SEGMENTATION
ATUALMENTE
5timesfocados emMachineLearning
9timesna área deBigData
MadeinBR
Negócioetecnologiaem conjunto
DataDrivenCompany
OBRIGADO!
@renan_oliveira
www.renanoliveira.net
http://slideshare.net/renangpa

Mais conteúdo relacionado

Semelhante a BIG DATA TO MACHINE LEARNING AT GLOBO.COM

Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?Paulo Ricardo Santos
 
Cloud Computing - Palestra de Silvio Meira no Road Show da Amazon Web Services
Cloud Computing - Palestra de Silvio Meira no Road Show da Amazon Web ServicesCloud Computing - Palestra de Silvio Meira no Road Show da Amazon Web Services
Cloud Computing - Palestra de Silvio Meira no Road Show da Amazon Web Servicesitroads
 
PLM Summit 2018 Apresentação 03a
PLM Summit 2018 Apresentação 03aPLM Summit 2018 Apresentação 03a
PLM Summit 2018 Apresentação 03aCADWARE-TECHNOLOGY
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Denodo
 
Digital Transformation: Como a nuvem da AWS pode ajudar o seu negócio
Digital Transformation: Como a nuvem da AWS pode ajudar o seu negócioDigital Transformation: Como a nuvem da AWS pode ajudar o seu negócio
Digital Transformation: Como a nuvem da AWS pode ajudar o seu negócioAmazon Web Services LATAM
 
Plataformas Predicta para AGÊNCIAS e ANUNCIANTES
Plataformas Predicta para AGÊNCIAS e ANUNCIANTESPlataformas Predicta para AGÊNCIAS e ANUNCIANTES
Plataformas Predicta para AGÊNCIAS e ANUNCIANTESAndiara Petterle
 
Estratégia Integrada na Nuvem para Varejo
Estratégia Integrada na Nuvem para VarejoEstratégia Integrada na Nuvem para Varejo
Estratégia Integrada na Nuvem para VarejoOracle Retail
 
Lambda architecture for large data volumes.
Lambda architecture for large data volumes.Lambda architecture for large data volumes.
Lambda architecture for large data volumes.Hugo Rozestraten
 
Vista
VistaVista
VistaVista
 
BPM Day SP 2018 - O Impacto das Capacidades Robóticas nos Processos das Organ...
BPM Day SP 2018 - O Impacto das Capacidades Robóticas nos Processos das Organ...BPM Day SP 2018 - O Impacto das Capacidades Robóticas nos Processos das Organ...
BPM Day SP 2018 - O Impacto das Capacidades Robóticas nos Processos das Organ...Eduardo Britto
 
Introdução Splunk Brasil
Introdução Splunk BrasilIntrodução Splunk Brasil
Introdução Splunk BrasilSplunk
 
Evento Allen Office 365 e Azure-28-05
Evento Allen Office 365 e Azure-28-05Evento Allen Office 365 e Azure-28-05
Evento Allen Office 365 e Azure-28-05Allen Informática
 
Plataforma Premier Completa 2017
Plataforma Premier Completa 2017Plataforma Premier Completa 2017
Plataforma Premier Completa 2017Jorge Biesczad Jr.
 
AutomationEdge Robotic Process Automation Quality Nextech Service Desk Digital
AutomationEdge Robotic Process Automation Quality Nextech Service Desk Digital AutomationEdge Robotic Process Automation Quality Nextech Service Desk Digital
AutomationEdge Robotic Process Automation Quality Nextech Service Desk Digital Jorge Biesczad Jr.
 
Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Lucas Modesto
 
Apresentando CEP - TDC2011 / Trilha SOA
Apresentando CEP - TDC2011 / Trilha SOAApresentando CEP - TDC2011 / Trilha SOA
Apresentando CEP - TDC2011 / Trilha SOApaulosampei
 

Semelhante a BIG DATA TO MACHINE LEARNING AT GLOBO.COM (20)

Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?
 
Cloud Computing - Palestra de Silvio Meira no Road Show da Amazon Web Services
Cloud Computing - Palestra de Silvio Meira no Road Show da Amazon Web ServicesCloud Computing - Palestra de Silvio Meira no Road Show da Amazon Web Services
Cloud Computing - Palestra de Silvio Meira no Road Show da Amazon Web Services
 
PLM Summit 2018 Apresentação 03a
PLM Summit 2018 Apresentação 03aPLM Summit 2018 Apresentação 03a
PLM Summit 2018 Apresentação 03a
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?
 
Abaas - Advanced Beer-as-a-Service
Abaas - Advanced Beer-as-a-ServiceAbaas - Advanced Beer-as-a-Service
Abaas - Advanced Beer-as-a-Service
 
Digital Transformation: Como a nuvem da AWS pode ajudar o seu negócio
Digital Transformation: Como a nuvem da AWS pode ajudar o seu negócioDigital Transformation: Como a nuvem da AWS pode ajudar o seu negócio
Digital Transformation: Como a nuvem da AWS pode ajudar o seu negócio
 
Plataformas Predicta para AGÊNCIAS e ANUNCIANTES
Plataformas Predicta para AGÊNCIAS e ANUNCIANTESPlataformas Predicta para AGÊNCIAS e ANUNCIANTES
Plataformas Predicta para AGÊNCIAS e ANUNCIANTES
 
Intelie BPMS
Intelie BPMSIntelie BPMS
Intelie BPMS
 
Estratégia Integrada na Nuvem para Varejo
Estratégia Integrada na Nuvem para VarejoEstratégia Integrada na Nuvem para Varejo
Estratégia Integrada na Nuvem para Varejo
 
Plataforma Premier 2017
Plataforma Premier 2017Plataforma Premier 2017
Plataforma Premier 2017
 
Lambda architecture for large data volumes.
Lambda architecture for large data volumes.Lambda architecture for large data volumes.
Lambda architecture for large data volumes.
 
Vista
VistaVista
Vista
 
BPM Day SP 2018 - O Impacto das Capacidades Robóticas nos Processos das Organ...
BPM Day SP 2018 - O Impacto das Capacidades Robóticas nos Processos das Organ...BPM Day SP 2018 - O Impacto das Capacidades Robóticas nos Processos das Organ...
BPM Day SP 2018 - O Impacto das Capacidades Robóticas nos Processos das Organ...
 
Introdução Splunk Brasil
Introdução Splunk BrasilIntrodução Splunk Brasil
Introdução Splunk Brasil
 
Evento Allen Office 365 e Azure-28-05
Evento Allen Office 365 e Azure-28-05Evento Allen Office 365 e Azure-28-05
Evento Allen Office 365 e Azure-28-05
 
Plataforma Premier Completa 2017
Plataforma Premier Completa 2017Plataforma Premier Completa 2017
Plataforma Premier Completa 2017
 
Rest api vs SOAP
Rest api vs SOAPRest api vs SOAP
Rest api vs SOAP
 
AutomationEdge Robotic Process Automation Quality Nextech Service Desk Digital
AutomationEdge Robotic Process Automation Quality Nextech Service Desk Digital AutomationEdge Robotic Process Automation Quality Nextech Service Desk Digital
AutomationEdge Robotic Process Automation Quality Nextech Service Desk Digital
 
Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.
 
Apresentando CEP - TDC2011 / Trilha SOA
Apresentando CEP - TDC2011 / Trilha SOAApresentando CEP - TDC2011 / Trilha SOA
Apresentando CEP - TDC2011 / Trilha SOA
 

Mais de Renan Moreira de Oliveira

Mais de Renan Moreira de Oliveira (14)

PicPay - GenAI Finance Assistant - ChatGPT for Customer Service
PicPay - GenAI Finance Assistant - ChatGPT for Customer ServicePicPay - GenAI Finance Assistant - ChatGPT for Customer Service
PicPay - GenAI Finance Assistant - ChatGPT for Customer Service
 
AI na jornada do usuário de ecommerce
AI na jornada do usuário de ecommerceAI na jornada do usuário de ecommerce
AI na jornada do usuário de ecommerce
 
RecSys 2020 - iFood recommendation
RecSys 2020 - iFood recommendationRecSys 2020 - iFood recommendation
RecSys 2020 - iFood recommendation
 
Data science Framework
Data science FrameworkData science Framework
Data science Framework
 
iFood Recommendations
iFood RecommendationsiFood Recommendations
iFood Recommendations
 
Sistemas de Recomendação
Sistemas de RecomendaçãoSistemas de Recomendação
Sistemas de Recomendação
 
What is AB, MVT and MAB?
What is AB, MVT and MAB?What is AB, MVT and MAB?
What is AB, MVT and MAB?
 
Big data e a globo.com - 2017
Big data e a globo.com - 2017Big data e a globo.com - 2017
Big data e a globo.com - 2017
 
Big Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro SparkBig Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro Spark
 
Big Data na globo.com
Big Data na globo.comBig Data na globo.com
Big Data na globo.com
 
Excelsior - Perfil usando Big Data e Web Semântica
Excelsior - Perfil usando Big Data e Web SemânticaExcelsior - Perfil usando Big Data e Web Semântica
Excelsior - Perfil usando Big Data e Web Semântica
 
Transição do desenvolvimento web para apps - o caminho suave
Transição do desenvolvimento web para apps - o caminho suaveTransição do desenvolvimento web para apps - o caminho suave
Transição do desenvolvimento web para apps - o caminho suave
 
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014
 
Introdução a web semântica e o case da globo.com
Introdução a web semântica e o case da globo.comIntrodução a web semântica e o case da globo.com
Introdução a web semântica e o case da globo.com
 

BIG DATA TO MACHINE LEARNING AT GLOBO.COM