Como a Globo.com usa big data para personalização e crescimento

•

4 gostaram•3,780 visualizações

Apresentação na TDC SP em 2017 na trilha de Data Science. Apresentando arquitetura e a cultura de dado presentes na globo.com

Dados e análise

ENGENHEIRO DE
DADOS NA
GLOBO.COM
@renan_oliveira

Como aprendemos
os interesses dos
usuários dado a sua
navegação.

EVENTOS
3 Bilhões de eventos diários
2 milhões de conexões simultâneas
50 milhões de usuários únicos por mês
100 mil novos conteúdos por mês

O QUE FAZEMOS?
➤ Recomendação
➤ Personalização
➤ Machine Learning
➤ Publicidade segmentada
➤ Análise de consumo
➤ Análise de comportamento
➤ Experimentos
➤ Testes A/B
➤ Data Driven Organization

SOPA DE LETRINHAS
para manter um dos maiores cases do Brasil

REAL TIME
➤ Consumimos do Kafka
➤ Usamos Spark Streaming
➤ Usamos Scala ou Java
➤ Salvamos os dados brutos em
formato Parquet - "usuário fez
algo em algum lugar”
➤ Algoritmos de decisão em
tempo real
➤ Atualização dos modelos
➤ Sumarização usando o
conceito de janela

BATCH
➤ Consumimos de muitos
bancos de dados
➤ Usamos Spark + MLib
➤ Usamos Scala, Python ou R
➤ Usamos o Airﬂow para
disparar o Job
➤ Bom pra ler os Parquets,
muitos dados demoram para
serem processados
➤ A maioria dos algoritmos
usam essa estratégia

THERE IS NO
INNOVATION
WITHOUT
EXPERIMENTATION

TESTES A/B
➤ Método de avaliação de
desempenho entre grupos
➤ Sempre temos um cenário que
conhecemos, chamamos ele de
controle
➤ Ajuda a dizer se um "botão" é
melhor que outro ou se um
algoritmo vence na maioria
das vezes
➤ Método cientíﬁco
➤ + de 100 testes rodando
HOJE

80% da audiência 20% da audiência
vs
+X%
conversão

JUPYTER
➤ Interface web para programar
em Julia, Python, R (e outras
linguagens)
➤ Usamos para validar futuros
algoritmos por sua
simplicidade
➤ É usado para os estudos sobre
o comportamento dos usuários
➤ Ótimo para compartilhar
➤ O GitHub fez um renderizador
➤ Tem suporte a Spark
(framework de processamento
de grandes dados)

SUPERSET
➤ Criado pelo Airbnb em 2015
➤ Democrático, não precisa
saber programar para usar
➤ Explorador de dados
➤ Gerador de dashboard
➤ Gráﬁcos para
acompanhamento dos
acontecimentos
➤ Facilidade de integração com
muitos bancos de dados

NÚMEROS
➤ 100 mil recomendações por
minuto
➤ 15 ms de tempo de resposta
(p50)
➤ +500 testes A/B
➤ +20 algoritmos diferentes
➤ Presente em todos os
produtos da globo.com (G1,
GloboEsportes, GShow,
TechTudo, GloboPlay)
➤ Time de Growth focados na
melhoria em cada produto

COLLABORATIVE
FILTERING
CONTENT
BASED
TOP

COLLABORATIVE FILTERING CONTENT BASED TOP
surf
medina
peniche
prancha
mundial de
surf john john
mineirinho
pipeline
futebol
guerrero
ﬂamengo
STJD
copa do brasil
ﬂuminense henrique
brasileirão

GROWTH É A
FUSÃO DO
CONHECIMENTO
DO PRODUTO COM
OS DADOS DE BIG
DATA
desde 2017

DATA SCIENTIST
DATA ENGINEER
DESENVOLVEDOR
POUX

CULTURA DE DADOS
não existe uma fórmula pra isso

Use ferramentas que
facilitem a integração

IF YOU WANT TO CONVINCE ME
of somethings…

OBRIGADO!
@renan_oliveira
www.renanoliveira.net

Mais conteúdo relacionado

Semelhante a Como a Globo.com usa big data para personalização e crescimento

Python e Django na Globo.comricobl

Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Affinitas GmbH

Big DataSandro Servino

Qual é o futuro da estratégia de dados?Denodo

AI & Big Data - Personalização da Jornada - PicPay - TDCRenan Moreira de Oliveira

Big Data, JVM e Redes SociaisJosé Renato Pequeno

ASP.Net Performance – A pragmatic approach - Luis PaulinoComunidade NetPonto

Bigadata casese opotunidadesAlessandro Binhara

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre

Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearchCicero Joasyo Mateus de Moura

Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre

Apache Flink a Quarta Geração do Big DataAmbiente Livre

TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data tdc-globalcode

Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre

Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Bruno Rocha

TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre

Collaborative Filtering por Fatores Latentes - Recomendação para o GlobosatPlayCiro Cavani

Recomendacao globo.comFelipe Ferreira

Data Driven AI CompanyGuilherme Magalhães

Relatórios e estatísticas utilizando logs em tempo realFrancisco Freire

Semelhante a Como a Globo.com usa big data para personalização e crescimento (20)

Python e Django na Globo.com

Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...

Big Data

Qual é o futuro da estratégia de dados?

AI & Big Data - Personalização da Jornada - PicPay - TDC

Big Data, JVM e Redes Sociais

ASP.Net Performance – A pragmatic approach - Luis Paulino

Bigadata casese opotunidades

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho

Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch

Palestra: Cientista de Dados – Dominando o Big Data com Software Livre

Apache Flink a Quarta Geração do Big Data

TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data

Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...

Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015

TDC2017 - Misturando dados com Pentaho para insights mais significativos

Collaborative Filtering por Fatores Latentes - Recomendação para o GlobosatPlay

Recomendacao globo.com

Data Driven AI Company

Relatórios e estatísticas utilizando logs em tempo real

Mais de Renan Moreira de Oliveira

PicPay - GenAI Finance Assistant - ChatGPT for Customer ServiceRenan Moreira de Oliveira

AI na jornada do usuário de ecommerceRenan Moreira de Oliveira

RecSys 2020 - iFood recommendationRenan Moreira de Oliveira

iFood RecommendationsRenan Moreira de Oliveira

Sistemas de RecomendaçãoRenan Moreira de Oliveira

Big data e Machine Learning na globo.comRenan Moreira de Oliveira

What is AB, MVT and MAB?Renan Moreira de Oliveira

Dados importam, seja data-driven!Renan Moreira de Oliveira

Big Data to Machine LearningRenan Moreira de Oliveira

Big Data e seu fiel companheiro SparkRenan Moreira de Oliveira

Big Data na Globo.com - Dev Version - 2016Renan Moreira de Oliveira

Big Data na globo.comRenan Moreira de Oliveira

Excelsior - Perfil usando Big Data e Web SemânticaRenan Moreira de Oliveira

Transição do desenvolvimento web para apps - o caminho suaveRenan Moreira de Oliveira

Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014Renan Moreira de Oliveira

Introdução a web semântica e o case da globo.comRenan Moreira de Oliveira

Mais de Renan Moreira de Oliveira (16)

PicPay - GenAI Finance Assistant - ChatGPT for Customer Service

AI na jornada do usuário de ecommerce

RecSys 2020 - iFood recommendation

iFood Recommendations

Sistemas de Recomendação

Big data e Machine Learning na globo.com

What is AB, MVT and MAB?

Dados importam, seja data-driven!

Big Data to Machine Learning

Big Data e seu fiel companheiro Spark

Big Data na Globo.com - Dev Version - 2016

Big Data na globo.com

Excelsior - Perfil usando Big Data e Web Semântica

Transição do desenvolvimento web para apps - o caminho suave

Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014

Introdução a web semântica e o case da globo.com

Como a Globo.com usa big data para personalização e crescimento

1. BIG DATA E A GLOBO.COM

2. ENGENHEIRO DE DADOS NA GLOBO.COM @renan_oliveira

4. Como aprendemos os interesses dos usuários dado a sua navegação.

5. EVENTOS 3 Bilhões de eventos diários 2 milhões de conexões simultâneas 50 milhões de usuários únicos por mês 100 mil novos conteúdos por mês

7. O QUE FAZEMOS? ➤ Recomendação ➤ Personalização ➤ Machine Learning ➤ Publicidade segmentada ➤ Análise de consumo ➤ Análise de comportamento ➤ Experimentos ➤ Testes A/B ➤ Data Driven Organization

8. SOPA DE LETRINHAS para manter um dos maiores cases do Brasil

10. event tracker by globo.com

11. ARQUITETURA - LAMBDA

12. REAL TIME ➤ Consumimos do Kafka ➤ Usamos Spark Streaming ➤ Usamos Scala ou Java ➤ Salvamos os dados brutos em formato Parquet - "usuário fez algo em algum lugar” ➤ Algoritmos de decisão em tempo real ➤ Atualização dos modelos ➤ Sumarização usando o conceito de janela

13. BATCH ➤ Consumimos de muitos bancos de dados ➤ Usamos Spark + MLib ➤ Usamos Scala, Python ou R ➤ Usamos o Airﬂow para disparar o Job ➤ Bom pra ler os Parquets, muitos dados demoram para serem processados ➤ A maioria dos algoritmos usam essa estratégia

14. PLATAFORMA DE EXPERIMENTOS testes a/b

15. THERE IS NO INNOVATION WITHOUT EXPERIMENTATION

16.

17.

18. TESTES A/B ➤ Método de avaliação de desempenho entre grupos ➤ Sempre temos um cenário que conhecemos, chamamos ele de controle ➤ Ajuda a dizer se um "botão" é melhor que outro ou se um algoritmo vence na maioria das vezes ➤ Método cientíﬁco ➤ + de 100 testes rodando HOJE

19.

20. 80% da audiência 20% da audiência vs

21. 80% da audiência 20% da audiência vs

22. 80% da audiência 20% da audiência vs +X% conversão

23. JUPYTER ➤ Interface web para programar em Julia, Python, R (e outras linguagens) ➤ Usamos para validar futuros algoritmos por sua simplicidade ➤ É usado para os estudos sobre o comportamento dos usuários ➤ Ótimo para compartilhar ➤ O GitHub fez um renderizador ➤ Tem suporte a Spark (framework de processamento de grandes dados)

24.

25. SUPERSET ➤ Criado pelo Airbnb em 2015 ➤ Democrático, não precisa saber programar para usar ➤ Explorador de dados ➤ Gerador de dashboard ➤ Gráﬁcos para acompanhamento dos acontecimentos ➤ Facilidade de integração com muitos bancos de dados

26.

27. RECOMENDAÇÃO + growth

28. NÚMEROS ➤ 100 mil recomendações por minuto ➤ 15 ms de tempo de resposta (p50) ➤ +500 testes A/B ➤ +20 algoritmos diferentes ➤ Presente em todos os produtos da globo.com (G1, GloboEsportes, GShow, TechTudo, GloboPlay) ➤ Time de Growth focados na melhoria em cada produto

29. COLLABORATIVE FILTERING CONTENT BASED TOP

30. COLLABORATIVE FILTERING CONTENT BASED TOP

31. COLLABORATIVE FILTERING CONTENT BASED TOP

32. COLLABORATIVE FILTERING CONTENT BASED TOP surf medina peniche prancha mundial de surf john john mineirinho pipeline futebol guerrero ﬂamengo STJD copa do brasil ﬂuminense henrique brasileirão

33. COLLABORATIVE FILTERING CONTENT BASED TOP

34. RESULTADOS - GLOBO PLAY +X%

35. RESULTADOS - GLOBOESPORTE +X%

36. RESULTADOS - G1 +25%+X%

37. RESULTADOS - GSHOW +25%+X%

38. GROWTH É A FUSÃO DO CONHECIMENTO DO PRODUTO COM OS DADOS DE BIG DATA desde 2017

39. DATA SCIENTIST DATA ENGINEER DESENVOLVEDOR POUX

40. CULTURA DE DADOS não existe uma fórmula pra isso

41. O maior desaﬁo é mudar a cultura

42.

43. O caminho é encontrar valor nos dados

44.