12. REAL TIME
➤ Consumimos do Kafka
➤ Usamos Spark Streaming
➤ Usamos Scala ou Java
➤ Salvamos os dados brutos em
formato Parquet - "usuário fez
algo em algum lugar”
➤ Algoritmos de decisão em
tempo real
➤ Atualização dos modelos
➤ Sumarização usando o
conceito de janela
13. BATCH
➤ Consumimos de muitos
bancos de dados
➤ Usamos Spark + MLib
➤ Usamos Scala, Python ou R
➤ Usamos o Airflow para
disparar o Job
➤ Bom pra ler os Parquets,
muitos dados demoram para
serem processados
➤ A maioria dos algoritmos
usam essa estratégia
18. TESTES A/B
➤ Método de avaliação de
desempenho entre grupos
➤ Sempre temos um cenário que
conhecemos, chamamos ele de
controle
➤ Ajuda a dizer se um "botão" é
melhor que outro ou se um
algoritmo vence na maioria
das vezes
➤ Método científico
➤ + de 100 testes rodando
HOJE
23. JUPYTER
➤ Interface web para programar
em Julia, Python, R (e outras
linguagens)
➤ Usamos para validar futuros
algoritmos por sua
simplicidade
➤ É usado para os estudos sobre
o comportamento dos usuários
➤ Ótimo para compartilhar
➤ O GitHub fez um renderizador
➤ Tem suporte a Spark
(framework de processamento
de grandes dados)
24.
25. SUPERSET
➤ Criado pelo Airbnb em 2015
➤ Democrático, não precisa
saber programar para usar
➤ Explorador de dados
➤ Gerador de dashboard
➤ Gráficos para
acompanhamento dos
acontecimentos
➤ Facilidade de integração com
muitos bancos de dados
28. NÚMEROS
➤ 100 mil recomendações por
minuto
➤ 15 ms de tempo de resposta
(p50)
➤ +500 testes A/B
➤ +20 algoritmos diferentes
➤ Presente em todos os
produtos da globo.com (G1,
GloboEsportes, GShow,
TechTudo, GloboPlay)
➤ Time de Growth focados na
melhoria em cada produto
32. COLLABORATIVE FILTERING CONTENT BASED TOP
surf
medina
peniche
prancha
mundial de
surf john john
mineirinho
pipeline
futebol
guerrero
flamengo
STJD
copa do brasil
fluminense henrique
brasileirão