Enviar pesquisa
Carregar
海量用户数据处理及其在一淘广告和推荐中的应用
•
13 gostaram
•
2,195 visualizações
S
Shaoning Pan
Seguir
#LAMP人#第14期《海量数据挖掘与应用 – e淘专场》 之 《海量用户数据处理及其在一淘广告和推荐中的应用》- 夏辉(赤霞)
Leia menos
Leia mais
Tecnologia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 30
Baixar agora
Baixar para ler offline
Recomendados
Storm
Storm
Phoenix Zhang
微博实时搜索
微博实时搜索
亚军 汪
realtime-twitter-search
realtime-twitter-search
亚军 汪
淘宝分布式数据处理实践
淘宝分布式数据处理实践
isnull
Tokyo Cabinet Key Value数据库及其扩展应用
Tokyo Cabinet Key Value数据库及其扩展应用
rewinx
From Java Stream to Java DataFrame
From Java Stream to Java DataFrame
Chen-en Lu
Ch7
Ch7
Alisha Smile
Ocean base --千亿级海量数据库-lamper_日照
Ocean base --千亿级海量数据库-lamper_日照
knuthocean
Mais conteúdo relacionado
Destaque
ARTIKEL SAIL KOMODO
ARTIKEL SAIL KOMODO
sipri jemalur
Classrooms
Classrooms
teachersgloriamareile
China cardiovascular system drugs industry market demand forecast and investm...
China cardiovascular system drugs industry market demand forecast and investm...
Qianzhan Intelligence
China construction quality testing industry market forecast and competition s...
China construction quality testing industry market forecast and competition s...
Qianzhan Intelligence
Ephata 611
Ephata 611
Vu Mai JMV
Prognostic factors of toxicity of chemotherapy
Prognostic factors of toxicity of chemotherapy
Kateryna Filonenko
The music industry
The music industry
SarahRaychel
China dredging engineering industry development prospect and investment strat...
China dredging engineering industry development prospect and investment strat...
Qianzhan Intelligence
Merry Xmas Joyeux Nöel - TLTP
Merry Xmas Joyeux Nöel - TLTP
Daklak Training College
China electric power construction industry market forecast and investment str...
China electric power construction industry market forecast and investment str...
Qianzhan Intelligence
China coatings industry production & marketing demand and investment forecast...
China coatings industry production & marketing demand and investment forecast...
Qianzhan Intelligence
Qodamah's Recommendation
Qodamah's Recommendation
Qodamah AL Mimorry
Pencil vs camera
Pencil vs camera
Abhishek Shah
Ephata 623
Ephata 623
Vu Mai JMV
Ephata 635
Ephata 635
Vu Mai JMV
Settings Manager Final Presentation
Settings Manager Final Presentation
joefin
Electronics Zener Diode Light Emitting Diode
Electronics Zener Diode Light Emitting Diode
ayman diab
Morgan Stanley Basic Materials Conference
Morgan Stanley Basic Materials Conference
finance10
China banking industry market research and prospect forecast report
China banking industry market research and prospect forecast report
Qianzhan Intelligence
China animal husbandry indepth research and investment forecast report
China animal husbandry indepth research and investment forecast report
Qianzhan Intelligence
Destaque
(20)
ARTIKEL SAIL KOMODO
ARTIKEL SAIL KOMODO
Classrooms
Classrooms
China cardiovascular system drugs industry market demand forecast and investm...
China cardiovascular system drugs industry market demand forecast and investm...
China construction quality testing industry market forecast and competition s...
China construction quality testing industry market forecast and competition s...
Ephata 611
Ephata 611
Prognostic factors of toxicity of chemotherapy
Prognostic factors of toxicity of chemotherapy
The music industry
The music industry
China dredging engineering industry development prospect and investment strat...
China dredging engineering industry development prospect and investment strat...
Merry Xmas Joyeux Nöel - TLTP
Merry Xmas Joyeux Nöel - TLTP
China electric power construction industry market forecast and investment str...
China electric power construction industry market forecast and investment str...
China coatings industry production & marketing demand and investment forecast...
China coatings industry production & marketing demand and investment forecast...
Qodamah's Recommendation
Qodamah's Recommendation
Pencil vs camera
Pencil vs camera
Ephata 623
Ephata 623
Ephata 635
Ephata 635
Settings Manager Final Presentation
Settings Manager Final Presentation
Electronics Zener Diode Light Emitting Diode
Electronics Zener Diode Light Emitting Diode
Morgan Stanley Basic Materials Conference
Morgan Stanley Basic Materials Conference
China banking industry market research and prospect forecast report
China banking industry market research and prospect forecast report
China animal husbandry indepth research and investment forecast report
China animal husbandry indepth research and investment forecast report
Semelhante a 海量用户数据处理及其在一淘广告和推荐中的应用
Introduction to storm
Introduction to storm
julyfirewb
Hadoop ecosystem
Hadoop ecosystem
legend900805
Storm基础
Storm基础
Schwarlz John
Storm基础
Storm基础
Schwarlz John
Times Ten Training
Times Ten Training
Li Chen
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess
babel_qi
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Xiao Li
Erlang高级原理和应用
Erlang高级原理和应用
Feng Yu
05 杨志丰
05 杨志丰
锐 张
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
大规模数据处理
大规模数据处理
Kay Yan
大规模数据处理
大规模数据处理
airsex
Google key technologies
Google key technologies
Stefanie Zhao
Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改
yp_fangdong
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
Wensong Zhang
Hadoop学习总结
Hadoop学习总结
ordinary2012
Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务
Wensong Zhang
淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务
drewz lin
大型互联网广告应用系统架构
大型互联网广告应用系统架构
Shaoning Pan
Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)
Jazz Yao-Tsung Wang
Semelhante a 海量用户数据处理及其在一淘广告和推荐中的应用
(20)
Introduction to storm
Introduction to storm
Hadoop ecosystem
Hadoop ecosystem
Storm基础
Storm基础
Storm基础
Storm基础
Times Ten Training
Times Ten Training
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Erlang高级原理和应用
Erlang高级原理和应用
05 杨志丰
05 杨志丰
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
大规模数据处理
大规模数据处理
大规模数据处理
大规模数据处理
Google key technologies
Google key technologies
Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
Hadoop学习总结
Hadoop学习总结
Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务
淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务
大型互联网广告应用系统架构
大型互联网广告应用系统架构
Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)
Mais de Shaoning Pan
海量数据计算架构实现
海量数据计算架构实现
Shaoning Pan
RTB 优化算法
RTB 优化算法
Shaoning Pan
Technology Changes
Technology Changes
Shaoning Pan
一淘广告机器学习
一淘广告机器学习
Shaoning Pan
Tanx成长之路 real time media
Tanx成长之路 real time media
Shaoning Pan
移动社交网络动态框架 李章晶
移动社交网络动态框架 李章晶
Shaoning Pan
移动互联网产业分析 梁文静
移动互联网产业分析 梁文静
Shaoning Pan
曾勇 Elastic search-intro
曾勇 Elastic search-intro
Shaoning Pan
Hadoop的etl任务—flume使用及其 优化-品友互动
Hadoop的etl任务—flume使用及其 优化-品友互动
Shaoning Pan
互联网广告发展的趋势-品友互动
互联网广告发展的趋势-品友互动
Shaoning Pan
互联网行为分析和数据挖掘-品友互动
互联网行为分析和数据挖掘-品友互动
Shaoning Pan
如何构建一个高可用可扩展的广告投放平台-品友互动
如何构建一个高可用可扩展的广告投放平台-品友互动
Shaoning Pan
网站前段性能优化-品友互动
网站前段性能优化-品友互动
Shaoning Pan
品友互动 Hadoop的etl任务—flume使用及其 优化
品友互动 Hadoop的etl任务—flume使用及其 优化
Shaoning Pan
分布式计算与Hadoop - 刘鹏
分布式计算与Hadoop - 刘鹏
Shaoning Pan
Cassandra实时统计分享 - 赵伟
Cassandra实时统计分享 - 赵伟
Shaoning Pan
Android应用开发 - 沈大海
Android应用开发 - 沈大海
Shaoning Pan
淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林
Shaoning Pan
Think social to go global
Think social to go global
Shaoning Pan
腾讯开放平台 Hellena
腾讯开放平台 Hellena
Shaoning Pan
Mais de Shaoning Pan
(20)
海量数据计算架构实现
海量数据计算架构实现
RTB 优化算法
RTB 优化算法
Technology Changes
Technology Changes
一淘广告机器学习
一淘广告机器学习
Tanx成长之路 real time media
Tanx成长之路 real time media
移动社交网络动态框架 李章晶
移动社交网络动态框架 李章晶
移动互联网产业分析 梁文静
移动互联网产业分析 梁文静
曾勇 Elastic search-intro
曾勇 Elastic search-intro
Hadoop的etl任务—flume使用及其 优化-品友互动
Hadoop的etl任务—flume使用及其 优化-品友互动
互联网广告发展的趋势-品友互动
互联网广告发展的趋势-品友互动
互联网行为分析和数据挖掘-品友互动
互联网行为分析和数据挖掘-品友互动
如何构建一个高可用可扩展的广告投放平台-品友互动
如何构建一个高可用可扩展的广告投放平台-品友互动
网站前段性能优化-品友互动
网站前段性能优化-品友互动
品友互动 Hadoop的etl任务—flume使用及其 优化
品友互动 Hadoop的etl任务—flume使用及其 优化
分布式计算与Hadoop - 刘鹏
分布式计算与Hadoop - 刘鹏
Cassandra实时统计分享 - 赵伟
Cassandra实时统计分享 - 赵伟
Android应用开发 - 沈大海
Android应用开发 - 沈大海
淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林
Think social to go global
Think social to go global
腾讯开放平台 Hellena
腾讯开放平台 Hellena
Último
Entities in DCPS (DDS)
Entities in DCPS (DDS)
Jamie (Taka) Wang
20161220 - domain-driven design
20161220 - domain-driven design
Jamie (Taka) Wang
20200226 - AI Overview
20200226 - AI Overview
Jamie (Taka) Wang
20170104 - transaction_pattern
20170104 - transaction_pattern
Jamie (Taka) Wang
20211119 - demystified artificial intelligence with NLP
20211119 - demystified artificial intelligence with NLP
Jamie (Taka) Wang
20200323 - AI Intro
20200323 - AI Intro
Jamie (Taka) Wang
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptx
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptx
NCU MCL
20161027 - edge part2
20161027 - edge part2
Jamie (Taka) Wang
20151111 - IoT Sync Up
20151111 - IoT Sync Up
Jamie (Taka) Wang
Último
(9)
Entities in DCPS (DDS)
Entities in DCPS (DDS)
20161220 - domain-driven design
20161220 - domain-driven design
20200226 - AI Overview
20200226 - AI Overview
20170104 - transaction_pattern
20170104 - transaction_pattern
20211119 - demystified artificial intelligence with NLP
20211119 - demystified artificial intelligence with NLP
20200323 - AI Intro
20200323 - AI Intro
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptx
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptx
20161027 - edge part2
20161027 - edge part2
20151111 - IoT Sync Up
20151111 - IoT Sync Up
海量用户数据处理及其在一淘广告和推荐中的应用
1.
+
海量用户数据处理及其在一 淘广告和推荐中的应用 2012-04-16 一淘
2.
+ 第14期:
《海量数据挖掘与应用 》- e淘专场 www.LAMPER.cn http://weibo.com/lampercn
3.
+
个性化的广告
4.
+
Etao推荐
5.
+
主要的挑战 每天新增几十亿条+的Log,几TB的数据 需要处理3个月甚至更多的数据 复杂的离线算法模型处理 准实时的轻量快速算法数据更新 高并发,高容量,快速响应的实时对外服务
6.
+ 架构
7.
+
海量数据分析-离线处理 2000+ node hadoop集群 20000+Map ,10000+reduce计算资源 存储容量PB级别 高可用性,很好的扩展性,方便管理运维 实效性不好,每天1次或者每小时1次的离线处理
8.
+
如何有效降低数据的延迟? Map- Stream Reduce Processing
9.
+
流上的数据处理 TimeTunnel Storm
10.
+
TimeTunnel TT(TimeTunnel)是一个企业消息交换平台,提供可靠的、高 效的、安全的消息交换服务。TT遵循AMQP(Advanced Message Queue Protocol)协议,基于TT可以搭建消息系统、 日志收集系统、实时计算框架。 特点 灵活配置的日志收集方案无需编写脚本 实时高可靠收集日志 高性能的分布式消息队列 完善的监控体系和错误自动恢复机制
11.
+
TimeTunnel
12.
+
使用TT来做实时计算
13.
+
TT做实时计算的不足 计算能力的 扩展性 不适合复杂 业务逻辑 编码比较复 杂
14.
+
TimeTunnel 目前TT已经开源 http://code.taobao.org/p/TimeTunnel/src/ 类似的开源项目 Facebook的scribe Cloudera的flume Linkedin的Kafka
15.
+
Storm Twitter https://github.com/nathanmarz/storm/ 类似项目 Yahoo的s4 Facebook的puma(尚未开源) 流计算 持续计算 分布式RPC
16.
+
Storm的特点 水平扩展,并行计算,动态增删节点 可靠的消息处理 事务机制,解决重复计算问题 容错性
17.
+
Storm Nimbus: 主控节点,用于任务 分配,集群任务监控等,与 hadoop Jobtracker类似 Zookeeper:集群中协调,共有 数据的存放(如心跳信息) Supervisor:对应一台物理机, 用于启动worker,类似hadoop的 task tracker。 Worker:工作进程,负责启动 task,以及通过zeromq 进行 tuple的分发,与接收。 Task:工作线程,任务的处理。
18.
+
Storm-Concept Tuple Stream Spout Bolt Topology
19.
+
Storm-Tuple Field 1 Field 2 Field 3 Field 4 一个tuple表示流中一个基本的处理单元,例如一条访问日志,它 可以包括多个field,每个field表示一个属性
20.
+
Storm-Stream 一个没有边界的连续的tuples 他们在分布式的系统中可以被并行的处理与创建,但不保证处理顺序
21.
+
Storm-spout 类似hadoop的map。Spout是一个stream的源头。通常spout会从外部数据源读 取数据并发送tuple到stream。 Kestrel queue kafka spout TT spout
22.
+
Storm-Bolt 处理输入的流并产生新的输出流. Bolt可以用来做简单的stream转换,复杂的流处理/转换一般会 分解为多步完成,所以会使用多个bolt级联起来,每个bolt完成 一些较简单的功能 一个bolt可以产生多个输出流。 类似hadoop reduce,而且可以bolt后可以继续有其他的bolt
23.
+
Storm- Topology 由spout和bolt构成的网状图 实时处理程序在逻辑上构成一个 storm的拓扑 Storm 拓扑与传统任务的区别: storm拓扑不终止的,除非被杀 死,它一直运行
24.
+
Storm-Task 每个Spout和bolt都作为很多 task在集群中运行 每个task对应OS中的一个线程 Stream groupings定义如何把 tuple从一个task发向另一个 task
25.
+
Storm
26.
+
数据的存储 HDFS Hbase OceanBase/Tair
27.
+
Tair
28.
+
Tair-DataServer
29.
+
TaoCode http://Code.taobao.org Tair TT OceanBase Tengine(taobao定制版本的nginx) …..
30.
+
Q&A Thanks http://weibo.com/grisword @淘白白
Baixar agora