SlideShare uma empresa Scribd logo
1 de 30
Baixar para ler offline
+




    海量用户数据处理及其在一
    淘广告和推荐中的应用
    2012-04-16 一淘
+

第14期:
   《海量数据挖掘与应用 》- e淘专场

www.LAMPER.cn
http://weibo.com/lampercn
+
    个性化的广告
+
    Etao推荐
+
    主要的挑战

       每天新增几十亿条+的Log,几TB的数据

       需要处理3个月甚至更多的数据

       复杂的离线算法模型处理

       准实时的轻量快速算法数据更新

       高并发,高容量,快速响应的实时对外服务
+ 架构
+
    海量数据分析-离线处理




       2000+ node hadoop集群

       20000+Map ,10000+reduce计算资源

       存储容量PB级别

       高可用性,很好的扩展性,方便管理运维

       实效性不好,每天1次或者每小时1次的离线处理
+
    如何有效降低数据的延迟?

         Map-      Stream
        Reduce   Processing
+
    流上的数据处理



               TimeTunnel




       Storm
+
    TimeTunnel

       TT(TimeTunnel)是一个企业消息交换平台,提供可靠的、高
        效的、安全的消息交换服务。TT遵循AMQP(Advanced
        Message Queue Protocol)协议,基于TT可以搭建消息系统、
        日志收集系统、实时计算框架。

       特点
           灵活配置的日志收集方案无需编写脚本
           实时高可靠收集日志
           高性能的分布式消息队列
           完善的监控体系和错误自动恢复机制
+
    TimeTunnel
+
    使用TT来做实时计算
+
    TT做实时计算的不足



            计算能力的
             扩展性



          不适合复杂
          业务逻辑



            编码比较复
              杂
+
    TimeTunnel

       目前TT已经开源
           http://code.taobao.org/p/TimeTunnel/src/


       类似的开源项目
           Facebook的scribe
           Cloudera的flume
           Linkedin的Kafka
+
    Storm
   Twitter https://github.com/nathanmarz/storm/

   类似项目
       Yahoo的s4
       Facebook的puma(尚未开源)


               流计算                           持续计算

                                             分布式RPC
+
    Storm的特点


    水平扩展,并行计算,动态增删节点


     可靠的消息处理


       事务机制,解决重复计算问题


         容错性
+
    Storm
       Nimbus: 主控节点,用于任务
        分配,集群任务监控等,与
        hadoop Jobtracker类似

       Zookeeper:集群中协调,共有
        数据的存放(如心跳信息)

       Supervisor:对应一台物理机,
        用于启动worker,类似hadoop的
        task tracker。

       Worker:工作进程,负责启动
        task,以及通过zeromq 进行
        tuple的分发,与接收。

       Task:工作线程,任务的处理。
+
    Storm-Concept

       Tuple

       Stream

       Spout

       Bolt

       Topology
+
    Storm-Tuple


      Field 1   Field 2   Field 3   Field 4




    一个tuple表示流中一个基本的处理单元,例如一条访问日志,它
    可以包括多个field,每个field表示一个属性
+
    Storm-Stream




    一个没有边界的连续的tuples

    他们在分布式的系统中可以被并行的处理与创建,但不保证处理顺序
+
    Storm-spout




    类似hadoop的map。Spout是一个stream的源头。通常spout会从外部数据源读
    取数据并发送tuple到stream。

       Kestrel queue
       kafka spout
       TT spout
+
    Storm-Bolt




       处理输入的流并产生新的输出流.

       Bolt可以用来做简单的stream转换,复杂的流处理/转换一般会
        分解为多步完成,所以会使用多个bolt级联起来,每个bolt完成
        一些较简单的功能

       一个bolt可以产生多个输出流。

       类似hadoop reduce,而且可以bolt后可以继续有其他的bolt
+
    Storm- Topology

       由spout和bolt构成的网状图

       实时处理程序在逻辑上构成一个
        storm的拓扑

       Storm 拓扑与传统任务的区别:
        storm拓扑不终止的,除非被杀
        死,它一直运行
+
    Storm-Task

       每个Spout和bolt都作为很多
        task在集群中运行

       每个task对应OS中的一个线程

       Stream groupings定义如何把
        tuple从一个task发向另一个
        task
+
    Storm
+
    数据的存储


              HDFS




                Hbase




            OceanBase/Tair
+
    Tair
+
    Tair-DataServer
+
    TaoCode

       http://Code.taobao.org

       Tair

       TT

       OceanBase

       Tengine(taobao定制版本的nginx)

       …..
+
    Q&A

       Thanks

       http://weibo.com/grisword @淘白白

Mais conteúdo relacionado

Destaque

China cardiovascular system drugs industry market demand forecast and investm...
China cardiovascular system drugs industry market demand forecast and investm...China cardiovascular system drugs industry market demand forecast and investm...
China cardiovascular system drugs industry market demand forecast and investm...Qianzhan Intelligence
 
China construction quality testing industry market forecast and competition s...
China construction quality testing industry market forecast and competition s...China construction quality testing industry market forecast and competition s...
China construction quality testing industry market forecast and competition s...Qianzhan Intelligence
 
Prognostic factors of toxicity of chemotherapy
Prognostic factors of toxicity of chemotherapyPrognostic factors of toxicity of chemotherapy
Prognostic factors of toxicity of chemotherapyKateryna Filonenko
 
The music industry
The music industryThe music industry
The music industrySarahRaychel
 
China dredging engineering industry development prospect and investment strat...
China dredging engineering industry development prospect and investment strat...China dredging engineering industry development prospect and investment strat...
China dredging engineering industry development prospect and investment strat...Qianzhan Intelligence
 
China electric power construction industry market forecast and investment str...
China electric power construction industry market forecast and investment str...China electric power construction industry market forecast and investment str...
China electric power construction industry market forecast and investment str...Qianzhan Intelligence
 
China coatings industry production & marketing demand and investment forecast...
China coatings industry production & marketing demand and investment forecast...China coatings industry production & marketing demand and investment forecast...
China coatings industry production & marketing demand and investment forecast...Qianzhan Intelligence
 
Settings Manager Final Presentation
Settings Manager Final PresentationSettings Manager Final Presentation
Settings Manager Final Presentationjoefin
 
Electronics Zener Diode Light Emitting Diode
Electronics  Zener Diode Light Emitting DiodeElectronics  Zener Diode Light Emitting Diode
Electronics Zener Diode Light Emitting Diodeayman diab
 
Morgan Stanley Basic Materials Conference
	Morgan Stanley Basic Materials Conference	Morgan Stanley Basic Materials Conference
Morgan Stanley Basic Materials Conferencefinance10
 
China banking industry market research and prospect forecast report
China banking industry market research and prospect forecast reportChina banking industry market research and prospect forecast report
China banking industry market research and prospect forecast reportQianzhan Intelligence
 
China animal husbandry indepth research and investment forecast report
China animal husbandry indepth research and investment forecast reportChina animal husbandry indepth research and investment forecast report
China animal husbandry indepth research and investment forecast reportQianzhan Intelligence
 

Destaque (20)

ARTIKEL SAIL KOMODO
ARTIKEL SAIL KOMODOARTIKEL SAIL KOMODO
ARTIKEL SAIL KOMODO
 
Classrooms
ClassroomsClassrooms
Classrooms
 
China cardiovascular system drugs industry market demand forecast and investm...
China cardiovascular system drugs industry market demand forecast and investm...China cardiovascular system drugs industry market demand forecast and investm...
China cardiovascular system drugs industry market demand forecast and investm...
 
China construction quality testing industry market forecast and competition s...
China construction quality testing industry market forecast and competition s...China construction quality testing industry market forecast and competition s...
China construction quality testing industry market forecast and competition s...
 
Ephata 611
Ephata 611Ephata 611
Ephata 611
 
Prognostic factors of toxicity of chemotherapy
Prognostic factors of toxicity of chemotherapyPrognostic factors of toxicity of chemotherapy
Prognostic factors of toxicity of chemotherapy
 
The music industry
The music industryThe music industry
The music industry
 
China dredging engineering industry development prospect and investment strat...
China dredging engineering industry development prospect and investment strat...China dredging engineering industry development prospect and investment strat...
China dredging engineering industry development prospect and investment strat...
 
Merry Xmas Joyeux Nöel - TLTP
Merry Xmas Joyeux Nöel - TLTPMerry Xmas Joyeux Nöel - TLTP
Merry Xmas Joyeux Nöel - TLTP
 
China electric power construction industry market forecast and investment str...
China electric power construction industry market forecast and investment str...China electric power construction industry market forecast and investment str...
China electric power construction industry market forecast and investment str...
 
China coatings industry production & marketing demand and investment forecast...
China coatings industry production & marketing demand and investment forecast...China coatings industry production & marketing demand and investment forecast...
China coatings industry production & marketing demand and investment forecast...
 
Qodamah's Recommendation
Qodamah's RecommendationQodamah's Recommendation
Qodamah's Recommendation
 
Pencil vs camera
Pencil vs cameraPencil vs camera
Pencil vs camera
 
Ephata 623
Ephata 623Ephata 623
Ephata 623
 
Ephata 635
Ephata 635Ephata 635
Ephata 635
 
Settings Manager Final Presentation
Settings Manager Final PresentationSettings Manager Final Presentation
Settings Manager Final Presentation
 
Electronics Zener Diode Light Emitting Diode
Electronics  Zener Diode Light Emitting DiodeElectronics  Zener Diode Light Emitting Diode
Electronics Zener Diode Light Emitting Diode
 
Morgan Stanley Basic Materials Conference
	Morgan Stanley Basic Materials Conference	Morgan Stanley Basic Materials Conference
Morgan Stanley Basic Materials Conference
 
China banking industry market research and prospect forecast report
China banking industry market research and prospect forecast reportChina banking industry market research and prospect forecast report
China banking industry market research and prospect forecast report
 
China animal husbandry indepth research and investment forecast report
China animal husbandry indepth research and investment forecast reportChina animal husbandry indepth research and investment forecast report
China animal husbandry indepth research and investment forecast report
 

Semelhante a 海量用户数据处理及其在一淘广告和推荐中的应用

Introduction to storm
Introduction to stormIntroduction to storm
Introduction to stormjulyfirewb
 
Times Ten Training
Times Ten TrainingTimes Ten Training
Times Ten TrainingLi Chen
 
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocessbabel_qi
 
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured StreamingDelta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured StreamingXiao Li
 
Erlang高级原理和应用
Erlang高级原理和应用Erlang高级原理和应用
Erlang高级原理和应用Feng Yu
 
05 杨志丰
05 杨志丰05 杨志丰
05 杨志丰锐 张
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理Kay Yan
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理airsex
 
Google key technologies
Google key technologiesGoogle key technologies
Google key technologiesStefanie Zhao
 
Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改yp_fangdong
 
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践Wensong Zhang
 
Hadoop学习总结
Hadoop学习总结Hadoop学习总结
Hadoop学习总结ordinary2012
 
Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Wensong Zhang
 
淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务drewz lin
 
大型互联网广告应用系统架构
大型互联网广告应用系统架构大型互联网广告应用系统架构
大型互联网广告应用系统架构Shaoning Pan
 
Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)Jazz Yao-Tsung Wang
 

Semelhante a 海量用户数据处理及其在一淘广告和推荐中的应用 (20)

Introduction to storm
Introduction to stormIntroduction to storm
Introduction to storm
 
Hadoop ecosystem
Hadoop ecosystemHadoop ecosystem
Hadoop ecosystem
 
Storm基础
Storm基础Storm基础
Storm基础
 
Storm基础
Storm基础Storm基础
Storm基础
 
Times Ten Training
Times Ten TrainingTimes Ten Training
Times Ten Training
 
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess
 
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured StreamingDelta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
Delta Lake Architecture: Delta Lake + Apache Spark Structured Streaming
 
Erlang高级原理和应用
Erlang高级原理和应用Erlang高级原理和应用
Erlang高级原理和应用
 
05 杨志丰
05 杨志丰05 杨志丰
05 杨志丰
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
Google key technologies
Google key technologiesGoogle key technologies
Google key technologies
 
Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改Hbase在淘宝的应用与优化 修改
Hbase在淘宝的应用与优化 修改
 
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
 
Hadoop学习总结
Hadoop学习总结Hadoop学习总结
Hadoop学习总结
 
Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务
 
淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务
 
大型互联网广告应用系统架构
大型互联网广告应用系统架构大型互联网广告应用系统架构
大型互联网广告应用系统架构
 
Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)Full Stack Monitoring with Prometheus and Grafana (Updated)
Full Stack Monitoring with Prometheus and Grafana (Updated)
 

Mais de Shaoning Pan

海量数据计算架构实现
海量数据计算架构实现海量数据计算架构实现
海量数据计算架构实现Shaoning Pan
 
Technology Changes
Technology ChangesTechnology Changes
Technology ChangesShaoning Pan
 
一淘广告机器学习
一淘广告机器学习一淘广告机器学习
一淘广告机器学习Shaoning Pan
 
Tanx成长之路 real time media
Tanx成长之路 real time mediaTanx成长之路 real time media
Tanx成长之路 real time mediaShaoning Pan
 
移动社交网络动态框架 李章晶
移动社交网络动态框架 李章晶移动社交网络动态框架 李章晶
移动社交网络动态框架 李章晶Shaoning Pan
 
移动互联网产业分析 梁文静
移动互联网产业分析 梁文静移动互联网产业分析 梁文静
移动互联网产业分析 梁文静Shaoning Pan
 
曾勇 Elastic search-intro
曾勇 Elastic search-intro曾勇 Elastic search-intro
曾勇 Elastic search-introShaoning Pan
 
Hadoop的etl任务—flume使用及其 优化-品友互动
 Hadoop的etl任务—flume使用及其 优化-品友互动 Hadoop的etl任务—flume使用及其 优化-品友互动
Hadoop的etl任务—flume使用及其 优化-品友互动Shaoning Pan
 
互联网广告发展的趋势-品友互动
互联网广告发展的趋势-品友互动 互联网广告发展的趋势-品友互动
互联网广告发展的趋势-品友互动 Shaoning Pan
 
互联网行为分析和数据挖掘-品友互动
互联网行为分析和数据挖掘-品友互动互联网行为分析和数据挖掘-品友互动
互联网行为分析和数据挖掘-品友互动Shaoning Pan
 
如何构建一个高可用可扩展的广告投放平台-品友互动
如何构建一个高可用可扩展的广告投放平台-品友互动 如何构建一个高可用可扩展的广告投放平台-品友互动
如何构建一个高可用可扩展的广告投放平台-品友互动 Shaoning Pan
 
网站前段性能优化-品友互动
 网站前段性能优化-品友互动 网站前段性能优化-品友互动
网站前段性能优化-品友互动Shaoning Pan
 
品友互动 Hadoop的etl任务—flume使用及其 优化
品友互动 Hadoop的etl任务—flume使用及其 优化品友互动 Hadoop的etl任务—flume使用及其 优化
品友互动 Hadoop的etl任务—flume使用及其 优化Shaoning Pan
 
分布式计算与Hadoop - 刘鹏
分布式计算与Hadoop - 刘鹏分布式计算与Hadoop - 刘鹏
分布式计算与Hadoop - 刘鹏Shaoning Pan
 
Cassandra实时统计分享 - 赵伟
Cassandra实时统计分享  - 赵伟Cassandra实时统计分享  - 赵伟
Cassandra实时统计分享 - 赵伟Shaoning Pan
 
Android应用开发 - 沈大海
Android应用开发 - 沈大海Android应用开发 - 沈大海
Android应用开发 - 沈大海Shaoning Pan
 
淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林Shaoning Pan
 
Think social to go global
Think social to go globalThink social to go global
Think social to go globalShaoning Pan
 
腾讯开放平台 Hellena
腾讯开放平台 Hellena腾讯开放平台 Hellena
腾讯开放平台 HellenaShaoning Pan
 

Mais de Shaoning Pan (20)

海量数据计算架构实现
海量数据计算架构实现海量数据计算架构实现
海量数据计算架构实现
 
RTB 优化算法
RTB 优化算法RTB 优化算法
RTB 优化算法
 
Technology Changes
Technology ChangesTechnology Changes
Technology Changes
 
一淘广告机器学习
一淘广告机器学习一淘广告机器学习
一淘广告机器学习
 
Tanx成长之路 real time media
Tanx成长之路 real time mediaTanx成长之路 real time media
Tanx成长之路 real time media
 
移动社交网络动态框架 李章晶
移动社交网络动态框架 李章晶移动社交网络动态框架 李章晶
移动社交网络动态框架 李章晶
 
移动互联网产业分析 梁文静
移动互联网产业分析 梁文静移动互联网产业分析 梁文静
移动互联网产业分析 梁文静
 
曾勇 Elastic search-intro
曾勇 Elastic search-intro曾勇 Elastic search-intro
曾勇 Elastic search-intro
 
Hadoop的etl任务—flume使用及其 优化-品友互动
 Hadoop的etl任务—flume使用及其 优化-品友互动 Hadoop的etl任务—flume使用及其 优化-品友互动
Hadoop的etl任务—flume使用及其 优化-品友互动
 
互联网广告发展的趋势-品友互动
互联网广告发展的趋势-品友互动 互联网广告发展的趋势-品友互动
互联网广告发展的趋势-品友互动
 
互联网行为分析和数据挖掘-品友互动
互联网行为分析和数据挖掘-品友互动互联网行为分析和数据挖掘-品友互动
互联网行为分析和数据挖掘-品友互动
 
如何构建一个高可用可扩展的广告投放平台-品友互动
如何构建一个高可用可扩展的广告投放平台-品友互动 如何构建一个高可用可扩展的广告投放平台-品友互动
如何构建一个高可用可扩展的广告投放平台-品友互动
 
网站前段性能优化-品友互动
 网站前段性能优化-品友互动 网站前段性能优化-品友互动
网站前段性能优化-品友互动
 
品友互动 Hadoop的etl任务—flume使用及其 优化
品友互动 Hadoop的etl任务—flume使用及其 优化品友互动 Hadoop的etl任务—flume使用及其 优化
品友互动 Hadoop的etl任务—flume使用及其 优化
 
分布式计算与Hadoop - 刘鹏
分布式计算与Hadoop - 刘鹏分布式计算与Hadoop - 刘鹏
分布式计算与Hadoop - 刘鹏
 
Cassandra实时统计分享 - 赵伟
Cassandra实时统计分享  - 赵伟Cassandra实时统计分享  - 赵伟
Cassandra实时统计分享 - 赵伟
 
Android应用开发 - 沈大海
Android应用开发 - 沈大海Android应用开发 - 沈大海
Android应用开发 - 沈大海
 
淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林淘宝数据魔方的系统架构 -长林
淘宝数据魔方的系统架构 -长林
 
Think social to go global
Think social to go globalThink social to go global
Think social to go global
 
腾讯开放平台 Hellena
腾讯开放平台 Hellena腾讯开放平台 Hellena
腾讯开放平台 Hellena
 

Último

20161220 - domain-driven design
20161220 - domain-driven design20161220 - domain-driven design
20161220 - domain-driven designJamie (Taka) Wang
 
20170104 - transaction_pattern
20170104 - transaction_pattern20170104 - transaction_pattern
20170104 - transaction_patternJamie (Taka) Wang
 
20211119 - demystified artificial intelligence with NLP
20211119 - demystified artificial intelligence with NLP20211119 - demystified artificial intelligence with NLP
20211119 - demystified artificial intelligence with NLPJamie (Taka) Wang
 
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptx
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptxSymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptx
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptxNCU MCL
 

Último (9)

Entities in DCPS (DDS)
Entities in DCPS (DDS)Entities in DCPS (DDS)
Entities in DCPS (DDS)
 
20161220 - domain-driven design
20161220 - domain-driven design20161220 - domain-driven design
20161220 - domain-driven design
 
20200226 - AI Overview
20200226 - AI Overview20200226 - AI Overview
20200226 - AI Overview
 
20170104 - transaction_pattern
20170104 - transaction_pattern20170104 - transaction_pattern
20170104 - transaction_pattern
 
20211119 - demystified artificial intelligence with NLP
20211119 - demystified artificial intelligence with NLP20211119 - demystified artificial intelligence with NLP
20211119 - demystified artificial intelligence with NLP
 
20200323 - AI Intro
20200323 - AI Intro20200323 - AI Intro
20200323 - AI Intro
 
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptx
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptxSymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptx
SymPy 在微積分上的應用_4.pptx SymPy 在微積分上的應用_4.pptx
 
20161027 - edge part2
20161027 - edge part220161027 - edge part2
20161027 - edge part2
 
20151111 - IoT Sync Up
20151111 - IoT Sync Up20151111 - IoT Sync Up
20151111 - IoT Sync Up
 

海量用户数据处理及其在一淘广告和推荐中的应用

  • 1. + 海量用户数据处理及其在一 淘广告和推荐中的应用 2012-04-16 一淘
  • 2. + 第14期: 《海量数据挖掘与应用 》- e淘专场 www.LAMPER.cn http://weibo.com/lampercn
  • 3. + 个性化的广告
  • 4. + Etao推荐
  • 5. + 主要的挑战  每天新增几十亿条+的Log,几TB的数据  需要处理3个月甚至更多的数据  复杂的离线算法模型处理  准实时的轻量快速算法数据更新  高并发,高容量,快速响应的实时对外服务
  • 7. + 海量数据分析-离线处理  2000+ node hadoop集群  20000+Map ,10000+reduce计算资源  存储容量PB级别  高可用性,很好的扩展性,方便管理运维  实效性不好,每天1次或者每小时1次的离线处理
  • 8. + 如何有效降低数据的延迟? Map- Stream Reduce Processing
  • 9. + 流上的数据处理 TimeTunnel Storm
  • 10. + TimeTunnel  TT(TimeTunnel)是一个企业消息交换平台,提供可靠的、高 效的、安全的消息交换服务。TT遵循AMQP(Advanced Message Queue Protocol)协议,基于TT可以搭建消息系统、 日志收集系统、实时计算框架。  特点  灵活配置的日志收集方案无需编写脚本  实时高可靠收集日志  高性能的分布式消息队列  完善的监控体系和错误自动恢复机制
  • 11. + TimeTunnel
  • 12. + 使用TT来做实时计算
  • 13. + TT做实时计算的不足 计算能力的 扩展性 不适合复杂 业务逻辑 编码比较复 杂
  • 14. + TimeTunnel  目前TT已经开源  http://code.taobao.org/p/TimeTunnel/src/  类似的开源项目  Facebook的scribe  Cloudera的flume  Linkedin的Kafka
  • 15. + Storm  Twitter https://github.com/nathanmarz/storm/  类似项目  Yahoo的s4  Facebook的puma(尚未开源) 流计算 持续计算 分布式RPC
  • 16. + Storm的特点 水平扩展,并行计算,动态增删节点 可靠的消息处理 事务机制,解决重复计算问题 容错性
  • 17. + Storm  Nimbus: 主控节点,用于任务 分配,集群任务监控等,与 hadoop Jobtracker类似  Zookeeper:集群中协调,共有 数据的存放(如心跳信息)  Supervisor:对应一台物理机, 用于启动worker,类似hadoop的 task tracker。  Worker:工作进程,负责启动 task,以及通过zeromq 进行 tuple的分发,与接收。  Task:工作线程,任务的处理。
  • 18. + Storm-Concept  Tuple  Stream  Spout  Bolt  Topology
  • 19. + Storm-Tuple Field 1 Field 2 Field 3 Field 4 一个tuple表示流中一个基本的处理单元,例如一条访问日志,它 可以包括多个field,每个field表示一个属性
  • 20. + Storm-Stream 一个没有边界的连续的tuples 他们在分布式的系统中可以被并行的处理与创建,但不保证处理顺序
  • 21. + Storm-spout 类似hadoop的map。Spout是一个stream的源头。通常spout会从外部数据源读 取数据并发送tuple到stream。  Kestrel queue  kafka spout  TT spout
  • 22. + Storm-Bolt  处理输入的流并产生新的输出流.  Bolt可以用来做简单的stream转换,复杂的流处理/转换一般会 分解为多步完成,所以会使用多个bolt级联起来,每个bolt完成 一些较简单的功能  一个bolt可以产生多个输出流。  类似hadoop reduce,而且可以bolt后可以继续有其他的bolt
  • 23. + Storm- Topology  由spout和bolt构成的网状图  实时处理程序在逻辑上构成一个 storm的拓扑  Storm 拓扑与传统任务的区别: storm拓扑不终止的,除非被杀 死,它一直运行
  • 24. + Storm-Task  每个Spout和bolt都作为很多 task在集群中运行  每个task对应OS中的一个线程  Stream groupings定义如何把 tuple从一个task发向另一个 task
  • 25. + Storm
  • 26. + 数据的存储 HDFS Hbase OceanBase/Tair
  • 27. + Tair
  • 28. + Tair-DataServer
  • 29. + TaoCode  http://Code.taobao.org  Tair  TT  OceanBase  Tengine(taobao定制版本的nginx)  …..
  • 30. + Q&A  Thanks  http://weibo.com/grisword @淘白白