SlideShare uma empresa Scribd logo
1 de 21
Baixar para ler offline
暴⾛走漫画数据挖掘从0到1
Michael Ding@暴⾛走漫画(上海)
关于我
⽣生物信息学 硕⼠士
《Git版本控制管理(第2版) 》 第⼆二版 译者
南京 LUG 管理员
代码托管服务(集盒)创始⼈人
微搜索(TinySou) 创始⼈人
暴⾛走漫画 技术总监(数据挖掘,上海技术部)
2
内容概要
搜索服务
相关理论与原理
核⼼心问题
实践
推荐服务
相关理论与原理
⼀一般步骤
协同过滤为例
未来与挑战 3
构建搜索服务
搜索是寻找资源的最好⽅方式
4
搜索服务的基本流程
5
这⾥里的Data 是数据源(即要搜的东⻄西),可
以是数据库,可以是⽂文件系统,也可以是
互联⺴⽹网(⾕谷歌)

特别注意的是这⾥里的“索引”过程,搜索引
擎并不会直接搜索数据源,⽽而要先将数据
源的内容索引到搜索引擎中
索引
6
索引结构:
倒排表(Inverted Index)
索引(过程)的核⼼心问题
中⽂文分词
统计语⾔言模型
⼯工程实现(效果:字典,效率:算法)
分词策略(重复索引,组合分词)
中⽂文分词
(英⽂文分词)
拼⾳音分词
n-gram 7
搜索的核⼼心问题
索引查询
倒排表查询,结果取并集(Union),作为候选
结果排序
TF-IDF/BM25
vector space model
boost(⾃自定义因素)
机器学习
综合以上 8
TF-IDF/BM25
IDF
idf(t) = 1 + log ( numDocs / (docFreq + 1))
TF
tf(t in d) = √frequency
BM25
bm25(t in d) = tf(t in d) * (k + 1)/(tf(t in d) + k * (1-b+b*|D|/avgdl)
Field-length Norm
norm(d) = 1 / √numTerms
Weight
weight(t in d) = tf * idf * norm (using tf-idf)
weight(t in d) = bm25 * if * norm (using bm25)
9
vector space model
原理
查询语句以及每个候选由⼀一个 vector 表⽰示, vector 中的每个值是 term 的 weight 值
计算每个候选 vector 与 查询 vector 的 cosine 值,得分⾼高者排名⾼高
举例:
查询是: 暴⾛走|⼤大|事件 q = [0.8, 0.1, 0.6]
有两个候选:
doc1:暴⾛走|漫画 v1 = [0.82, 0, 0]
doc2:暴⾛走|事件 v2 = [0.82, 0, 0.63]
计算 cosine:
cos(q, v1) < cos(q, v2)
结论
doc2 排名⾼高
10
Boost
排序的外部因素
PageRank
竞价排名
机器学习
暴漫策略:
浏览量/播放量 min(2.0, log(1+0.1v)
和cos(v, q) 相加
11
⼯工程实现
基于 Elasticsearch 做索引
设计索引结构(分词,相似策略,norm 策略)
排序结果⼲干预
基于 Elasticsearch 做排序(⽂文本相关性 + boost)
跟踪⽤用户点击⾏行为,利⽤用机器学习调整隐藏因素
12
构建推荐服务
推荐是移动应⽤用的重要⽤用户留存⼿手段
13
主要的推荐⽅方法
Content-Based
你在看⾔言情⼩小说1,可能也会看⾔言情⼩小说2
Item-Hierarchy
你买了打印机,所以你可能也要买墨盒
Collaborative Filtering - Item-based
《蝙蝠侠》和《变形⾦金刚》受众很相似,你看了《蝙蝠侠》,可能也会看《变形⾦金
刚》
Collaborative Filtering - User-based
你和XXX的观影⼜⼝口味很像,XXX最近看了“暴⾛走⼤大事件”,你可能也会看
Graph based
你的不少微信好友都买喜欢王尼玛,你可能也会喜欢王尼玛
Model based
说不清楚的机器学习,告诉我正负样本,我会越来越了解你14
⼀一般步骤
定义问题,选择推荐⽅方法(组合)
推荐帖⼦子,结合 content-based 和 collaborative filtering
相似度计算
cosine similarity
相似矩阵
预测
给定⼀一个⽤用户,预测他对帖⼦子的兴趣
找出预测出的兴趣最⾼高的帖⼦子,倒序返回
15
协同过滤(item-based)
16
user 0 user 1 user 2 user 3 user 4
article 0 1 1
article 1 1 2 2
article 2 1 1
article 3 1 1 2
article 4 2 1
对于 user0,
我们该推荐什么?
17
计算 article 之间的相似矩阵
18
为候选article打分
19
What’s Next
Cached(速度)
异步IO
Distributed(速度,计算量)
Machine Learning(更加智能)
Julia?
20
谢谢
邮箱:yandy.ding@gmail.com
技术博客:http://freestorm.org
微博:Michael爱开源
21

Mais conteúdo relacionado

Destaque

豆瓣数据架构实践
豆瓣数据架构实践豆瓣数据架构实践
豆瓣数据架构实践Xupeng Yun
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pubChao Zhu
 
敏捷开发全景视图(流程、方法和最佳实践)
敏捷开发全景视图(流程、方法和最佳实践)敏捷开发全景视图(流程、方法和最佳实践)
敏捷开发全景视图(流程、方法和最佳实践)Weijun Zhong
 
[系列活動] 手把手教你R語言資料分析實務
[系列活動] 手把手教你R語言資料分析實務[系列活動] 手把手教你R語言資料分析實務
[系列活動] 手把手教你R語言資料分析實務台灣資料科學年會
 
[系列活動] Machine Learning 機器學習課程
[系列活動] Machine Learning 機器學習課程[系列活動] Machine Learning 機器學習課程
[系列活動] Machine Learning 機器學習課程台灣資料科學年會
 
阿盤的 Beamer 中英字型配方
阿盤的 Beamer 中英字型配方阿盤的 Beamer 中英字型配方
阿盤的 Beamer 中英字型配方Chen-Pan Liao
 
2016.3.22 從車庫的舊pc到百萬台伺服器
2016.3.22 從車庫的舊pc到百萬台伺服器2016.3.22 從車庫的舊pc到百萬台伺服器
2016.3.22 從車庫的舊pc到百萬台伺服器Chung-Hsiang Ofa Hsueh
 
浏览器工作原理浅析
浏览器工作原理浅析浏览器工作原理浅析
浏览器工作原理浅析癸鑫 张
 
前端的未來 - 前端工程實務訓練
前端的未來 - 前端工程實務訓練前端的未來 - 前端工程實務訓練
前端的未來 - 前端工程實務訓練Joseph Chiang
 
美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化
美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化
美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化美团点评技术团队
 
Node.js 入門 - 前端工程開發實務訓練
Node.js 入門 - 前端工程開發實務訓練Node.js 入門 - 前端工程開發實務訓練
Node.js 入門 - 前端工程開發實務訓練Joseph Chiang
 
Using Social Network Analysis to Assess Organizational Development Initiatives
Using Social Network Analysis to Assess Organizational Development InitiativesUsing Social Network Analysis to Assess Organizational Development Initiatives
Using Social Network Analysis to Assess Organizational Development InitiativesStephanie Richter
 
前端工程開發實務訓練
前端工程開發實務訓練前端工程開發實務訓練
前端工程開發實務訓練Joseph Chiang
 
Preparing Your Own Strategic BI Vision and Roadmap: A Practical How-To Guide
Preparing Your Own Strategic BI Vision and Roadmap: A Practical How-To GuidePreparing Your Own Strategic BI Vision and Roadmap: A Practical How-To Guide
Preparing Your Own Strategic BI Vision and Roadmap: A Practical How-To GuideOAUGNJ
 
Eko10 - Security Monitoring for Big Infrastructures without a Million Dollar ...
Eko10 - Security Monitoring for Big Infrastructures without a Million Dollar ...Eko10 - Security Monitoring for Big Infrastructures without a Million Dollar ...
Eko10 - Security Monitoring for Big Infrastructures without a Million Dollar ...Hernan Costante
 
肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进hdhappy001
 
阿里云 张旭 集群运维管理平台
阿里云 张旭 集群运维管理平台阿里云 张旭 集群运维管理平台
阿里云 张旭 集群运维管理平台guiyingshenxia
 
The Secrets to Get New & Repeat Sales in Furniture and Furnishings Industry
The Secrets to Get New & Repeat Sales in Furniture and Furnishings IndustryThe Secrets to Get New & Repeat Sales in Furniture and Furnishings Industry
The Secrets to Get New & Repeat Sales in Furniture and Furnishings IndustryGoldsoft
 

Destaque (20)

豆瓣数据架构实践
豆瓣数据架构实践豆瓣数据架构实践
豆瓣数据架构实践
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
 
敏捷开发全景视图(流程、方法和最佳实践)
敏捷开发全景视图(流程、方法和最佳实践)敏捷开发全景视图(流程、方法和最佳实践)
敏捷开发全景视图(流程、方法和最佳实践)
 
[系列活動] 手把手教你R語言資料分析實務
[系列活動] 手把手教你R語言資料分析實務[系列活動] 手把手教你R語言資料分析實務
[系列活動] 手把手教你R語言資料分析實務
 
[系列活動] Machine Learning 機器學習課程
[系列活動] Machine Learning 機器學習課程[系列活動] Machine Learning 機器學習課程
[系列活動] Machine Learning 機器學習課程
 
[系列活動] 機器學習速遊
[系列活動] 機器學習速遊[系列活動] 機器學習速遊
[系列活動] 機器學習速遊
 
阿盤的 Beamer 中英字型配方
阿盤的 Beamer 中英字型配方阿盤的 Beamer 中英字型配方
阿盤的 Beamer 中英字型配方
 
2016.3.22 從車庫的舊pc到百萬台伺服器
2016.3.22 從車庫的舊pc到百萬台伺服器2016.3.22 從車庫的舊pc到百萬台伺服器
2016.3.22 從車庫的舊pc到百萬台伺服器
 
浏览器工作原理浅析
浏览器工作原理浅析浏览器工作原理浅析
浏览器工作原理浅析
 
前端的未來 - 前端工程實務訓練
前端的未來 - 前端工程實務訓練前端的未來 - 前端工程實務訓練
前端的未來 - 前端工程實務訓練
 
美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化
美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化
美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化
 
Node.js 入門 - 前端工程開發實務訓練
Node.js 入門 - 前端工程開發實務訓練Node.js 入門 - 前端工程開發實務訓練
Node.js 入門 - 前端工程開發實務訓練
 
Using Social Network Analysis to Assess Organizational Development Initiatives
Using Social Network Analysis to Assess Organizational Development InitiativesUsing Social Network Analysis to Assess Organizational Development Initiatives
Using Social Network Analysis to Assess Organizational Development Initiatives
 
前端工程開發實務訓練
前端工程開發實務訓練前端工程開發實務訓練
前端工程開發實務訓練
 
Preparing Your Own Strategic BI Vision and Roadmap: A Practical How-To Guide
Preparing Your Own Strategic BI Vision and Roadmap: A Practical How-To GuidePreparing Your Own Strategic BI Vision and Roadmap: A Practical How-To Guide
Preparing Your Own Strategic BI Vision and Roadmap: A Practical How-To Guide
 
Bigger
BiggerBigger
Bigger
 
Eko10 - Security Monitoring for Big Infrastructures without a Million Dollar ...
Eko10 - Security Monitoring for Big Infrastructures without a Million Dollar ...Eko10 - Security Monitoring for Big Infrastructures without a Million Dollar ...
Eko10 - Security Monitoring for Big Infrastructures without a Million Dollar ...
 
肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进肖康:Storm在实时网络攻击检测和分析的应用与改进
肖康:Storm在实时网络攻击检测和分析的应用与改进
 
阿里云 张旭 集群运维管理平台
阿里云 张旭 集群运维管理平台阿里云 张旭 集群运维管理平台
阿里云 张旭 集群运维管理平台
 
The Secrets to Get New & Repeat Sales in Furniture and Furnishings Industry
The Secrets to Get New & Repeat Sales in Furniture and Furnishings IndustryThe Secrets to Get New & Repeat Sales in Furniture and Furnishings Industry
The Secrets to Get New & Repeat Sales in Furniture and Furnishings Industry
 

Semelhante a 暴走漫画数据挖掘从0到1

针对一淘的竞争策略研究
针对一淘的竞争策略研究针对一淘的竞争策略研究
针对一淘的竞争策略研究duanxin
 
京东针对一淘的竞争策略研究
京东针对一淘的竞争策略研究京东针对一淘的竞争策略研究
京东针对一淘的竞争策略研究VImLai
 
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧Mix Taiwan
 
資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例Fred Chiang
 
廣宣學堂Python金融爬蟲原理班 20170416
廣宣學堂Python金融爬蟲原理班 20170416廣宣學堂Python金融爬蟲原理班 20170416
廣宣學堂Python金融爬蟲原理班 20170416Paul Chao
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
網頁爬蟲入門 Python web crawler at 淡江大學 20170930
網頁爬蟲入門 Python web crawler at 淡江大學 20170930網頁爬蟲入門 Python web crawler at 淡江大學 20170930
網頁爬蟲入門 Python web crawler at 淡江大學 20170930Tim Hong
 
数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望mysqlops
 
2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdf2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdfFEG
 
網路2.0時代情報蒐集術
網路2.0時代情報蒐集術網路2.0時代情報蒐集術
網路2.0時代情報蒐集術基欽 劉
 
How to run an AI Project @pixnet
How to run an AI Project @pixnetHow to run an AI Project @pixnet
How to run an AI Project @pixnet晨揚 施
 
资产5.0 介绍.pdf
资产5.0 介绍.pdf资产5.0 介绍.pdf
资产5.0 介绍.pdfShan Fu
 
Seo, 從資訊原理開始
Seo, 從資訊原理開始Seo, 從資訊原理開始
Seo, 從資訊原理開始Gene Hong
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍areyouok
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍areyouok
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍topgeek
 
DSP 資料科學計畫簡介
DSP 資料科學計畫簡介DSP 資料科學計畫簡介
DSP 資料科學計畫簡介codefortomorrow
 
從統計到資料科學
從統計到資料科學從統計到資料科學
從統計到資料科學Terence Huang
 

Semelhante a 暴走漫画数据挖掘从0到1 (20)

Dmresearch
DmresearchDmresearch
Dmresearch
 
针对一淘的竞争策略研究
针对一淘的竞争策略研究针对一淘的竞争策略研究
针对一淘的竞争策略研究
 
京东针对一淘的竞争策略研究
京东针对一淘的竞争策略研究京东针对一淘的竞争策略研究
京东针对一淘的竞争策略研究
 
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
 
資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例
 
廣宣學堂Python金融爬蟲原理班 20170416
廣宣學堂Python金融爬蟲原理班 20170416廣宣學堂Python金融爬蟲原理班 20170416
廣宣學堂Python金融爬蟲原理班 20170416
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
網頁爬蟲入門 Python web crawler at 淡江大學 20170930
網頁爬蟲入門 Python web crawler at 淡江大學 20170930網頁爬蟲入門 Python web crawler at 淡江大學 20170930
網頁爬蟲入門 Python web crawler at 淡江大學 20170930
 
数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望
 
2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdf2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdf
 
網路2.0時代情報蒐集術
網路2.0時代情報蒐集術網路2.0時代情報蒐集術
網路2.0時代情報蒐集術
 
How to run an AI Project @pixnet
How to run an AI Project @pixnetHow to run an AI Project @pixnet
How to run an AI Project @pixnet
 
资产5.0 介绍.pdf
资产5.0 介绍.pdf资产5.0 介绍.pdf
资产5.0 介绍.pdf
 
Seo, 從資訊原理開始
Seo, 從資訊原理開始Seo, 從資訊原理開始
Seo, 從資訊原理開始
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
 
DSP 資料科學計畫簡介
DSP 資料科學計畫簡介DSP 資料科學計畫簡介
DSP 資料科學計畫簡介
 
從統計到資料科學
從統計到資料科學從統計到資料科學
從統計到資料科學
 
10708
1070810708
10708
 

暴走漫画数据挖掘从0到1