SlideShare uma empresa Scribd logo
1 de 46
Baixar para ler offline
BẮT ĐẦU HỌC DATA SCIENCE
ÔNG XUÂN HỒNG – DATA ANALYST @ KNOREX
NỘI DUNG
Data science 101
Làm sao để
trở thành
Data Scientist
Rèn luyện thế
nào
Sự nghiệp
GIỚITHIỆU BẢNTHÂN
Full-stack web developer (PHP,Java)
Master @ JAIST (NLP)
Blogger (Machine Learning)
Working @ Knorex (Advertising analysis)
Tốc độ phát sinh dữ
liệu (dữ liệu phi cấu
trúc)
88%
Phân tích truyền
thống (dữ liệu có
cấu trúc)
12%
DATA ANALYST • Dữ liệu có cấu trúc:
được thiết kế kĩ lưỡng để
khai thác (SQL, OLAP, BI).
• Dữ liệu phi cấu trúc: văn
bản, comment, ảnh, video,
giọng nói, …
NHỮNG NHÀ NGHIÊN CỨU RA TAY
¡ Nghiên cứu mô hình kinh doanh của tổ chức để đưa ra giải pháp.
¡ Lấy và làm sạch dữ liệu, chuyển đổi thành thông tin hữu ích.
¡ Phân tích, đánh giá sơ lược dữ liệu thu thập được (Exploratory DataAnalysis).
¡ Suy diễn thông tin có ý nghĩa từ tập dữ liệu thu thập (Statistical inference).
¡ Xây dựng hệ thống hỗ trợ ra quyết định để giải quyết vấn đề.
Họ trở thành Data Scientist
Data Science là gì?
DATA SCIENCE
Data Science
Văn bản Xử lý ngôn ngữ tự nhiên
Ảnh và video Thị giác máy tính
Âm thanh Xử lý tín hiệu số
Social network Phân tích đồ thị
Business Khai thác dữ liệu
DNA Tin sinh học
… …
AI
Data mining
Machine
learning
Deep learning
Làm sao trở thành Data Scientist?
Nghiên cứu
Lập trình
Chia sẻ
Quan tâm
KHÔNG CẦN BẰNG PHD
Big Data techs
Business domain
Project management
Teamwork
CODING…
Scripting
¡ Python: tổng hợp, tích hợp các nguồn dữ liệu,
prototype mô hình dự đoán.
¡ R: phân tích thống kê, trình bày biểu đồ.
¡ Julia
Low level
¡ Java:Web app,mobile app,NLP framework.
¡ Scala:Big Data processing.
¡ C++/Go:Big Data processing.
VIẾT BLOG CHIA SẺ
¡ Tổ chức lại kiến thức.
¡ Khi chia sẻ chính là lúc bạn đang học.
¡ Rèn luyện kĩ năng trình bày.
¡ Giúp ích cho cộng đồng.
¡ Mở rộng cơ hội nghề nghiệp.
Rèn luyện thế nào?
RÀO CẢN BAN ĐẦU
¡ Học Toán không kĩ, đặc biệt là xác suất và thống kê.
¡ So sánh với các bạn cùng khoá làm mất tự tin và lo lắng.
¡ Quá nhiều thứ để học mà thời gian thì quá ít gây bối rối.
¡ Lo lắng việc làm khi ra trường.
¡ Mơ hồ về career path sau này.
TỐ CHẤT NÊN CÓ
¡ Tò mò, thích khám phá kiến thức mới.
¡ Thích lập trình, tìm tòi áp dụng những công cụ mới.
¡ Không ngại thử sai nhiều lần trong quá trình thực nghiệm.
¡ Yêu thích những phát hiện về khoa học tự nhiên.
¡ Quan tâm đến các bài toán của xã hội và mong muốn giải quyết.
STUDY FLOW
Lập trình
demo nhỏ
Ý nghĩa
Toán học
Machine
Learning
keywords
Ứng dụng
mình quan
tâm
XÁC ĐỊNH DOMAIN MUỐN LÀM
• Đọc blog.
• Đọc tin tức.
• Thầy cô giới thiệu.
• Bạn bè chia sẻ.
• Công việc đòi hỏi.
XÁC ĐỊNH BÀITOÁN QUANTÂM
Nghiên cứu Bài toán
Xử lý ngôn ngữ tự nhiên Language modeling,Part of speech tagging,Grammar
parsing,Word segmentation,Machine translation,Named
entity recognition,Question and Answering,Sentiment
analysis,Discourse analysis,Word sense disambiguation,
…
Thị giác máy tính Image processing,Medical imaging,Pattern recognition,
3D reconstruction,Face recognition,Computer human
interaction,Computer graphics,Object detection,Pose
estimation,Shape recognition,Scene construction …
Xử lý tín hiệu số Audio processing,Speech recognition,Noise reduction,
Audio/Video compression,…
Khai thác dữ liệu ExtractTransform Load, anomaly detection, association
rule learning,clustering,classification,regression,…
Để biết mình hợp với cái nào thì phải thử…
TÌM KHOÁ HỌC ONLINE
• Nắm kiến thức cơ bản.
• Có thể vừa học vừa làm.
• Thích học giáo trình nào thì học.
• Chi phí thấp.
• Học nhanh học chậm là do bạn.
HỌC LẬPTRÌNH
CẤUTRÚC DỮ LIỆUVÀ GIẢITHUẬT
Kiểu dữ
liệu
Vòng
lặp, phân
luồng
Hàm
Hướng
đối
tượng
HỌCTOÁN
HỌCTOÁN
¡ Giải tích (Analytics):tìm độ lỗi cực tiểu cho mô hình, cực đại hoá khả năng.
¡ Đại số tuyến tính (Linear algebra):nhân ma trận trong xử lý ảnh, biểu diễn và thao tác dữ liệu bảng.
¡ Toán rời rạc (Discrete mathematics):hỗ trợ phép đếm trong xác suất.
¡ Lý thuyết đồ thị (Graph theory):phân tích mạng xã hội.
¡ Xác suất thống kê (Statistics and probability):xây dựng mô hình dự đoán dựa vào dữ liệu quá khứ“educated
guess”.
INDUSTRY DOMAIN
¡ Marketing
¡ Customer
support
¡ Sales
¡ HR/Recruiting
¡ Security/Fraud
¡ Education
¡ Audio/Video
¡ Agriculture
¡ Healthcare
¡ Legal
¡ Financial
SỰ NGHIỆP
Startup
Đi làm
Học
thuật
HỌCTHUẬT
Đại học • 4 năm
Master • 2 năm
PhD • 3 năm
Postdoc • 2 năm
• Tầm sư học đạo 10 năm.
• Ít rủi ro.
• Được nghiên cứu lĩnh vực mình thích.
• Thường làm việc một mình hoặc nhóm nhỏ.
• Áp lực về xuất bản bài báo khoa học.
• Làm giảng viên, nghiên cứu sinh, hoặc nhà
tư vấn.
ĐI LÀM
¡ Data engineer.
¡ Data analyst.
¡ Data scientist.
¡ Project management.
¡ Business owner of a Start-up.
REAL-TIME BIDDING
Bidding
Optimizer
Demand-Side
Platform
Advertiser
Knorex
Ad
Exchange
3.Ad auction
Google
Data
Management
Platform
Webpage
User Information
(Male, 25, Student,
Ad science, Longdon,…)
1. Bid Request
(user, context) 0.Ad Request
2. Bid Response
(ad, bid)
4.Win Notice
(paying price)
5.Ad
(with tracking)
6. User Feedback
(click,conversion,…)
DATA ENGINEER
¡ Vai trò: thiết kế, xây dựng,bảo trì, giám sát hệ thống Big Data sao cho hệ thống có khả năng co giãn hợp lý, tiết
kiệm chi phí.
¡ Thách thức: mang lại trải nghiệm tốt về Big Data cho người dùng.
¡ Công nghệ: Docker,Zookeeper,Mesos,Chronos, Marathon,Spark, Redis, Kafka,AmazonWeb Service…
¡ Nhiệm vụ hằng ngày:
¡ Setup các hệ thống server.
¡ Tracking dữ liệu đến từ nhiều nguồn.
¡ Xây dựng hệ thống monitoring.
¡ Đảm bảo hệ thống duy trì ổn định.
LOGSTASH – ELASTICSEARCH - KIBANA
¡ Làm sao lấy access log cách đây 6 ngày trong khoảng thời gian 11:03 AM đến 08:16
PM?
¡ Logstash:ghi dữ liệu log từ nhiều nguồn.
¡ Elasticsearch:lưu trữ, tìm kiếm và phân tích dữ liệu log.
¡ Kibana:biểu diễn dữ liệu log, quan sát nhiều tác vụ trong một thời điểm.
DATA ANALYST
¡ Vai trò: thực hiện phân tích, theo dõi hệ thống Big Data.
¡ Thách thức: đảm bảo tính toàn vẹn của dữ liệu, xây dựng kế hoạch và xử lý nhanh những biến cố của hệ thống.
¡ Công nghệ: MongoDB,MySQL, PostgreSQL,Excel, …
¡ Nhiệm vụ hằng ngày:
¡ Hỗ trợ Extract Transform Load dữ liệu.
¡ Điều tra phân tích những sự cố về dữ liệu.
¡ Tổng hợp Big Data từ nhiều nguồn để phân tích.
LÀMVIỆCVỚI DỮ LIỆU
¡ Tổng hợp dữ liệu thành Data warehouse theo giờ, ngày,và tháng.
¡ Biểu diễn dữ liệu thành các bảng biểu và đồ thị để quan sát trực quan.
¡ Tích hợp dữ liệu từ Facebook,Google theo dạng chuẩn.
¡ Xuất file report Excel Big Data (> 100 MB).
DATA SCIENTIST
¡ Vai trò: xác định vấn đề và đưa ra giải pháp AI cho tổ chức.
¡ Thách thức: xây dựng được hệ thống có độ chính xác cao, hỗ trợ lãnh đạo ra quyết định tốt hơn.
¡ Công nghệ: Docker,Spark,AmazonWeb Service, Google cloud computing, MongoDB,PostgreSQL,Jupyter, …
DATA SCIENTIST
Brainstorm
Cài đặt
Thực
nghiệm
Thất bại
Phân tích
thất bại
Khảo sát
tài liệu
Vấn đề Giải pháp
BIDDING OPTIMIZER
¡ Có nên bid hay không?
¡ Nếu có thì bid với giá bao nhiêu để thắng?
¡ Dự đoán xem khi đăng quảng cáo này user có khả năng click là bao nhiêu?
¡ Mục tiêu: maximize số lượng win với điều kiện Budget và CPM cho trước bởi user.
PROJECT MANAGEMENT
¡ Vai trò: xây dựng và áp dụng những quy trình giúp hoàn thành dự án đúng thời hạn.
¡ Nhiệm vụ: phân công công việc và tài nguyên cho đúng người đúng việc.
¡ Công cụ: quản lý thời gian, quản lý quy trình.
¡ Thách thức:
¡ Làm hài lòng sếp.
¡ Làm hài lòng anh em.
¡ Làm hài lòng khách hàng.
BUSINESS OWNER
¡ Vai trò: nắm bắt và tạo ra xu hướng, truyền lửa, truyền cảm hứng, gửi gắm tầm nhìn vào sản phẩm.
¡ Nhiệm vụ: tìm mặt gửi vàng, phân phối tài nguyên và nguồn lực hợp lý.
¡ Công cụ: kĩ năng giao tiếp, đam mê, tiền bạc, và nhân cách.
¡ Thách thức:
¡ Làm hài lòng khách hàng.
¡ Chiêu dụ và giữ chân được nhân tài.
¡ Chấp nhận rủi ro bị phá sản.
¡ Cập nhật kịp thời xu hướng nhanh so với đối thủ cạnh tranh.
NỘI DUNG
Data science 101
Làm sao để
trở thành
Data Scientist
Rèn luyện thế
nào
Sự nghiệp
Q@A
Xin cảm ơn
THAM KHẢO THÊM
¡ http://www.datatau.com/
¡ https://metacademy.org/
¡ http://datasciencemasters.org/
¡ http://machinelearningcoban.com/
¡ How To BecomeA Data Scientist
¡ Ultimate Skills Checklist forYour First DataAnalyst Job

Mais conteúdo relacionado

Mais procurados

KE HOACH DIGITAL MARKETING CUA SHOPEE
KE HOACH DIGITAL MARKETING CUA SHOPEEKE HOACH DIGITAL MARKETING CUA SHOPEE
KE HOACH DIGITAL MARKETING CUA SHOPEE51NguynTm
 
GIẢI MÃ 10 CÂU HỎI QUAN TRỌNG EMAIL MARKETING
GIẢI MÃ 10 CÂU HỎI QUAN TRỌNG EMAIL MARKETING GIẢI MÃ 10 CÂU HỎI QUAN TRỌNG EMAIL MARKETING
GIẢI MÃ 10 CÂU HỎI QUAN TRỌNG EMAIL MARKETING Huong Anh (Anny)
 
PEST analysis - Phân tích PEST
PEST analysis - Phân tích PESTPEST analysis - Phân tích PEST
PEST analysis - Phân tích PESTChuc Cao
 
Chuong 7 ke hoach Internet Marketing
Chuong 7   ke hoach Internet MarketingChuong 7   ke hoach Internet Marketing
Chuong 7 ke hoach Internet MarketingThe Marketing Corner
 
Marketing cho sản phẩm quần áo dịp hè 2023 của thương hiệu Hydrangea - Trịn...
Marketing cho sản phẩm quần áo  dịp hè 2023 của thương hiệu  Hydrangea - Trịn...Marketing cho sản phẩm quần áo  dịp hè 2023 của thương hiệu  Hydrangea - Trịn...
Marketing cho sản phẩm quần áo dịp hè 2023 của thương hiệu Hydrangea - Trịn...Học viện Kstudy
 
RIO Agency Portfolio 2016
RIO Agency Portfolio 2016RIO Agency Portfolio 2016
RIO Agency Portfolio 2016RIOAgency
 
Consumer insights-thau-hieu-nguoi-tieu-dung
Consumer insights-thau-hieu-nguoi-tieu-dungConsumer insights-thau-hieu-nguoi-tieu-dung
Consumer insights-thau-hieu-nguoi-tieu-dungNBN
 
Slide bài giảng Kỹ năng Thuyết trình Thuyết phục - Tâm Việt
Slide bài giảng Kỹ năng Thuyết trình Thuyết phục - Tâm ViệtSlide bài giảng Kỹ năng Thuyết trình Thuyết phục - Tâm Việt
Slide bài giảng Kỹ năng Thuyết trình Thuyết phục - Tâm ViệtTâm Việt Group
 
Bài 5: Chuẩn hóa cơ sở dữ liệu
Bài 5: Chuẩn hóa cơ sở dữ liệuBài 5: Chuẩn hóa cơ sở dữ liệu
Bài 5: Chuẩn hóa cơ sở dữ liệuMasterCode.vn
 
Xây Dựng Kế Hoạch Kinh Doanh
Xây Dựng Kế Hoạch Kinh DoanhXây Dựng Kế Hoạch Kinh Doanh
Xây Dựng Kế Hoạch Kinh DoanhTri Dung, Tran
 
Bài giảng Thương mại điện tử Chương 2
Bài giảng Thương mại điện tử Chương 2Bài giảng Thương mại điện tử Chương 2
Bài giảng Thương mại điện tử Chương 2Đinh Chính
 
BestHome_digital marketing plan 2015 [final]
BestHome_digital marketing plan 2015 [final]BestHome_digital marketing plan 2015 [final]
BestHome_digital marketing plan 2015 [final]Spring Bùi
 
Retail architecture target
Retail architecture targetRetail architecture target
Retail architecture targetjoelcrabb
 
Chương 1: tổ chức và thông tin trong tổ chức
Chương 1: tổ chức và thông tin trong tổ chức Chương 1: tổ chức và thông tin trong tổ chức
Chương 1: tổ chức và thông tin trong tổ chức Thạc sĩ Vũ Ngọc Hiếu
 

Mais procurados (20)

KE HOACH DIGITAL MARKETING CUA SHOPEE
KE HOACH DIGITAL MARKETING CUA SHOPEEKE HOACH DIGITAL MARKETING CUA SHOPEE
KE HOACH DIGITAL MARKETING CUA SHOPEE
 
GIẢI MÃ 10 CÂU HỎI QUAN TRỌNG EMAIL MARKETING
GIẢI MÃ 10 CÂU HỎI QUAN TRỌNG EMAIL MARKETING GIẢI MÃ 10 CÂU HỎI QUAN TRỌNG EMAIL MARKETING
GIẢI MÃ 10 CÂU HỎI QUAN TRỌNG EMAIL MARKETING
 
PEST analysis - Phân tích PEST
PEST analysis - Phân tích PESTPEST analysis - Phân tích PEST
PEST analysis - Phân tích PEST
 
Chuong 7 ke hoach Internet Marketing
Chuong 7   ke hoach Internet MarketingChuong 7   ke hoach Internet Marketing
Chuong 7 ke hoach Internet Marketing
 
VinMart
VinMartVinMart
VinMart
 
Marketing cho sản phẩm quần áo dịp hè 2023 của thương hiệu Hydrangea - Trịn...
Marketing cho sản phẩm quần áo  dịp hè 2023 của thương hiệu  Hydrangea - Trịn...Marketing cho sản phẩm quần áo  dịp hè 2023 của thương hiệu  Hydrangea - Trịn...
Marketing cho sản phẩm quần áo dịp hè 2023 của thương hiệu Hydrangea - Trịn...
 
RIO Agency Portfolio 2016
RIO Agency Portfolio 2016RIO Agency Portfolio 2016
RIO Agency Portfolio 2016
 
Online Community building - Lộ trình chi tiết xây dựng cộng đồng cho doanh ng...
Online Community building - Lộ trình chi tiết xây dựng cộng đồng cho doanh ng...Online Community building - Lộ trình chi tiết xây dựng cộng đồng cho doanh ng...
Online Community building - Lộ trình chi tiết xây dựng cộng đồng cho doanh ng...
 
Consumer insights-thau-hieu-nguoi-tieu-dung
Consumer insights-thau-hieu-nguoi-tieu-dungConsumer insights-thau-hieu-nguoi-tieu-dung
Consumer insights-thau-hieu-nguoi-tieu-dung
 
Trải nghiệm khách hàng
Trải nghiệm khách hàngTrải nghiệm khách hàng
Trải nghiệm khách hàng
 
Slide "Làm chủ chiến lược email marketing năm 2020" bổ ích cho marketer
Slide "Làm chủ chiến lược email marketing năm 2020" bổ ích cho marketerSlide "Làm chủ chiến lược email marketing năm 2020" bổ ích cho marketer
Slide "Làm chủ chiến lược email marketing năm 2020" bổ ích cho marketer
 
Phát triển hệ thống thương mại điện tử PTIT
Phát triển hệ thống thương mại điện tử PTITPhát triển hệ thống thương mại điện tử PTIT
Phát triển hệ thống thương mại điện tử PTIT
 
Slide bài giảng Kỹ năng Thuyết trình Thuyết phục - Tâm Việt
Slide bài giảng Kỹ năng Thuyết trình Thuyết phục - Tâm ViệtSlide bài giảng Kỹ năng Thuyết trình Thuyết phục - Tâm Việt
Slide bài giảng Kỹ năng Thuyết trình Thuyết phục - Tâm Việt
 
Bài 5: Chuẩn hóa cơ sở dữ liệu
Bài 5: Chuẩn hóa cơ sở dữ liệuBài 5: Chuẩn hóa cơ sở dữ liệu
Bài 5: Chuẩn hóa cơ sở dữ liệu
 
Xây Dựng Kế Hoạch Kinh Doanh
Xây Dựng Kế Hoạch Kinh DoanhXây Dựng Kế Hoạch Kinh Doanh
Xây Dựng Kế Hoạch Kinh Doanh
 
Luận văn: Bài tập Cơ sở dữ liệu quan hệ, HAY
Luận văn: Bài tập Cơ sở dữ liệu quan hệ, HAYLuận văn: Bài tập Cơ sở dữ liệu quan hệ, HAY
Luận văn: Bài tập Cơ sở dữ liệu quan hệ, HAY
 
Bài giảng Thương mại điện tử Chương 2
Bài giảng Thương mại điện tử Chương 2Bài giảng Thương mại điện tử Chương 2
Bài giảng Thương mại điện tử Chương 2
 
BestHome_digital marketing plan 2015 [final]
BestHome_digital marketing plan 2015 [final]BestHome_digital marketing plan 2015 [final]
BestHome_digital marketing plan 2015 [final]
 
Retail architecture target
Retail architecture targetRetail architecture target
Retail architecture target
 
Chương 1: tổ chức và thông tin trong tổ chức
Chương 1: tổ chức và thông tin trong tổ chức Chương 1: tổ chức và thông tin trong tổ chức
Chương 1: tổ chức và thông tin trong tổ chức
 

Semelhante a Bắt đầu học data science

Giới thiệu về khóa học với R - Ranalytics.vn
Giới thiệu về khóa học với R - Ranalytics.vnGiới thiệu về khóa học với R - Ranalytics.vn
Giới thiệu về khóa học với R - Ranalytics.vnHoang Duc Anh
 
Bắt đầu nghiên cứu Big Data
Bắt đầu nghiên cứu Big DataBắt đầu nghiên cứu Big Data
Bắt đầu nghiên cứu Big DataHong Ong
 
Intelligence Program 2017 by Cinnamon AI Labs
Intelligence Program 2017 by Cinnamon AI LabsIntelligence Program 2017 by Cinnamon AI Labs
Intelligence Program 2017 by Cinnamon AI Labsdzungdo
 
Phat trien y tuong the nao, bai giang cua Keneji Takemura
Phat trien y tuong the nao, bai giang cua Keneji TakemuraPhat trien y tuong the nao, bai giang cua Keneji Takemura
Phat trien y tuong the nao, bai giang cua Keneji TakemuraNguyen Ngoc
 
Bảng hòa tấu dữ liệu xã hội.pdf
Bảng hòa tấu dữ liệu xã hội.pdfBảng hòa tấu dữ liệu xã hội.pdf
Bảng hòa tấu dữ liệu xã hội.pdfNinhNguyen893437
 
Định Hướng Nghề Lập Trình cho Sinh Viên CNTT năm 1
Định Hướng Nghề Lập Trình cho Sinh Viên CNTT năm 1Định Hướng Nghề Lập Trình cho Sinh Viên CNTT năm 1
Định Hướng Nghề Lập Trình cho Sinh Viên CNTT năm 1giapmaster
 
L1-introduction.pptx.pdf
L1-introduction.pptx.pdfL1-introduction.pptx.pdf
L1-introduction.pptx.pdfvinhlyquoc
 
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...nataliej4
 
đạI học đà nẵngkhoa công nghệ thông tin và truyền thông báo cáo đồ án cơ sở 5...
đạI học đà nẵngkhoa công nghệ thông tin và truyền thông báo cáo đồ án cơ sở 5...đạI học đà nẵngkhoa công nghệ thông tin và truyền thông báo cáo đồ án cơ sở 5...
đạI học đà nẵngkhoa công nghệ thông tin và truyền thông báo cáo đồ án cơ sở 5...jackjohn45
 
[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf
[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf
[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdfNuioKila
 
Chương 8 Phân tích CSDL kinh doanh với SQL
Chương 8 Phân tích CSDL kinh doanh với SQLChương 8 Phân tích CSDL kinh doanh với SQL
Chương 8 Phân tích CSDL kinh doanh với SQLHoa Le
 
Ke hoach bai giang
Ke hoach bai giangKe hoach bai giang
Ke hoach bai giangChau Nguyen
 
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfMan_Ebook
 
THIẾT KẾ SẢN PHẨM - 7 NGUYÊN TẮC CƠ BẢN DÀNH CHO NGƯỜI MỚI BẮT ĐẦU
THIẾT KẾ SẢN PHẨM - 7 NGUYÊN TẮC CƠ BẢN DÀNH CHO NGƯỜI MỚI BẮT ĐẦUTHIẾT KẾ SẢN PHẨM - 7 NGUYÊN TẮC CƠ BẢN DÀNH CHO NGƯỜI MỚI BẮT ĐẦU
THIẾT KẾ SẢN PHẨM - 7 NGUYÊN TẮC CƠ BẢN DÀNH CHO NGƯỜI MỚI BẮT ĐẦUHuynh Huu Tai
 

Semelhante a Bắt đầu học data science (20)

Giới thiệu về khóa học với R - Ranalytics.vn
Giới thiệu về khóa học với R - Ranalytics.vnGiới thiệu về khóa học với R - Ranalytics.vn
Giới thiệu về khóa học với R - Ranalytics.vn
 
Bắt đầu nghiên cứu Big Data
Bắt đầu nghiên cứu Big DataBắt đầu nghiên cứu Big Data
Bắt đầu nghiên cứu Big Data
 
Intelligence Program 2017 by Cinnamon AI Labs
Intelligence Program 2017 by Cinnamon AI LabsIntelligence Program 2017 by Cinnamon AI Labs
Intelligence Program 2017 by Cinnamon AI Labs
 
Phat trien y tuong the nao, bai giang cua Keneji Takemura
Phat trien y tuong the nao, bai giang cua Keneji TakemuraPhat trien y tuong the nao, bai giang cua Keneji Takemura
Phat trien y tuong the nao, bai giang cua Keneji Takemura
 
Bảng hòa tấu dữ liệu xã hội.pdf
Bảng hòa tấu dữ liệu xã hội.pdfBảng hòa tấu dữ liệu xã hội.pdf
Bảng hòa tấu dữ liệu xã hội.pdf
 
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTITKHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
 
Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Or...
Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Or...Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Or...
Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Or...
 
Luan van
Luan vanLuan van
Luan van
 
Định Hướng Nghề Lập Trình cho Sinh Viên CNTT năm 1
Định Hướng Nghề Lập Trình cho Sinh Viên CNTT năm 1Định Hướng Nghề Lập Trình cho Sinh Viên CNTT năm 1
Định Hướng Nghề Lập Trình cho Sinh Viên CNTT năm 1
 
L1-introduction.pptx.pdf
L1-introduction.pptx.pdfL1-introduction.pptx.pdf
L1-introduction.pptx.pdf
 
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
ĐỀ TÀI : ĐIỂM DANH BẰNG NHẬN DIỆN KHUÔN MẶT. Giảng viên : PGS.TS. HUỲNH CÔNG ...
 
đạI học đà nẵngkhoa công nghệ thông tin và truyền thông báo cáo đồ án cơ sở 5...
đạI học đà nẵngkhoa công nghệ thông tin và truyền thông báo cáo đồ án cơ sở 5...đạI học đà nẵngkhoa công nghệ thông tin và truyền thông báo cáo đồ án cơ sở 5...
đạI học đà nẵngkhoa công nghệ thông tin và truyền thông báo cáo đồ án cơ sở 5...
 
[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf
[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf
[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf
 
Chương 8 Phân tích CSDL kinh doanh với SQL
Chương 8 Phân tích CSDL kinh doanh với SQLChương 8 Phân tích CSDL kinh doanh với SQL
Chương 8 Phân tích CSDL kinh doanh với SQL
 
Thdc 06
Thdc 06Thdc 06
Thdc 06
 
Ke hoach bai giang
Ke hoach bai giangKe hoach bai giang
Ke hoach bai giang
 
CS4S Số 1(8) 2016
CS4S Số 1(8) 2016CS4S Số 1(8) 2016
CS4S Số 1(8) 2016
 
Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Ch...
Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Ch...Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Ch...
Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Ch...
 
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
 
THIẾT KẾ SẢN PHẨM - 7 NGUYÊN TẮC CƠ BẢN DÀNH CHO NGƯỜI MỚI BẮT ĐẦU
THIẾT KẾ SẢN PHẨM - 7 NGUYÊN TẮC CƠ BẢN DÀNH CHO NGƯỜI MỚI BẮT ĐẦUTHIẾT KẾ SẢN PHẨM - 7 NGUYÊN TẮC CƠ BẢN DÀNH CHO NGƯỜI MỚI BẮT ĐẦU
THIẾT KẾ SẢN PHẨM - 7 NGUYÊN TẮC CƠ BẢN DÀNH CHO NGƯỜI MỚI BẮT ĐẦU
 

Mais de Hong Ong

Feast Feature Store - An In-depth Overview Experimentation and Application in...
Feast Feature Store - An In-depth Overview Experimentation and Application in...Feast Feature Store - An In-depth Overview Experimentation and Application in...
Feast Feature Store - An In-depth Overview Experimentation and Application in...Hong Ong
 
Dagster - DataOps and MLOps for Machine Learning Engineers.pdf
Dagster - DataOps and MLOps for Machine Learning Engineers.pdfDagster - DataOps and MLOps for Machine Learning Engineers.pdf
Dagster - DataOps and MLOps for Machine Learning Engineers.pdfHong Ong
 
DBT ELT approach for Advanced Analytics.pptx
DBT ELT approach for Advanced Analytics.pptxDBT ELT approach for Advanced Analytics.pptx
DBT ELT approach for Advanced Analytics.pptxHong Ong
 
VWS2017: Bắt đầu Big Data từ đâu và như thế nào?
VWS2017: Bắt đầu Big Data từ đâu và như thế nào?VWS2017: Bắt đầu Big Data từ đâu và như thế nào?
VWS2017: Bắt đầu Big Data từ đâu và như thế nào?Hong Ong
 
Distance oracle - Truy vấn nhanh khoảng cách giữa hai điểm bất kỳ trên đồ thị
Distance oracle - Truy vấn nhanh khoảng cách giữa hai điểm bất kỳ trên đồ thịDistance oracle - Truy vấn nhanh khoảng cách giữa hai điểm bất kỳ trên đồ thị
Distance oracle - Truy vấn nhanh khoảng cách giữa hai điểm bất kỳ trên đồ thịHong Ong
 
Nền tảng thuật toán của AI, Machine Learning, Big Data
Nền tảng thuật toán của AI, Machine Learning, Big DataNền tảng thuật toán của AI, Machine Learning, Big Data
Nền tảng thuật toán của AI, Machine Learning, Big DataHong Ong
 

Mais de Hong Ong (6)

Feast Feature Store - An In-depth Overview Experimentation and Application in...
Feast Feature Store - An In-depth Overview Experimentation and Application in...Feast Feature Store - An In-depth Overview Experimentation and Application in...
Feast Feature Store - An In-depth Overview Experimentation and Application in...
 
Dagster - DataOps and MLOps for Machine Learning Engineers.pdf
Dagster - DataOps and MLOps for Machine Learning Engineers.pdfDagster - DataOps and MLOps for Machine Learning Engineers.pdf
Dagster - DataOps and MLOps for Machine Learning Engineers.pdf
 
DBT ELT approach for Advanced Analytics.pptx
DBT ELT approach for Advanced Analytics.pptxDBT ELT approach for Advanced Analytics.pptx
DBT ELT approach for Advanced Analytics.pptx
 
VWS2017: Bắt đầu Big Data từ đâu và như thế nào?
VWS2017: Bắt đầu Big Data từ đâu và như thế nào?VWS2017: Bắt đầu Big Data từ đâu và như thế nào?
VWS2017: Bắt đầu Big Data từ đâu và như thế nào?
 
Distance oracle - Truy vấn nhanh khoảng cách giữa hai điểm bất kỳ trên đồ thị
Distance oracle - Truy vấn nhanh khoảng cách giữa hai điểm bất kỳ trên đồ thịDistance oracle - Truy vấn nhanh khoảng cách giữa hai điểm bất kỳ trên đồ thị
Distance oracle - Truy vấn nhanh khoảng cách giữa hai điểm bất kỳ trên đồ thị
 
Nền tảng thuật toán của AI, Machine Learning, Big Data
Nền tảng thuật toán của AI, Machine Learning, Big DataNền tảng thuật toán của AI, Machine Learning, Big Data
Nền tảng thuật toán của AI, Machine Learning, Big Data
 

Bắt đầu học data science

  • 1. BẮT ĐẦU HỌC DATA SCIENCE ÔNG XUÂN HỒNG – DATA ANALYST @ KNOREX
  • 2. NỘI DUNG Data science 101 Làm sao để trở thành Data Scientist Rèn luyện thế nào Sự nghiệp
  • 3. GIỚITHIỆU BẢNTHÂN Full-stack web developer (PHP,Java) Master @ JAIST (NLP) Blogger (Machine Learning) Working @ Knorex (Advertising analysis)
  • 4.
  • 5.
  • 6. Tốc độ phát sinh dữ liệu (dữ liệu phi cấu trúc) 88% Phân tích truyền thống (dữ liệu có cấu trúc) 12% DATA ANALYST • Dữ liệu có cấu trúc: được thiết kế kĩ lưỡng để khai thác (SQL, OLAP, BI). • Dữ liệu phi cấu trúc: văn bản, comment, ảnh, video, giọng nói, …
  • 7. NHỮNG NHÀ NGHIÊN CỨU RA TAY ¡ Nghiên cứu mô hình kinh doanh của tổ chức để đưa ra giải pháp. ¡ Lấy và làm sạch dữ liệu, chuyển đổi thành thông tin hữu ích. ¡ Phân tích, đánh giá sơ lược dữ liệu thu thập được (Exploratory DataAnalysis). ¡ Suy diễn thông tin có ý nghĩa từ tập dữ liệu thu thập (Statistical inference). ¡ Xây dựng hệ thống hỗ trợ ra quyết định để giải quyết vấn đề.
  • 8. Họ trở thành Data Scientist
  • 10. DATA SCIENCE Data Science Văn bản Xử lý ngôn ngữ tự nhiên Ảnh và video Thị giác máy tính Âm thanh Xử lý tín hiệu số Social network Phân tích đồ thị Business Khai thác dữ liệu DNA Tin sinh học … …
  • 12. Làm sao trở thành Data Scientist?
  • 14. KHÔNG CẦN BẰNG PHD Big Data techs Business domain Project management Teamwork
  • 15. CODING… Scripting ¡ Python: tổng hợp, tích hợp các nguồn dữ liệu, prototype mô hình dự đoán. ¡ R: phân tích thống kê, trình bày biểu đồ. ¡ Julia Low level ¡ Java:Web app,mobile app,NLP framework. ¡ Scala:Big Data processing. ¡ C++/Go:Big Data processing.
  • 16. VIẾT BLOG CHIA SẺ ¡ Tổ chức lại kiến thức. ¡ Khi chia sẻ chính là lúc bạn đang học. ¡ Rèn luyện kĩ năng trình bày. ¡ Giúp ích cho cộng đồng. ¡ Mở rộng cơ hội nghề nghiệp.
  • 18. RÀO CẢN BAN ĐẦU ¡ Học Toán không kĩ, đặc biệt là xác suất và thống kê. ¡ So sánh với các bạn cùng khoá làm mất tự tin và lo lắng. ¡ Quá nhiều thứ để học mà thời gian thì quá ít gây bối rối. ¡ Lo lắng việc làm khi ra trường. ¡ Mơ hồ về career path sau này.
  • 19. TỐ CHẤT NÊN CÓ ¡ Tò mò, thích khám phá kiến thức mới. ¡ Thích lập trình, tìm tòi áp dụng những công cụ mới. ¡ Không ngại thử sai nhiều lần trong quá trình thực nghiệm. ¡ Yêu thích những phát hiện về khoa học tự nhiên. ¡ Quan tâm đến các bài toán của xã hội và mong muốn giải quyết.
  • 20. STUDY FLOW Lập trình demo nhỏ Ý nghĩa Toán học Machine Learning keywords Ứng dụng mình quan tâm
  • 21. XÁC ĐỊNH DOMAIN MUỐN LÀM • Đọc blog. • Đọc tin tức. • Thầy cô giới thiệu. • Bạn bè chia sẻ. • Công việc đòi hỏi.
  • 22. XÁC ĐỊNH BÀITOÁN QUANTÂM Nghiên cứu Bài toán Xử lý ngôn ngữ tự nhiên Language modeling,Part of speech tagging,Grammar parsing,Word segmentation,Machine translation,Named entity recognition,Question and Answering,Sentiment analysis,Discourse analysis,Word sense disambiguation, … Thị giác máy tính Image processing,Medical imaging,Pattern recognition, 3D reconstruction,Face recognition,Computer human interaction,Computer graphics,Object detection,Pose estimation,Shape recognition,Scene construction … Xử lý tín hiệu số Audio processing,Speech recognition,Noise reduction, Audio/Video compression,… Khai thác dữ liệu ExtractTransform Load, anomaly detection, association rule learning,clustering,classification,regression,…
  • 23. Để biết mình hợp với cái nào thì phải thử…
  • 24. TÌM KHOÁ HỌC ONLINE • Nắm kiến thức cơ bản. • Có thể vừa học vừa làm. • Thích học giáo trình nào thì học. • Chi phí thấp. • Học nhanh học chậm là do bạn.
  • 26.
  • 27. CẤUTRÚC DỮ LIỆUVÀ GIẢITHUẬT Kiểu dữ liệu Vòng lặp, phân luồng Hàm Hướng đối tượng
  • 29. HỌCTOÁN ¡ Giải tích (Analytics):tìm độ lỗi cực tiểu cho mô hình, cực đại hoá khả năng. ¡ Đại số tuyến tính (Linear algebra):nhân ma trận trong xử lý ảnh, biểu diễn và thao tác dữ liệu bảng. ¡ Toán rời rạc (Discrete mathematics):hỗ trợ phép đếm trong xác suất. ¡ Lý thuyết đồ thị (Graph theory):phân tích mạng xã hội. ¡ Xác suất thống kê (Statistics and probability):xây dựng mô hình dự đoán dựa vào dữ liệu quá khứ“educated guess”.
  • 30. INDUSTRY DOMAIN ¡ Marketing ¡ Customer support ¡ Sales ¡ HR/Recruiting ¡ Security/Fraud ¡ Education ¡ Audio/Video ¡ Agriculture ¡ Healthcare ¡ Legal ¡ Financial
  • 32. HỌCTHUẬT Đại học • 4 năm Master • 2 năm PhD • 3 năm Postdoc • 2 năm • Tầm sư học đạo 10 năm. • Ít rủi ro. • Được nghiên cứu lĩnh vực mình thích. • Thường làm việc một mình hoặc nhóm nhỏ. • Áp lực về xuất bản bài báo khoa học. • Làm giảng viên, nghiên cứu sinh, hoặc nhà tư vấn.
  • 33. ĐI LÀM ¡ Data engineer. ¡ Data analyst. ¡ Data scientist. ¡ Project management. ¡ Business owner of a Start-up.
  • 34. REAL-TIME BIDDING Bidding Optimizer Demand-Side Platform Advertiser Knorex Ad Exchange 3.Ad auction Google Data Management Platform Webpage User Information (Male, 25, Student, Ad science, Longdon,…) 1. Bid Request (user, context) 0.Ad Request 2. Bid Response (ad, bid) 4.Win Notice (paying price) 5.Ad (with tracking) 6. User Feedback (click,conversion,…)
  • 35. DATA ENGINEER ¡ Vai trò: thiết kế, xây dựng,bảo trì, giám sát hệ thống Big Data sao cho hệ thống có khả năng co giãn hợp lý, tiết kiệm chi phí. ¡ Thách thức: mang lại trải nghiệm tốt về Big Data cho người dùng. ¡ Công nghệ: Docker,Zookeeper,Mesos,Chronos, Marathon,Spark, Redis, Kafka,AmazonWeb Service… ¡ Nhiệm vụ hằng ngày: ¡ Setup các hệ thống server. ¡ Tracking dữ liệu đến từ nhiều nguồn. ¡ Xây dựng hệ thống monitoring. ¡ Đảm bảo hệ thống duy trì ổn định.
  • 36. LOGSTASH – ELASTICSEARCH - KIBANA ¡ Làm sao lấy access log cách đây 6 ngày trong khoảng thời gian 11:03 AM đến 08:16 PM? ¡ Logstash:ghi dữ liệu log từ nhiều nguồn. ¡ Elasticsearch:lưu trữ, tìm kiếm và phân tích dữ liệu log. ¡ Kibana:biểu diễn dữ liệu log, quan sát nhiều tác vụ trong một thời điểm.
  • 37. DATA ANALYST ¡ Vai trò: thực hiện phân tích, theo dõi hệ thống Big Data. ¡ Thách thức: đảm bảo tính toàn vẹn của dữ liệu, xây dựng kế hoạch và xử lý nhanh những biến cố của hệ thống. ¡ Công nghệ: MongoDB,MySQL, PostgreSQL,Excel, … ¡ Nhiệm vụ hằng ngày: ¡ Hỗ trợ Extract Transform Load dữ liệu. ¡ Điều tra phân tích những sự cố về dữ liệu. ¡ Tổng hợp Big Data từ nhiều nguồn để phân tích.
  • 38. LÀMVIỆCVỚI DỮ LIỆU ¡ Tổng hợp dữ liệu thành Data warehouse theo giờ, ngày,và tháng. ¡ Biểu diễn dữ liệu thành các bảng biểu và đồ thị để quan sát trực quan. ¡ Tích hợp dữ liệu từ Facebook,Google theo dạng chuẩn. ¡ Xuất file report Excel Big Data (> 100 MB).
  • 39. DATA SCIENTIST ¡ Vai trò: xác định vấn đề và đưa ra giải pháp AI cho tổ chức. ¡ Thách thức: xây dựng được hệ thống có độ chính xác cao, hỗ trợ lãnh đạo ra quyết định tốt hơn. ¡ Công nghệ: Docker,Spark,AmazonWeb Service, Google cloud computing, MongoDB,PostgreSQL,Jupyter, …
  • 40. DATA SCIENTIST Brainstorm Cài đặt Thực nghiệm Thất bại Phân tích thất bại Khảo sát tài liệu Vấn đề Giải pháp
  • 41. BIDDING OPTIMIZER ¡ Có nên bid hay không? ¡ Nếu có thì bid với giá bao nhiêu để thắng? ¡ Dự đoán xem khi đăng quảng cáo này user có khả năng click là bao nhiêu? ¡ Mục tiêu: maximize số lượng win với điều kiện Budget và CPM cho trước bởi user.
  • 42. PROJECT MANAGEMENT ¡ Vai trò: xây dựng và áp dụng những quy trình giúp hoàn thành dự án đúng thời hạn. ¡ Nhiệm vụ: phân công công việc và tài nguyên cho đúng người đúng việc. ¡ Công cụ: quản lý thời gian, quản lý quy trình. ¡ Thách thức: ¡ Làm hài lòng sếp. ¡ Làm hài lòng anh em. ¡ Làm hài lòng khách hàng.
  • 43. BUSINESS OWNER ¡ Vai trò: nắm bắt và tạo ra xu hướng, truyền lửa, truyền cảm hứng, gửi gắm tầm nhìn vào sản phẩm. ¡ Nhiệm vụ: tìm mặt gửi vàng, phân phối tài nguyên và nguồn lực hợp lý. ¡ Công cụ: kĩ năng giao tiếp, đam mê, tiền bạc, và nhân cách. ¡ Thách thức: ¡ Làm hài lòng khách hàng. ¡ Chiêu dụ và giữ chân được nhân tài. ¡ Chấp nhận rủi ro bị phá sản. ¡ Cập nhật kịp thời xu hướng nhanh so với đối thủ cạnh tranh.
  • 44. NỘI DUNG Data science 101 Làm sao để trở thành Data Scientist Rèn luyện thế nào Sự nghiệp
  • 46. THAM KHẢO THÊM ¡ http://www.datatau.com/ ¡ https://metacademy.org/ ¡ http://datasciencemasters.org/ ¡ http://machinelearningcoban.com/ ¡ How To BecomeA Data Scientist ¡ Ultimate Skills Checklist forYour First DataAnalyst Job