10. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Outline for seminar
• Data Mining for Business with RapidMiner Studio 6
• 13:00 - 14:30 โดย ดร.เอกสิทธิ์ พัชรวงศ์ศักดา
หสม. ดาต้า คิวบ์
!
• Social Media Intelligence
• 15:00 - 16:30 โดย คุณชัชวาล สังคีตตระการ และ คุณก่อเกียรติ วรรณพัฒน์
ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
!
• #dataminingforthai
10
11. Data Mining for Business
with RapidMiner Studio 6
Eakasit Pacharawongsakda, Ph.D.
Rattanawalee Khruasawat
Data Cube : http://facebook.com/datacube.th
(data)3
base|warehouse|mining
http://www.dataminingtrend.com
http://facebook.com/datacube.th
12. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Outline
• Part 1: Introduction to data mining
• เทคนิคการวิเคราะห์ข้อมูลด้วย data mining คืออะไร
• ตัวอย่างการนำ data mining ไปใช้งาน
• Part 2: Introduction to RapidMiner Studio 6
• แนะนำส่วนประกอบต่างๆ ของ RapidMiner Studio 6
• Part 3: Data mining for business
• การแบ่งกลุ่มลูกค้าด้วยเทคนิค Segmentation
• การหาสินค้าที่ลูกค้ามักจะซื้อร่วมกันบ่อยๆ
• การคาดการณ์การตอบรับโปรโมชันของลูกค้าแต่ละราย
12
13. Introduction to Data Mining
Part 1
(data)3
base|warehouse|mining
http://www.dataminingtrend.com
http://facebook.com/datacube.th
14. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Where does data come from?
• ข้อมูลแบ่งตามที่มา
• ภายในบริษัท/องค์กร
• ข้อมูลการซื้อขาย
• ข้อมูลประวัติลูกค้า
• ข้อมูลประวัติพนักงาน
• ภายนอกบริษัท/องค์กร
• ข้อมูลจาก social media ต่างๆ
• ข้อมูลข่าวต่างๆ
• ข้อมูลรูปภาพและเสียง
14
source: http://dailyprivacy.files.wordpress.com/2013/02/2012_big_data_study_infographic_600.jpg
17. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
What is data mining
• “The exploration and analysis of large quantities
of data in order to discover meaningful patterns and
rules” – Data Mining Techniques (3rd Edition)
• เป็นการวิเคราะห์ข้อมูล เพื่อหารูปแบบ (patterns) หรือความสัมพันธ์
(relation) ระหว่างข้อมูลในฐานข้อมูลขนาดใหญ่
• “Extraction of interesting (non-trivial, previously,
unknown and potential useful) information from data in
large databases” – Data Mining Concepts &
Techniques (3rd Edition)
• เป็นกระบวนการดึงข่าวสารที่น่าสนใจ และมีประโยชน์แต่ไม่เคยรู้มา
ก่อนจากฐานข้อมูลขนาดใหญ่
17
70. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
How to collect data ?
• แอตทริบิวต์ (attribute) คุณลักษณะของลูกค้าแต่ละราย
• ในทางสถิติจะเรียกว่าตัวแปรอิสระ (independent variable)
• Demographic data คือ ข้อมูลเชิงประชากร เช่น เพศ อายุ รายได้ ที่อยู่อาศัย
• Behavioural data คือ ข้อมูลพฤติกรรมการใช้งานของลูกค้า
• ส่วนใหญ่มักจะช่วยในการ predict ได้มากกว่า demographic data (Ref: Data Mining
cookbook, Wiley)
• ลาเบล (label) คำตอบที่สนใจ เช่น การตอบรับ campaign หรือไม่
• ในทางสถิติจะเรียกว่าตัวแปรตาม (dependent variable)
70
Customer_id Age Gender Area Email Mobile Logins 4 weeks Sales 4 weeks Response
ID140001 64 female urban free never 1 0 no
ID140002 49 male urban premium never 0 0 yes
ID140003 63 male urban free never 0 0 no
ID140004 75 male urban premium yes 0 0 yes
demographic data labelID behavioural data
71. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
How to collect data ?
• ต้องหาข้อมูลที่มีผลการตอบรับ campaign เพื่อใช้ในการสร้าง
predictive model
• อาจจะใช้ข้อมูลจากการตอบรับ campaign ก่อนหน้าที่ใกล้เคียงกัน
• ถ้าไม่มีอาจจะต้องสร้างข้อมูลใหม่โดยการสุ่มลูกค้าและส่ง campaign ไปให้
• ข้อมูลนี้เรียกว่า training data
71
ID A G Ar E M L S R
1 .. .. .. .. .. .. .. N
2 .. .. .. .. .. .. .. Y
3 .. .. .. .. .. .. .. N
4 .. .. .. .. .. .. .. Y
ข้อมูลผลการตอบรับ campaign ก่อนหน้า
ID A G Ar E M L R
1 .. .. .. .. .. .. ..
2 .. .. .. .. .. .. ..
3 .. .. .. .. .. .. ..
4 .. .. .. .. .. .. ..
ช่วงเวลาในการส่ง campaign
ID R
1 N
2 Y
3 N
4 Y
ผลการตอบรับ campaign
72. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Decision Tree
• เป็นเทคนิคที่นิยมใช้ในการทำ predictive modeling
• ขั้นตอนการสร้าง decision tree จะเลือกแอตทริบิวต์ที่มีความสัมพันธ์
กับคลาสมาใช้งาน
Logins 4 weeks
> 6.5 < 6.5
Emailyes
yes
= free = premium
โมเดล decision tree
Sales 4 weeks
yes no
> 2 < 2
!
• IF Logins 4 weeks > 6.5 THEN
Response = yes
• IF Logins 4 weeks < 6.5 AND
Email = premium THEN
Response = yes
• IF Logins 4 weeks < 6.5 AND
Email = free AND
Sales 4 weeks > 2 THEN
Response = yes
• IF Logins 4 weeks < 6.5 AND
Email = free AND
Sales 4 weeks < 2 THEN
Response = no
72
business rule ที่ได้จากโมเดล decision tree
73. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Evaluate Decision Tree model
• แบ่งข้อมูลที่ได้ออกเป็น 2 ส่วน
• ส่วนที่ 1 training data ใช้ในการสร้างโมเดล แบ่งข้อมูลประมาณ 70%
• ส่วนที่ 2 testing data ใช้ในการทดสอบโมเดล แบ่งข้อมูลประมาณ 30%
• ใช้โมเดลที่ได้ทำนายผลการตอบรับ campaign
• เปรียบเทียบกับข้อมูลผลการตอบรับ campaign ที่มีอยู่
73
สร้าง Decision Tree model
classification model
ID R P
4 N N
5 Y Y
1
2
3 4
ID A G Ar E M L S Res
1 … … … … … … … N
2 … … … … … … … Y
3 … … … … … … … N
ID A G Ar E M L S Res
4 … … … … … … … ?
5 … … … … … … … ?
training data
testing data
74. (data)3
base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Evaluate Decision Tree model
• ตัววัดประสิทธิภาพของโมเดล
• ค่าความถูกต้อง (Accuracy) คือจำนวนที่โมเดลทำนายได้ตรงกับผลเฉลย
• จากตัวอย่างความถูกต้อง คือ 8/10 = 80%
74
ID Response Predicted
1 no no
2 yes yes
3 no yes
4 no no
5 yes yes
6 yes yes
7 yes no
8 no no
9 no no
10 yes yes
ID Response Predicted
1 no no
2 yes yes
3 no yes
4 no no
5 yes yes
6 yes yes
7 yes no
8 no no
9 no no
10 yes yes