SlideShare uma empresa Scribd logo
1 de 18
Baixar para ler offline
Text Mining
‫کاوی‬ ‫متن‬
‫کننده‬ ‫ارائه‬:‫توتیا‬ ‫محمد‬
‫مطالب‬ ‫فهرست‬
.1‫مقدمه‬
.2‫تعاریف‬
.3‫کاوی‬ ‫متن‬ ‫های‬ ‫کاربرد‬
.4‫کاوی‬ ‫متن‬ ‫فرآیند‬
.5‫بعدی‬ ‫کارهای‬ ‫و‬ ‫گیری‬ ‫نتیجه‬
.6‫منابع‬
‫مقدمه‬
‫ولی‬ ‫بشوند‬ ‫قدرت‬ ‫آمدن‬ ‫وجود‬ ‫به‬ ‫باعث‬ ‫توانند‬ ‫می‬ ‫اطالعات‬
‫که‬ ‫است‬ ‫الزم‬ ‫اطالعات‬ ‫از‬ ‫دانش‬ ‫دریافت‬ ‫برای‬:
‫درک‬+‫پردازش‬
‫مفاهیم‬ ‫و‬ ‫معانی‬
‫مفاهیم‬ ‫میان‬ ‫ارتباط‬
‫جدید‬ ‫و‬ ‫قدیمی‬ ‫مفاهی‬
‫حتی‬ ‫شود‬ ‫انجام‬ ‫اتوماتیک‬ ‫با‬ ‫کارها‬ ‫تمام‬ ‫حاضر‬ ‫عصر‬ ‫در‬«‫متن‬ ‫معنی‬ ‫درک‬»
‫نام‬ ‫به‬ ‫جدید‬ ‫علمی‬‫کاوی‬ ‫متن‬(Text Mining)‫آید‬ ‫می‬ ‫وجود‬ ‫به‬.
•‫متنی‬ ‫های‬ ‫داده‬ ‫کاوش‬(Text data Mining)
•‫متن‬ ‫در‬ ‫دانش‬ ‫کشف‬(Knowledge Discovery in Text)‫یا‬ ‫و‬KDT
‫مقدمه‬
‫دارد‬ ‫وجود‬ ‫رویکرد‬ ‫دو‬ ‫کاوی‬ ‫متن‬ ‫های‬ ‫مرز‬ ‫تعریف‬ ‫برای‬:
.i‫کاوی‬ ‫داده‬ ‫پیشینه‬ ‫دارای‬ ‫افراد‬
.ii‫محاسباتی‬ ‫زبانشناسان‬ ‫جامعه‬(Computational linguistics community)
‫تعاریف‬
‫توان‬ ‫می‬ ‫اطالعات‬ ‫اين‬ ‫از‬ ‫که‬ ‫است‬ ‫دانشی‬ ‫کمبود‬ ‫بلکه‬ ‫است‬ ‫مسئله‬ ‫که‬ ‫نیست‬ ‫اطالعات‬ ‫کمبود‬ ‫اين‬ ‫کنونی‬ ‫دنیای‬ ‫در‬‫حاصل‬‫کرد‬.
‫دانش‬‫فکر‬ ‫حاصل‬ ‫و‬ ‫گیری‬ ‫نتیجه‬ ‫نیز‬ ‫و‬ ‫است‬ ‫اطالعات‬ ‫ی‬ ‫خالصه‬‫تحلیل‬ ‫و‬‫روی‬ ‫بر‬‫اطال‬‫عات‬.
‫تعاریف‬:‫کاوی‬ ‫داده‬ ‫بر‬ ‫گذری‬(Data Mining)
‫داده‬ ‫از‬ ‫اطالعات‬ ‫کشف‬ ‫برای‬ ‫کاراست‬ ‫بسیار‬ ‫روش‬ ‫یک‬ ،‫کاوی‬ ‫داده‬‫ساخت‬ ‫های‬‫یافته‬‫جداول‬ ‫در‬ ‫که‬ ‫ای‬‫نگهداری‬‫شوند‬ ‫می‬.
‫مشکل‬:
‫است‬ ‫محدود‬ ‫بسیار‬ ‫ما‬ ‫يافته‬ ‫ساخت‬ ‫اطالعاتی‬ ‫منابع‬.
، ‫الکترونیکی‬ ‫کتابهای‬ ، ‫اخبار‬ ، ‫دیجیتال‬ ‫های‬ ‫کتابخانه‬‫مدارک‬ ‫از‬ ‫بسیاری‬، ‫مالی‬‫و‬ ‫علمی‬ ‫مقاالت‬...
‫نیافته‬ ‫ساخت‬ ‫اطالعات‬ ‫با‬ ‫برخورد‬ ‫روش‬ ‫سه‬:
‫اطالعات‬ ‫بازیابی‬(Information Retrieval)
‫اطالعات‬ ‫استخراج‬(Information Extraction)
‫متن‬ ‫در‬ ‫دانش‬ ‫کشف‬
A:‫بارانی‬ ‫مناطق‬
B:‫برنج‬ ‫کشت‬
A -> B:‫دارد‬ ‫نیاز‬ ‫بارانی‬ ‫مناطق‬ ‫به‬ ‫برنج‬ ‫کشت‬.
C:‫کشور‬ ‫شمال‬ ‫مناطق‬
A -> C:‫هستند‬ ‫بارانی‬ ‫مناطق‬ ‫کشور‬ ‫شمال‬ ‫مناطق‬.
B -> C:‫دارند‬ ‫برنج‬ ‫کشت‬ ‫قابلیت‬ ‫کشور‬ ‫شمال‬ ‫مناطق‬.
‫تعاریف‬
‫کاوی‬ ‫متن‬ ‫های‬ ‫کاربرد‬
‫گوناگون‬ ‫تعاریف‬=‫گوناگون‬ ‫های‬ ‫کاربرد‬
‫ها‬ ‫کاربرد‬:
‫بازیابی‬ ‫و‬ ‫جستجو‬
‫گروه‬‫بندی‬(Clustering)‫دسته‬‫بدون‬ ‫بندی‬‫نظارت‬(Unsupervised Classification)‫و‬‫طبقه‬‫بندی‬(Categorization)
‫سازی‬ ‫خالصه‬
‫روابط‬ ‫استخراج‬
‫تحلیل‬ ‫و‬ ‫یافتن‬‫ترندها‬(Trend)
‫برچسب‬‫زدن‬‫نحوی‬(Part of Speech tagging)
‫آنتولوژی‬ ‫اتوماتیک‬ ‫ساخت‬(Ontology)‫تزاروس‬ ‫و‬(Thesaurus)
....
‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬
‫کاوی‬ ‫متن‬ ‫وسیله‬ ‫به‬ ‫اطالعات‬ ‫بازیابی‬ ‫و‬ ‫جستجو‬ ‫به‬ ‫جدید‬ ‫رویکردی‬
‫به‬ ‫وابستگی‬Machin learning‫و‬NLP(Natural language processing)
‫بازیابی‬ ‫و‬ ‫جستجو‬:
‫سازی‬ ‫خالصه‬:
‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬
‫کند‬ ‫می‬ ‫کمک‬ ‫اطالعات‬ ‫یافتن‬ ‫سریعتر‬ ‫در‬.
‫دارد‬ ‫وجود‬ ‫عمده‬ ‫روش‬ ‫دو‬:
‫ها‬ ‫داده‬ ‫بندی‬ ‫طبقه‬(Categorization)
‫اتوماتیک‬ ‫بصورت‬ ‫کالسها‬ ‫ساخت‬ ‫و‬ ‫ها‬ ‫داده‬ ‫بندی‬ ‫گروه‬(Clustering)
‫ها‬ ‫داده‬ ‫بندی‬ ‫طبقه‬ ‫و‬ ‫بندی‬ ‫گروه‬:
‫ای‬ ‫مجموعه‬ ‫ساختن‬ ‫روند‬ ،‫سازی‬ ‫خالصه‬ ‫از‬ ‫ما‬ ‫منظور‬‫مفاهیم‬‫است‬ ‫متن‬ ‫از‬ ‫ای‬ ‫پایه‬‫تنها‬‫خط‬ ‫چند‬ ‫در‬.
‫شود‬ ‫نمی‬ ‫استخراج‬ ‫متن‬ ‫از‬ ‫جدیدی‬ ‫اطالعات‬ ‫روش‬ ‫این‬ ‫در‬
‫میان‬ ‫روابط‬‫مفاهیم‬:
‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬
‫جمله‬ ‫از‬‫هایی‬ ‫واقعیت‬‫بعضی‬ ‫وابستگی‬ ‫و‬ ‫ارتباط‬ ،‫دریافت‬ ‫متون‬ ‫مجموعه‬ ‫یک‬ ‫از‬ ‫توان‬ ‫می‬ ‫که‬‫مفاهیم‬
‫با‬ ‫است‬‫دیگر‬ ‫مفاهیم‬.
‫این‬‫مفهوم‬‫از‬ ‫نیز‬‫کاوی‬ ‫داده‬‫است‬ ‫شده‬ ‫گرفته‬ ‫امانت‬ ‫به‬ ‫دیتابیس‬ ‫در‬.
‫ترند‬ ‫تحلیل‬ ‫و‬ ‫یافتن‬‫ها‬:
‫که‬ ‫میرود‬ ‫انتظار‬ ‫کاوی‬ ‫متن‬ ‫از‬‫آنچ‬ ‫به‬ ‫اخبار‬ ‫از‬ ‫ای‬ ‫گستره‬ ‫میان‬ ‫در‬ ‫اخباری‬ ‫چه‬ ‫بگوید‬ ‫شما‬ ‫به‬‫می‬ ‫ه‬
‫خواهید‬‫خبر‬ ‫کدام‬ ‫میان‬ ‫این‬ ‫در‬ ‫و‬ ‫است‬ ‫مرتبط‬‫است‬ ‫جدید‬.
‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬
‫برچسب‬‫زدن‬‫نحوی‬(Part of Speech Tagging: )
‫سیستم‬GATE‫شفیلد‬ ‫دانشگاه‬ ‫در‬
‫دانش‬ ‫استخراج‬ ‫تا‬ ‫است‬ ‫اطالعات‬ ‫استخراج‬ ‫شامل‬ ‫بیشتر‬ ‫سیستم‬ ‫این‬
‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬
‫برچسب‬‫زدن‬‫نحوی‬(Part of Speech Tagging: )
‫سیستم‬GATE‫شفیلد‬ ‫دانشگاه‬ ‫در‬
‫دانش‬ ‫استخراج‬ ‫تا‬ ‫است‬ ‫اطالعات‬ ‫استخراج‬ ‫شامل‬ ‫بیشتر‬ ‫سیستم‬ ‫این‬
‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬
‫اتوماتیک‬ ‫صورت‬ ‫به‬ ‫آنتولوژی‬ ‫و‬ ‫تزاروس‬ ‫ایجاد‬
‫میان‬ ‫ی‬ ‫رابطه‬ ‫و‬ ‫تعاریفشان‬ ‫ی‬ ‫اضافه‬ ‫به‬ ‫لغات‬ ‫از‬ ‫است‬ ‫ای‬ ‫مجموعه‬ ،‫تزاروس‬‫ها‬ ‫آن‬.
‫آنت‬ ‫آنرا‬ ‫توانیم‬ ‫می‬ ،‫باشد‬ ‫شده‬ ‫مشخص‬ ‫لغات‬ ‫میان‬ ‫ارتباطات‬ ‫تمام‬ ‫آن‬ ‫در‬ ‫که‬ ‫باشیم‬ ‫داشته‬ ‫تزاروسی‬ ‫ما‬ ‫اگر‬‫این‬ ‫ولوژی‬
‫لغات‬‫بنامیم‬
‫تزاروس‬‫ھ‬‫تن‬ ‫توانند‬ ‫می‬ ‫اکنون‬ ‫ا‬‫ھ‬‫به‬ ‫و‬ ‫شوند‬ ‫ساخته‬ ‫دست‬ ‫ی‬ ‫بوسیله‬ ‫ا‬‫ھ‬‫آن‬ ‫ساخت‬ ‫خاطر‬ ‫مین‬‫ھ‬‫سخ‬ ‫بسیار‬ ‫ا‬‫وقت‬ ‫و‬ ‫ت‬
‫است‬ ‫گیر‬.
‫نهایی‬ ‫هدف‬‫که‬ ‫اینست‬‫هر‬‫کا‬ ‫ی‬ ‫بوسیله‬ ‫است‬ ‫درک‬ ‫قابل‬ ‫بشر‬ ‫توسط‬ ‫که‬ ‫دانشی‬ ‫از‬ ‫ذره‬‫نیز‬ ‫مپیوتر‬
‫شود‬ ‫درک‬.
‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬
‫کاوی‬ ‫متن‬ ‫فرآیند‬
‫دارد‬ ‫وجود‬ ‫کاوی‬ ‫متن‬ ‫در‬ ‫اصلی‬ ‫فاز‬ ‫دو‬:
‫مستندات‬ ‫پردازش‬ ‫پیش‬
‫سند‬ ‫بر‬ ‫مبتنی‬(Document based)
o‫اسناد‬ ‫برای‬ ‫بهتری‬ ‫نمایش‬ ‫ی‬ ‫نحوه‬
o‫ساختیافته‬ ‫نیمه‬ ‫و‬ ‫میانی‬ ‫فرمت‬ ‫یک‬ ‫به‬ ‫اسناد‬ ‫تبدیل‬
o‫هر‬entity‫است‬ ‫سند‬ ‫یک‬ ‫نهایتا‬ ‫نمایش‬ ‫این‬ ‫در‬
‫مبتنی‬‫مفهوم‬ ‫بر‬(Concept based)
‫دانش‬ ‫استخراج‬
•‫سند‬ ‫بر‬ ‫مبتنی‬ ‫نمایش‬:‫و‬ ‫بندی‬ ‫طبقه‬ ،‫بندی‬ ‫گرو‬.....
•‫مفهوم‬ ‫بر‬ ‫مبتنی‬ ‫نمایش‬:‫آنتولوژی‬ ‫اتوماتیک‬ ‫ساختن‬ ‫و‬ ‫مفاهیم‬ ‫میان‬ ‫روابط‬ ‫یافتن‬ ‫برای‬
‫است‬ ‫رشد‬ ‫حال‬ ‫در‬ ‫و‬ ‫جوان‬ ‫دانشی‬ ‫کاوی‬ ‫متن‬.
‫کرد‬ ‫استفاده‬ ‫ها‬ ‫آن‬ ‫از‬ ‫توان‬ ‫می‬ ‫که‬ ‫دارد‬ ‫وجود‬ ‫هایی‬ ‫برنامه‬ ‫کاوی‬ ‫متن‬ ‫برای‬.‫ها‬ ‫برنامه‬ ‫این‬ ‫از‬ ‫برخی‬Open Source
‫هستند‬.
‫عربی‬ ‫کاوی‬ ‫متن‬ ‫های‬ ‫نمونه‬ ‫از‬ ‫یکی‬–‫سایت‬ ‫در‬ ‫فارسی‬labs.noorsoft.org‫کرد‬ ‫استفاده‬ ‫و‬ ‫مشاهده‬ ‫توان‬ ‫می‬.
‫نتیجه‬‫گیری‬
‫منابع‬
 http://en.wikipedia.org/wiki/Text_mining
 http://en.wikipedia.org/wiki/Natural_language_processing
 http://en.wikipedia.org/wiki/Machine_learning
 http://www.itba.ir/
 http://labs.noorsoft.org
 http://textmining.noornet.net

Mais conteúdo relacionado

Semelhante a Text mining

Aliaskari,fayazi resource sharing.markor.. .docx
Aliaskari,fayazi resource sharing.markor.. .docxAliaskari,fayazi resource sharing.markor.. .docx
Aliaskari,fayazi resource sharing.markor.. .docxfahime aliaskari
 
Data-Centered Architecture: Blackboard Architecture Style
Data-Centered Architecture: Blackboard Architecture StyleData-Centered Architecture: Blackboard Architecture Style
Data-Centered Architecture: Blackboard Architecture StyleMohammad Kadkhodaei
 
Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi
Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimiAclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi
Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimiAlireza Karimi
 
داده، dikw ، داده بزرگ و علم داده
داده، dikw ، داده بزرگ و علم دادهداده، dikw ، داده بزرگ و علم داده
داده، dikw ، داده بزرگ و علم دادهfatemeh zatajam
 
ارزیابی بانکهای اطلاعاتی
ارزیابی بانکهای اطلاعاتیارزیابی بانکهای اطلاعاتی
ارزیابی بانکهای اطلاعاتیShahid Beheshti University
 
Learn.network
Learn.networkLearn.network
Learn.networktarasad
 
انواع تحلیل محتوای کتاب های درسی
انواع تحلیل محتوای کتاب های درسیانواع تحلیل محتوای کتاب های درسی
انواع تحلیل محتوای کتاب های درسیmohammad nourian
 
Instructions for Big data analysis and modelling
Instructions for Big data analysis and modellingInstructions for Big data analysis and modelling
Instructions for Big data analysis and modellingkeivan mahdavi
 
Searching techniq farsi
Searching techniq farsiSearching techniq farsi
Searching techniq farsiMina Haqiqi
 
آموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایع
آموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایعآموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایع
آموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایعSiamak H. Mehrabani
 

Semelhante a Text mining (20)

+ Ontology 07 01 1398
+ Ontology 07 01 1398+ Ontology 07 01 1398
+ Ontology 07 01 1398
 
+ Ontology 07 01 1398
+ Ontology 07 01 1398+ Ontology 07 01 1398
+ Ontology 07 01 1398
 
Ontology-FereshteMohsenian
Ontology-FereshteMohsenianOntology-FereshteMohsenian
Ontology-FereshteMohsenian
 
Aliaskari,fayazi resource sharing.markor.. .docx
Aliaskari,fayazi resource sharing.markor.. .docxAliaskari,fayazi resource sharing.markor.. .docx
Aliaskari,fayazi resource sharing.markor.. .docx
 
Voic maning
Voic maningVoic maning
Voic maning
 
نمایش دانش
نمایش دانشنمایش دانش
نمایش دانش
 
Data-Centered Architecture: Blackboard Architecture Style
Data-Centered Architecture: Blackboard Architecture StyleData-Centered Architecture: Blackboard Architecture Style
Data-Centered Architecture: Blackboard Architecture Style
 
روش تحقیق کیفی
روش تحقیق کیفیروش تحقیق کیفی
روش تحقیق کیفی
 
Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi
Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimiAclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi
Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi
 
داده، dikw ، داده بزرگ و علم داده
داده، dikw ، داده بزرگ و علم دادهداده، dikw ، داده بزرگ و علم داده
داده، dikw ، داده بزرگ و علم داده
 
ارزیابی بانکهای اطلاعاتی
ارزیابی بانکهای اطلاعاتیارزیابی بانکهای اطلاعاتی
ارزیابی بانکهای اطلاعاتی
 
Learn.network
Learn.networkLearn.network
Learn.network
 
Sql function v03
Sql function v03Sql function v03
Sql function v03
 
CMS
CMSCMS
CMS
 
فناوری اطلاعات
فناوری اطلاعاتفناوری اطلاعات
فناوری اطلاعات
 
Power
PowerPower
Power
 
انواع تحلیل محتوای کتاب های درسی
انواع تحلیل محتوای کتاب های درسیانواع تحلیل محتوای کتاب های درسی
انواع تحلیل محتوای کتاب های درسی
 
Instructions for Big data analysis and modelling
Instructions for Big data analysis and modellingInstructions for Big data analysis and modelling
Instructions for Big data analysis and modelling
 
Searching techniq farsi
Searching techniq farsiSearching techniq farsi
Searching techniq farsi
 
آموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایع
آموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایعآموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایع
آموزش کارآمد علم ارگونومی در برنامه مطالعه مهندسی صنایع
 

Text mining

  • 1. Text Mining ‫کاوی‬ ‫متن‬ ‫کننده‬ ‫ارائه‬:‫توتیا‬ ‫محمد‬
  • 2. ‫مطالب‬ ‫فهرست‬ .1‫مقدمه‬ .2‫تعاریف‬ .3‫کاوی‬ ‫متن‬ ‫های‬ ‫کاربرد‬ .4‫کاوی‬ ‫متن‬ ‫فرآیند‬ .5‫بعدی‬ ‫کارهای‬ ‫و‬ ‫گیری‬ ‫نتیجه‬ .6‫منابع‬
  • 3. ‫مقدمه‬ ‫ولی‬ ‫بشوند‬ ‫قدرت‬ ‫آمدن‬ ‫وجود‬ ‫به‬ ‫باعث‬ ‫توانند‬ ‫می‬ ‫اطالعات‬ ‫که‬ ‫است‬ ‫الزم‬ ‫اطالعات‬ ‫از‬ ‫دانش‬ ‫دریافت‬ ‫برای‬: ‫درک‬+‫پردازش‬ ‫مفاهیم‬ ‫و‬ ‫معانی‬ ‫مفاهیم‬ ‫میان‬ ‫ارتباط‬ ‫جدید‬ ‫و‬ ‫قدیمی‬ ‫مفاهی‬ ‫حتی‬ ‫شود‬ ‫انجام‬ ‫اتوماتیک‬ ‫با‬ ‫کارها‬ ‫تمام‬ ‫حاضر‬ ‫عصر‬ ‫در‬«‫متن‬ ‫معنی‬ ‫درک‬»
  • 4. ‫نام‬ ‫به‬ ‫جدید‬ ‫علمی‬‫کاوی‬ ‫متن‬(Text Mining)‫آید‬ ‫می‬ ‫وجود‬ ‫به‬. •‫متنی‬ ‫های‬ ‫داده‬ ‫کاوش‬(Text data Mining) •‫متن‬ ‫در‬ ‫دانش‬ ‫کشف‬(Knowledge Discovery in Text)‫یا‬ ‫و‬KDT ‫مقدمه‬ ‫دارد‬ ‫وجود‬ ‫رویکرد‬ ‫دو‬ ‫کاوی‬ ‫متن‬ ‫های‬ ‫مرز‬ ‫تعریف‬ ‫برای‬: .i‫کاوی‬ ‫داده‬ ‫پیشینه‬ ‫دارای‬ ‫افراد‬ .ii‫محاسباتی‬ ‫زبانشناسان‬ ‫جامعه‬(Computational linguistics community)
  • 5. ‫تعاریف‬ ‫توان‬ ‫می‬ ‫اطالعات‬ ‫اين‬ ‫از‬ ‫که‬ ‫است‬ ‫دانشی‬ ‫کمبود‬ ‫بلکه‬ ‫است‬ ‫مسئله‬ ‫که‬ ‫نیست‬ ‫اطالعات‬ ‫کمبود‬ ‫اين‬ ‫کنونی‬ ‫دنیای‬ ‫در‬‫حاصل‬‫کرد‬. ‫دانش‬‫فکر‬ ‫حاصل‬ ‫و‬ ‫گیری‬ ‫نتیجه‬ ‫نیز‬ ‫و‬ ‫است‬ ‫اطالعات‬ ‫ی‬ ‫خالصه‬‫تحلیل‬ ‫و‬‫روی‬ ‫بر‬‫اطال‬‫عات‬.
  • 6. ‫تعاریف‬:‫کاوی‬ ‫داده‬ ‫بر‬ ‫گذری‬(Data Mining) ‫داده‬ ‫از‬ ‫اطالعات‬ ‫کشف‬ ‫برای‬ ‫کاراست‬ ‫بسیار‬ ‫روش‬ ‫یک‬ ،‫کاوی‬ ‫داده‬‫ساخت‬ ‫های‬‫یافته‬‫جداول‬ ‫در‬ ‫که‬ ‫ای‬‫نگهداری‬‫شوند‬ ‫می‬. ‫مشکل‬: ‫است‬ ‫محدود‬ ‫بسیار‬ ‫ما‬ ‫يافته‬ ‫ساخت‬ ‫اطالعاتی‬ ‫منابع‬. ، ‫الکترونیکی‬ ‫کتابهای‬ ، ‫اخبار‬ ، ‫دیجیتال‬ ‫های‬ ‫کتابخانه‬‫مدارک‬ ‫از‬ ‫بسیاری‬، ‫مالی‬‫و‬ ‫علمی‬ ‫مقاالت‬... ‫نیافته‬ ‫ساخت‬ ‫اطالعات‬ ‫با‬ ‫برخورد‬ ‫روش‬ ‫سه‬: ‫اطالعات‬ ‫بازیابی‬(Information Retrieval) ‫اطالعات‬ ‫استخراج‬(Information Extraction) ‫متن‬ ‫در‬ ‫دانش‬ ‫کشف‬
  • 7. A:‫بارانی‬ ‫مناطق‬ B:‫برنج‬ ‫کشت‬ A -> B:‫دارد‬ ‫نیاز‬ ‫بارانی‬ ‫مناطق‬ ‫به‬ ‫برنج‬ ‫کشت‬. C:‫کشور‬ ‫شمال‬ ‫مناطق‬ A -> C:‫هستند‬ ‫بارانی‬ ‫مناطق‬ ‫کشور‬ ‫شمال‬ ‫مناطق‬. B -> C:‫دارند‬ ‫برنج‬ ‫کشت‬ ‫قابلیت‬ ‫کشور‬ ‫شمال‬ ‫مناطق‬. ‫تعاریف‬
  • 8. ‫کاوی‬ ‫متن‬ ‫های‬ ‫کاربرد‬ ‫گوناگون‬ ‫تعاریف‬=‫گوناگون‬ ‫های‬ ‫کاربرد‬ ‫ها‬ ‫کاربرد‬: ‫بازیابی‬ ‫و‬ ‫جستجو‬ ‫گروه‬‫بندی‬(Clustering)‫دسته‬‫بدون‬ ‫بندی‬‫نظارت‬(Unsupervised Classification)‫و‬‫طبقه‬‫بندی‬(Categorization) ‫سازی‬ ‫خالصه‬ ‫روابط‬ ‫استخراج‬ ‫تحلیل‬ ‫و‬ ‫یافتن‬‫ترندها‬(Trend) ‫برچسب‬‫زدن‬‫نحوی‬(Part of Speech tagging) ‫آنتولوژی‬ ‫اتوماتیک‬ ‫ساخت‬(Ontology)‫تزاروس‬ ‫و‬(Thesaurus) ....
  • 9. ‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬ ‫کاوی‬ ‫متن‬ ‫وسیله‬ ‫به‬ ‫اطالعات‬ ‫بازیابی‬ ‫و‬ ‫جستجو‬ ‫به‬ ‫جدید‬ ‫رویکردی‬ ‫به‬ ‫وابستگی‬Machin learning‫و‬NLP(Natural language processing) ‫بازیابی‬ ‫و‬ ‫جستجو‬:
  • 10. ‫سازی‬ ‫خالصه‬: ‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬ ‫کند‬ ‫می‬ ‫کمک‬ ‫اطالعات‬ ‫یافتن‬ ‫سریعتر‬ ‫در‬. ‫دارد‬ ‫وجود‬ ‫عمده‬ ‫روش‬ ‫دو‬: ‫ها‬ ‫داده‬ ‫بندی‬ ‫طبقه‬(Categorization) ‫اتوماتیک‬ ‫بصورت‬ ‫کالسها‬ ‫ساخت‬ ‫و‬ ‫ها‬ ‫داده‬ ‫بندی‬ ‫گروه‬(Clustering) ‫ها‬ ‫داده‬ ‫بندی‬ ‫طبقه‬ ‫و‬ ‫بندی‬ ‫گروه‬: ‫ای‬ ‫مجموعه‬ ‫ساختن‬ ‫روند‬ ،‫سازی‬ ‫خالصه‬ ‫از‬ ‫ما‬ ‫منظور‬‫مفاهیم‬‫است‬ ‫متن‬ ‫از‬ ‫ای‬ ‫پایه‬‫تنها‬‫خط‬ ‫چند‬ ‫در‬. ‫شود‬ ‫نمی‬ ‫استخراج‬ ‫متن‬ ‫از‬ ‫جدیدی‬ ‫اطالعات‬ ‫روش‬ ‫این‬ ‫در‬
  • 11. ‫میان‬ ‫روابط‬‫مفاهیم‬: ‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬ ‫جمله‬ ‫از‬‫هایی‬ ‫واقعیت‬‫بعضی‬ ‫وابستگی‬ ‫و‬ ‫ارتباط‬ ،‫دریافت‬ ‫متون‬ ‫مجموعه‬ ‫یک‬ ‫از‬ ‫توان‬ ‫می‬ ‫که‬‫مفاهیم‬ ‫با‬ ‫است‬‫دیگر‬ ‫مفاهیم‬. ‫این‬‫مفهوم‬‫از‬ ‫نیز‬‫کاوی‬ ‫داده‬‫است‬ ‫شده‬ ‫گرفته‬ ‫امانت‬ ‫به‬ ‫دیتابیس‬ ‫در‬. ‫ترند‬ ‫تحلیل‬ ‫و‬ ‫یافتن‬‫ها‬: ‫که‬ ‫میرود‬ ‫انتظار‬ ‫کاوی‬ ‫متن‬ ‫از‬‫آنچ‬ ‫به‬ ‫اخبار‬ ‫از‬ ‫ای‬ ‫گستره‬ ‫میان‬ ‫در‬ ‫اخباری‬ ‫چه‬ ‫بگوید‬ ‫شما‬ ‫به‬‫می‬ ‫ه‬ ‫خواهید‬‫خبر‬ ‫کدام‬ ‫میان‬ ‫این‬ ‫در‬ ‫و‬ ‫است‬ ‫مرتبط‬‫است‬ ‫جدید‬.
  • 12. ‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬ ‫برچسب‬‫زدن‬‫نحوی‬(Part of Speech Tagging: ) ‫سیستم‬GATE‫شفیلد‬ ‫دانشگاه‬ ‫در‬ ‫دانش‬ ‫استخراج‬ ‫تا‬ ‫است‬ ‫اطالعات‬ ‫استخراج‬ ‫شامل‬ ‫بیشتر‬ ‫سیستم‬ ‫این‬
  • 13. ‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬ ‫برچسب‬‫زدن‬‫نحوی‬(Part of Speech Tagging: ) ‫سیستم‬GATE‫شفیلد‬ ‫دانشگاه‬ ‫در‬ ‫دانش‬ ‫استخراج‬ ‫تا‬ ‫است‬ ‫اطالعات‬ ‫استخراج‬ ‫شامل‬ ‫بیشتر‬ ‫سیستم‬ ‫این‬
  • 14. ‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬ ‫اتوماتیک‬ ‫صورت‬ ‫به‬ ‫آنتولوژی‬ ‫و‬ ‫تزاروس‬ ‫ایجاد‬ ‫میان‬ ‫ی‬ ‫رابطه‬ ‫و‬ ‫تعاریفشان‬ ‫ی‬ ‫اضافه‬ ‫به‬ ‫لغات‬ ‫از‬ ‫است‬ ‫ای‬ ‫مجموعه‬ ،‫تزاروس‬‫ها‬ ‫آن‬. ‫آنت‬ ‫آنرا‬ ‫توانیم‬ ‫می‬ ،‫باشد‬ ‫شده‬ ‫مشخص‬ ‫لغات‬ ‫میان‬ ‫ارتباطات‬ ‫تمام‬ ‫آن‬ ‫در‬ ‫که‬ ‫باشیم‬ ‫داشته‬ ‫تزاروسی‬ ‫ما‬ ‫اگر‬‫این‬ ‫ولوژی‬ ‫لغات‬‫بنامیم‬ ‫تزاروس‬‫ھ‬‫تن‬ ‫توانند‬ ‫می‬ ‫اکنون‬ ‫ا‬‫ھ‬‫به‬ ‫و‬ ‫شوند‬ ‫ساخته‬ ‫دست‬ ‫ی‬ ‫بوسیله‬ ‫ا‬‫ھ‬‫آن‬ ‫ساخت‬ ‫خاطر‬ ‫مین‬‫ھ‬‫سخ‬ ‫بسیار‬ ‫ا‬‫وقت‬ ‫و‬ ‫ت‬ ‫است‬ ‫گیر‬.
  • 15. ‫نهایی‬ ‫هدف‬‫که‬ ‫اینست‬‫هر‬‫کا‬ ‫ی‬ ‫بوسیله‬ ‫است‬ ‫درک‬ ‫قابل‬ ‫بشر‬ ‫توسط‬ ‫که‬ ‫دانشی‬ ‫از‬ ‫ذره‬‫نیز‬ ‫مپیوتر‬ ‫شود‬ ‫درک‬. ‫های‬ ‫کاربرد‬‫کاوی‬ ‫متن‬
  • 16. ‫کاوی‬ ‫متن‬ ‫فرآیند‬ ‫دارد‬ ‫وجود‬ ‫کاوی‬ ‫متن‬ ‫در‬ ‫اصلی‬ ‫فاز‬ ‫دو‬: ‫مستندات‬ ‫پردازش‬ ‫پیش‬ ‫سند‬ ‫بر‬ ‫مبتنی‬(Document based) o‫اسناد‬ ‫برای‬ ‫بهتری‬ ‫نمایش‬ ‫ی‬ ‫نحوه‬ o‫ساختیافته‬ ‫نیمه‬ ‫و‬ ‫میانی‬ ‫فرمت‬ ‫یک‬ ‫به‬ ‫اسناد‬ ‫تبدیل‬ o‫هر‬entity‫است‬ ‫سند‬ ‫یک‬ ‫نهایتا‬ ‫نمایش‬ ‫این‬ ‫در‬ ‫مبتنی‬‫مفهوم‬ ‫بر‬(Concept based) ‫دانش‬ ‫استخراج‬ •‫سند‬ ‫بر‬ ‫مبتنی‬ ‫نمایش‬:‫و‬ ‫بندی‬ ‫طبقه‬ ،‫بندی‬ ‫گرو‬..... •‫مفهوم‬ ‫بر‬ ‫مبتنی‬ ‫نمایش‬:‫آنتولوژی‬ ‫اتوماتیک‬ ‫ساختن‬ ‫و‬ ‫مفاهیم‬ ‫میان‬ ‫روابط‬ ‫یافتن‬ ‫برای‬
  • 17. ‫است‬ ‫رشد‬ ‫حال‬ ‫در‬ ‫و‬ ‫جوان‬ ‫دانشی‬ ‫کاوی‬ ‫متن‬. ‫کرد‬ ‫استفاده‬ ‫ها‬ ‫آن‬ ‫از‬ ‫توان‬ ‫می‬ ‫که‬ ‫دارد‬ ‫وجود‬ ‫هایی‬ ‫برنامه‬ ‫کاوی‬ ‫متن‬ ‫برای‬.‫ها‬ ‫برنامه‬ ‫این‬ ‫از‬ ‫برخی‬Open Source ‫هستند‬. ‫عربی‬ ‫کاوی‬ ‫متن‬ ‫های‬ ‫نمونه‬ ‫از‬ ‫یکی‬–‫سایت‬ ‫در‬ ‫فارسی‬labs.noorsoft.org‫کرد‬ ‫استفاده‬ ‫و‬ ‫مشاهده‬ ‫توان‬ ‫می‬. ‫نتیجه‬‫گیری‬
  • 18. ‫منابع‬  http://en.wikipedia.org/wiki/Text_mining  http://en.wikipedia.org/wiki/Natural_language_processing  http://en.wikipedia.org/wiki/Machine_learning  http://www.itba.ir/  http://labs.noorsoft.org  http://textmining.noornet.net