زارع،مهدي

عنوان

ارائه روش ماشين‌هاي بردار پشتيبان آبشاري جهت طبقه‌بندي متون نامتوازن

عنوان به انگليسي

Developing a Cascading SVMs Approach for Imbalanced Text Classification

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

كامپيوتر

محل تحصيل

تهران شمال

سال تحصيل

1398

تاريخ دفاع

98/4/18

وضعيت پايان نامه

17/5

مشخصات ظاهري

76ص،

استاد راهنما

فراهي، احمد

توصيفگر فارسي

متن‌كاوي , طبقه بندي , داده‌هاي نامتوازن

توصيفگر لاتين

classification , text mining , data imbalanced

چكيده

درصد بالايي از داده‌هاي سازمان‌ها به‌صورت متني هستند. تعداد زيادي از منابع اطلاع‌رساني آنلاين نيز در فرمت متني هستند. با توجه به توسعه سريع و گسترش اينترنت، انواع متون كوتاه همچون جست و جوي وب، پيام‌هاي چت، نظرات، به‌روزرساني وضعيت، توييتر، خبرنامه، كتاب، خلاصه فيلم و بررسي در حال توليد شدن است. اين متون معمولاً بدون ساختار است و به‌صورت مكالمه كوتاه، متشكل از جملات كوتاه چندگانه است. طبقه‌بندي متن كوتاه اهميت زيادي براي اهداف و برنامه‌هاي مختلف دارد، مانند فيلتر كردن نظرات توهين آميز يا ارزيابي رضايت مشتريان با يك محصول خاص. ابزارهايي كه به صورت خودكار اسناد را به دسته‌هاي شناخته شده تقسيم مي‌كند، يك زمينه جذاب از طبقه‌بندي متن است. از آنجايي كه متون كوتاه داراي يك بردار ويژگي ضعيف و عدم تعادل كلاس هستند، نمي‌توان با دقت خوب با استفاده از تكنيك‌هاي استاندارد طبقه‌بندي كرد. در واقع به يك مجموعه داده نامتوازن مي گويند كه در آن دسته بندي‌هاي مختلف طبقه‌بندي به‌طور يكسان نمايش داده نمي‌شوند. يك كلاس كه شامل بسياري از نمونه‌ها است، به‌عنوان «كلاس اكثريت» ناميده مي‌شود و برعكس كلاس‌هايي كه نمونه‌هاي بسيار كمي دارند به‌عنوان «كلاس اقليت» شناخته مي‌شود. هنگام انجام طبقه‌بندي در يك مجموعه داده‌هاي نامتوازن، طبقه‌بندي تمايل دارد كه سطح بالايي از دقت را براي كلاس اكثريت به دست آورد، اما دقت كمتري براي اقليت‌ها دارد. اين به اين دليل است كه اكثر الگوريتم‌هاي طبقه‌بندي بر حداكثر كردن دقت كلي، بدون در نظر گرفتن دقت هر كلاس تمركز مي‌كنند. تاكنون پژوهش‌هاي متعددي درباره حل اين معضل انجام شده كه برخي از آنان هم در زمينه متون نامتوازن تمركز داشته‌اند. محققان تاكنون روش‌هاي مختلفي را براي اين مسئله پيشنهاد داده‌اند كه در چهار سطح با اين مشكل برخورد مي‌كند: در سطح داده، در سطح الگوريتم، با ايجاد هزينه براي طبقه بندي و روش‌هاي تركيب الگوريتم‌ها. در روش‌هاي موسوم به تركيب، سعي مي‌شود كه با تركيب الگوريتم‌ها از چند طبقه بند ضعيف يك طبقه بند قوي بسازند يا از يك طبقه بند با تكرارهاي متوالي استفاده كنند كه روش‌هاي Boosting و Bagging و زيرمجموعه‌هاي آنان از مهم‌ترين اقدامات در اين حوزه مي‌باشند. محدوديت‌هايي در مورد استفاده از روش‌هاي تركيب در حوزه طبقه بندي متني مبتني بر ماشين بردار پشتيبان وجود دارد كه در فصول دوم و سوم به آن اشاره مي‌شود؛ لذا ما در اين تحقيق بر آن شديم تا روشي كارآمد را برمبناي روش‌هاي تركيب و با استفاده از الگوريتم‌هاي خانواده ماشين بردار پشتيبان براي داده‌هاي نامتوازن متني ارائه كنيم. ما براي ارزيابي اين روش، آن را روي ديتاستي شامل داده‌هاي متني فارسي كه پژوهشگران همين تحقيق از كانال‌هاي نرم‌افزار تلگرام استخراج شده است، آزموده و نتايج به دست آمده را تحليل نموديم. همچنين از يك ديتاست به زبان انگليسي نيز كه از منابع باز تهيه شده استفاده كرده و در نهايت نتايج حاصل را مقايسه نموديم.

شماره ركورد

57480

لينک به اين مدرک :

https://lib.pnu.ac.ir/dL/search/default.aspx?Term=57480&Field=0&DTC=7