-
شماره راهنما
891
-
پديد آورنده
زارع،مهدي
-
عنوان
ارائه روش ماشينهاي بردار پشتيبان آبشاري جهت طبقهبندي متون نامتوازن
-
عنوان به انگليسي
Developing a Cascading SVMs Approach for Imbalanced Text Classification
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
كامپيوتر
-
محل تحصيل
تهران شمال
-
سال تحصيل
1398
-
تاريخ دفاع
98/4/18
-
وضعيت پايان نامه
17/5
-
مشخصات ظاهري
76ص،
-
استاد راهنما
فراهي، احمد
-
توصيفگر فارسي
متنكاوي , طبقه بندي , دادههاي نامتوازن
-
توصيفگر لاتين
classification , text mining , data imbalanced
-
چكيده
درصد بالايي از دادههاي سازمانها بهصورت متني هستند. تعداد زيادي از منابع اطلاعرساني آنلاين نيز در فرمت متني هستند. با توجه به توسعه سريع و گسترش اينترنت، انواع متون كوتاه همچون جست و جوي وب، پيامهاي چت، نظرات، بهروزرساني وضعيت، توييتر، خبرنامه، كتاب، خلاصه فيلم و بررسي در حال توليد شدن است. اين متون معمولاً بدون ساختار است و بهصورت مكالمه كوتاه، متشكل از جملات كوتاه چندگانه است. طبقهبندي متن كوتاه اهميت زيادي براي اهداف و برنامههاي مختلف دارد، مانند فيلتر كردن نظرات توهين آميز يا ارزيابي رضايت مشتريان با يك محصول خاص. ابزارهايي كه به صورت خودكار اسناد را به دستههاي شناخته شده تقسيم ميكند، يك زمينه جذاب از طبقهبندي متن است. از آنجايي كه متون كوتاه داراي يك بردار ويژگي ضعيف و عدم تعادل كلاس هستند، نميتوان با دقت خوب با استفاده از تكنيكهاي استاندارد طبقهبندي كرد. در واقع به يك مجموعه داده نامتوازن مي گويند كه در آن دسته بنديهاي مختلف طبقهبندي بهطور يكسان نمايش داده نميشوند. يك كلاس كه شامل بسياري از نمونهها است، بهعنوان «كلاس اكثريت» ناميده ميشود و برعكس كلاسهايي كه نمونههاي بسيار كمي دارند بهعنوان «كلاس اقليت» شناخته ميشود. هنگام انجام طبقهبندي در يك مجموعه دادههاي نامتوازن، طبقهبندي تمايل دارد كه سطح بالايي از دقت را براي كلاس اكثريت به دست آورد، اما دقت كمتري براي اقليتها دارد. اين به اين دليل است كه اكثر الگوريتمهاي طبقهبندي بر حداكثر كردن دقت كلي، بدون در نظر گرفتن دقت هر كلاس تمركز ميكنند. تاكنون پژوهشهاي متعددي درباره حل اين معضل انجام شده كه برخي از آنان هم در زمينه متون نامتوازن تمركز داشتهاند. محققان تاكنون روشهاي مختلفي را براي اين مسئله پيشنهاد دادهاند كه در چهار سطح با اين مشكل برخورد ميكند: در سطح داده، در سطح الگوريتم، با ايجاد هزينه براي طبقه بندي و روشهاي تركيب الگوريتمها. در روشهاي موسوم به تركيب، سعي ميشود كه با تركيب الگوريتمها از چند طبقه بند ضعيف يك طبقه بند قوي بسازند يا از يك طبقه بند با تكرارهاي متوالي استفاده كنند كه روشهاي Boosting و Bagging و زيرمجموعههاي آنان از مهمترين اقدامات در اين حوزه ميباشند. محدوديتهايي در مورد استفاده از روشهاي تركيب در حوزه طبقه بندي متني مبتني بر ماشين بردار پشتيبان وجود دارد كه در فصول دوم و سوم به آن اشاره ميشود؛ لذا ما در اين تحقيق بر آن شديم تا روشي كارآمد را برمبناي روشهاي تركيب و با استفاده از الگوريتمهاي خانواده ماشين بردار پشتيبان براي دادههاي نامتوازن متني ارائه كنيم. ما براي ارزيابي اين روش، آن را روي ديتاستي شامل دادههاي متني فارسي كه پژوهشگران همين تحقيق از كانالهاي نرمافزار تلگرام استخراج شده است، آزموده و نتايج به دست آمده را تحليل نموديم. همچنين از يك ديتاست به زبان انگليسي نيز كه از منابع باز تهيه شده استفاده كرده و در نهايت نتايج حاصل را مقايسه نموديم.
-
شماره ركورد
57480
-
لينک به اين مدرک :