در دنیای امروزی حجم اطلاعات دیجیتالی به صورت روز افزونی در حال افزایش است. در همین راستا، به جهت مدیریت و بررسی علمی این اطلاعات، نیاز به پردازش هوشمندانه و خودکار این اطلاعات بیش از پیش احساس می شود.

یکی از مهم ترین این پردازش ها که در فناوری اطلاعات و ارتباطات مورد نیاز است، دسته­بندی خودکار این اطلاعات می باشد. دسته بندی در مسائل متنوعی در فناوری اطلاعات به کار گرفته می شود، در مسائلی مانند امنیت اطلاعات، شناسایی نفوزگری در شبکه، دسته بندی کاربران بر اساس اطلاعات شخصی، پردازش تصویر و در واقع شناسایی هر گونه الگو بر اساس نمونه­ها و اطلاعات پیشین. این پردازش می تواند دسته[1]­ی نمونه­های جدید که به مجموعه اطلاعات اضافه می شود را پیش بینی نماید. از این رو در هوش مصنوعی توجه خاصی به توسعه انواع روش­های دسته­بندی هوشمند و خودکار شده است.

 روش­های دسته­بندی

دسته­بندی یکی از مهم­ترین شاخه‌های یادگیری ماشین[2] است. دسته­بندی به پیش ­بینی برچسب دسته[3] نمونه[4] بدون برچسب، بر اساس مجموعه نمونه­های آموزشی برچسب­دار (که قبلا به با کمک یک کارشناس دسته­بندی  شده ­اند) گفته می­ شود. درواقع دسته­بندی روشی است که هدف آن، گروه­بندی اشیا به تعدادی دسته یا گروه می­باشد. در روش‌های دسته­بندی، با بهره گرفتن از اطلاعات بدست آمده از مجموعه نمونه­های آموزشی، از فضای ویژگی­ها[5] به مجموعه برچسب دسته­ها نگاشتی بدست می آید که بر اساس آن، نمونه­های بدون برچسب به یکی از دسته­ها نسبت داده می­ شود.

  • ارزیابی دسته­بند

معیار کارایی نظر­گرفته شده برای یک دسته­بند، ارتباط مستقیمی با کاربرد و ضمینه کار خاص آن دسته­بند دارد. بنابراین در مسائل متفاوت، ممکن است معیار­های

خرید اینترنتی فایل متن کامل :

 

 مقالات و پایان نامه ارشد

 مختلفی برای اندازه ­گیری کارایی الگوریتم در نظر­گرفته شود. همچنین همان طور که مشخص است، یک دسته­بند که بتواند برای همه مسائل موجود بهترین جواب را ارائه دهد، وجود ندارد.

نرخ دسته­بندی[14] یا صحت[15] پرکاربردترین و ساده­ترین معیار اندازه ­گیری کارایی هر دسته­بند است. این معیار برابر است با نسبت تعداد نمونه­های درست دسته­بندی شده به تعداد کل نمونه­ها. براساس این تعریف، نرخ خطای دسته­بندی از رابطه زیر بدست می­آید:

 مقادیر دقت[16] و بازخوانی[17] نیز معیارهای مناسبی برای ارزیابی دسته­بندها می­باشند. که اخیرا برای ارزیابی رقابت[18] بین اشتباه-مثبت[19] و درست-مثبت[20] استفاده می­ شود. در ادامه این معیار­ها معرفی می­ شود.

  • معیاردقت : احتمال مثبت بودن نمونه­هایی که مثبت اعلام شده ­اند.

                  معیار بازخوانی : احتمال مثبت اعلام کردن نمونه­های دسته مثبت.

   معیار اختصاص[21]: احتمال منفی اعلام کردن  نمونه­های دسته منفی.

که در این معیارها، دسته مثبت، دسته مورد بررسی است و دسته منفی به سایر دسته­ها گفته می­ شود.

  • تصدیق متقابل[22]

یک روش برای ارزیابی آماری دسته­بند، تصدق متقابل[5] می­باشد. در این تکنیک برای ارزیابی کارایی دسته­بند، نمونه­ها را به صورت تصادفی به دو گروه که مکمل یکدیگر هستند، تقسیم می­ کنند. با یک گروه سیستم را آموزش داده و با گروه دیگر سیستم آموزش دیده را مورد آزمایش قرار می­دهند. با این کار از تطبیق بیش از حد[23] مدل بر روی داده ­های آموزشی جلوگیری می­ شود و نتایج بدست آمده از ارزیابی، دارای درجه اطمینان بیشتر خواهد بود. برای اطمینان بیشتر از نتایج، تصدیق متقابل در چندین مرحله صورت تکرار شده و در هر مرحله، از تقسیم ­بندی متفاوتی برای نمونه­ها استفاده می­ شود. در پایان از نتایج تمامی تکرار آزمایش­ها میانگین­گیری صورت می­گیرد.

در ادامه روش­های مختلف تطبیق متقابل توضیح داده می­ شود.

  • الگوریتم نزدیک­ترین همسایه
 


 
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...