روش تصمیم گیری دسته جمعی جهت بهبود عملکرد الگوریتم نزدیکترین همسایه |
در دنیای امروزی حجم اطلاعات دیجیتالی به صورت روز افزونی در حال افزایش است. در همین راستا، به جهت مدیریت و بررسی علمی این اطلاعات، نیاز به پردازش هوشمندانه و خودکار این اطلاعات بیش از پیش احساس می شود.
یکی از مهم ترین این پردازش ها که در فناوری اطلاعات و ارتباطات مورد نیاز است، دستهبندی خودکار این اطلاعات می باشد. دسته بندی در مسائل متنوعی در فناوری اطلاعات به کار گرفته می شود، در مسائلی مانند امنیت اطلاعات، شناسایی نفوزگری در شبکه، دسته بندی کاربران بر اساس اطلاعات شخصی، پردازش تصویر و در واقع شناسایی هر گونه الگو بر اساس نمونهها و اطلاعات پیشین. این پردازش می تواند دسته[1]ی نمونههای جدید که به مجموعه اطلاعات اضافه می شود را پیش بینی نماید. از این رو در هوش مصنوعی توجه خاصی به توسعه انواع روشهای دستهبندی هوشمند و خودکار شده است.
روشهای دستهبندی
دستهبندی یکی از مهمترین شاخههای یادگیری ماشین[2] است. دستهبندی به پیش بینی برچسب دسته[3] نمونه[4] بدون برچسب، بر اساس مجموعه نمونههای آموزشی برچسبدار (که قبلا به با کمک یک کارشناس دستهبندی شده اند) گفته می شود. درواقع دستهبندی روشی است که هدف آن، گروهبندی اشیا به تعدادی دسته یا گروه میباشد. در روشهای دستهبندی، با بهره گرفتن از اطلاعات بدست آمده از مجموعه نمونههای آموزشی، از فضای ویژگیها[5] به مجموعه برچسب دستهها نگاشتی بدست می آید که بر اساس آن، نمونههای بدون برچسب به یکی از دستهها نسبت داده می شود.
- ارزیابی دستهبند
معیار کارایی نظرگرفته شده برای یک دستهبند، ارتباط مستقیمی با کاربرد و ضمینه کار خاص آن دستهبند دارد. بنابراین در مسائل متفاوت، ممکن است معیارهای
خرید اینترنتی فایل متن کامل :
مختلفی برای اندازه گیری کارایی الگوریتم در نظرگرفته شود. همچنین همان طور که مشخص است، یک دستهبند که بتواند برای همه مسائل موجود بهترین جواب را ارائه دهد، وجود ندارد.
نرخ دستهبندی[14] یا صحت[15] پرکاربردترین و سادهترین معیار اندازه گیری کارایی هر دستهبند است. این معیار برابر است با نسبت تعداد نمونههای درست دستهبندی شده به تعداد کل نمونهها. براساس این تعریف، نرخ خطای دستهبندی از رابطه زیر بدست میآید:
مقادیر دقت[16] و بازخوانی[17] نیز معیارهای مناسبی برای ارزیابی دستهبندها میباشند. که اخیرا برای ارزیابی رقابت[18] بین اشتباه-مثبت[19] و درست-مثبت[20] استفاده می شود. در ادامه این معیارها معرفی می شود.
- معیاردقت : احتمال مثبت بودن نمونههایی که مثبت اعلام شده اند.
معیار بازخوانی : احتمال مثبت اعلام کردن نمونههای دسته مثبت.
معیار اختصاص[21]: احتمال منفی اعلام کردن نمونههای دسته منفی.
که در این معیارها، دسته مثبت، دسته مورد بررسی است و دسته منفی به سایر دستهها گفته می شود.
- تصدیق متقابل[22]
یک روش برای ارزیابی آماری دستهبند، تصدق متقابل[5] میباشد. در این تکنیک برای ارزیابی کارایی دستهبند، نمونهها را به صورت تصادفی به دو گروه که مکمل یکدیگر هستند، تقسیم می کنند. با یک گروه سیستم را آموزش داده و با گروه دیگر سیستم آموزش دیده را مورد آزمایش قرار میدهند. با این کار از تطبیق بیش از حد[23] مدل بر روی داده های آموزشی جلوگیری می شود و نتایج بدست آمده از ارزیابی، دارای درجه اطمینان بیشتر خواهد بود. برای اطمینان بیشتر از نتایج، تصدیق متقابل در چندین مرحله صورت تکرار شده و در هر مرحله، از تقسیم بندی متفاوتی برای نمونهها استفاده می شود. در پایان از نتایج تمامی تکرار آزمایشها میانگینگیری صورت میگیرد.
در ادامه روشهای مختلف تطبیق متقابل توضیح داده می شود.
- الگوریتم نزدیکترین همسایه
فرم در حال بارگذاری ...
[جمعه 1400-05-08] [ 06:38:00 ب.ظ ]
|