بهبود کارایی شبکه عصبی کانولووشنال با استفاده از تابع ضرر وزن دار افزایشی برای مقابله با نامتوازنی دسته ای

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشکده برق و کامپیوتر، دانشگاه صنعتی مالک اشتر، تهران، ایران.

2 استادیار، دانشگاه صنعتی مالک اشتر، مجتمع دانشگاهی برق و کامپیوتر،تهران، ایران.

چکیده

باتوجه‌به اینکه بیشتر مسائل دنیای واقعی از ﻗﺒﯿﻞ تشخیص تقلب، شناسایی خطا، ﺗﺸﺨﯿﺺ ﻧﺎﻫﻨﺠﺎری، ﺗﺸﺨﯿﺺ ﭘﺰشکی و تشخیص بدافزار نامتوازن هستند، دسته‌بندی داده‌ﻫﺎ در مسائل ﻧﺎمتوازن ﺑﻪ ﻋﻨﻮان یکی از ﭼﺎﻟﺶ‌ﻫﺎی اصلی در ﺣﻮزه‌ی داده‌ﮐﺎوی، ﻣﻮرد ﺗﻮﺟﻪ ﺑﺴﻴﺎری از ﻣﺤﻘﻘﺎن و ﭘﮋوﻫﺶﮔﺮان ﻗﺮارﮔﺮﻓﺘﻪ اﺳﺖ. در یادگیری نامتوازن، ﻣﻌﻤﻮﻻ ﺗﻌﺪاد ﻧﻤﻮﻧﻪ‌ﻫﺎی یکی از دسته‌ﻫﺎ ﺧﯿلی ﺑﯿﺸﺘﺮ از ﻧﻤﻮﻧﻪﻫﺎی دسته دیگر اﺳﺖ و یا هزینه دسته‌بندی اشتباه در دو دسته متفاوت است. شبکه‌های عصبی کانولووشنال به‌رغم موفقیت‌های چشمگیری که در دسته‌بندی داده‌ها دارند، در مسائل نامتوازن با مشکل مواجه می‌شوند چرا که آن‌ها به‌صورت پیش‌فرض، ﺗﻮزﯾﻊ دسته‌ﻫﺎ را متوازن و هزینه دسته‌بندی را مساوی در ﻧﻈﺮ ﮔﺮﻓﺘﻪ می‌گیرند، ازاین‌رو در دسته‌بندی نامتوازن، نمی‌توان به ﻧﺘﺎﯾﺞ قابل‌قبولی دﺳﺖ ﯾﺎﻓﺖ؛ زﯾﺮا شبکه ﺑﻪ ﺳﻤﺖ ﻧﻤﻮﻧﻪ‌ﻫﺎی آﻣﻮزشی دسته ﺑﺰرگ‌ﺗﺮ ﻣﺘﻤﺎﯾﻞ میﺷﻮد ﮐﻪ اﯾﻦ ﻣﻮﺿﻮع ﺳﺒﺐ اﻓﺰاﯾﺶ ﺗﻌﺪاد ﺧﻄﺎﻫﺎ در تشخیص نمونه‌ﻫﺎی ﻣﺜﺒﺖ می‌ﺷﻮد. یکی از راهکارهای کم‌هزینه برای غلبه بر نامتوازنی داده‌ها در شبکه‌های عصبی کانولوشنال استفاده از تابع ضرر به نفع دسته اقلیت است، در این مقاله تابع ضرری جدیدی معرفی شده‌است که به صورت تدریجی و با پیشرفت آموزش، اهمیت دسته اقلیت را افزایش می‌دهد تا در انتهای آموزش به مقدار مشخص شده برسد و از اهمیت داده‌های دسته اکثریت بکاهد، این امر باعث می‌شود تا هم بتوانیم از قدرت آموزشی همه داده‌ها استفاده کنیم و هم از غلبه داده‌های دسته اکثریت جلوگیری کنیم. نتایج آزمایش روی سه مجموعه‌داده‌ی مصنوعی، تشخیص فعالیت‌های انسان و cifar-10، همگرایی و کارایی روش پیشنهادی را نشان می‌دهند، روش پیشنهادی با روش‌های آدابوست مبتنی بر درخت تصمیم، شبکه کانولوشنال مبتنی بر آنتروپی متقابل و آنتروپی متقابل وزن‌دار، روش SMOTE و روش CNN تجمعی مقایسه شده است. به ترتیب باکسب دقت 6/94، 92/92 و 23/69 در سه مجموعه‌داده (Cifar-10 با نرخ نامتوازنی 5 درصد) توانست از دیگر روش‌ها پیشی بگیرد. و دقت در مجموعه‌داده مصنوعی نسبت به روش سنتی آدابوست مبتنی درخت تصمیم، 72/17 بالاتر است.

کلیدواژه‌ها

موضوعات