ارائه یک تکنیک oversampling نوین مبتنی بر چگالی در مجموعه داده های نامتعادل

نویسندگانحمید سعادت فر,سیما میابادی
همایشسومین کنفرانس ملی پژوهش‌های نوین در مهندسی و علوم کاربردی
تاریخ برگزاری همایش۲۰۲۱-۰۹-۰۶
محل برگزاری همایشبروجرد
شماره صفحات۰-۰
نوع ارائهسخنرانی
سطح همایشداخلی

چکیده مقاله

چکیده : مجموعه دادهای را نامتعادل گویند که اختلاف میان تعداد نمونه های موجود در یک کلاس نسبت به دیگر کلاس ها دارای اختلافی چشمگیر باشد. این مجموعه دارای دو کلاس اکثریت و اقلیت می باشد. این اختلاف باعث اختلال در روند یادگیری داده ها شده و الگوریتم های یادگیری را به سمت مدل سازی کلاس اکثریت سوق می دهد. این مشکل هنگامی که داده ها همپوشانی داشته باشند، پیچیده تر می شود. برای مقابل با عدم تعادل از دو رویکرد undersampling و oversampling بهره گرفته می شود. رویکرد oversampling داده های جدید برای کلاس اقلیت ایجاد می کند تا مجموعه داده به تعادل برسد. این مقاله یک الگوریتم مبتنی بر چگالی که از تکنیک oversampling بهره می برد را ارائه می کند. این الگوریتم علاوه بر تلاش برای رسیدن به تعادل با ایجاد داده های جدید، همپوشانی بین دو کلاس را نیز حذف می کند. برای ارزیابی الگوریتم پیشنهادی، 14 مجموعه داده نامتعادل که طیف گسترده ای از سناریوهای موجود را شامل می شوند، بر روی الگوریتم پیشنهادی و الگوریتم های مشهور و پرکاربرد در این حوزه اجرا شده و با استفاده از طبقه بند svm مورد ارزیابی قرار گرفته شده است. نتایج بدست آمده از این ارزیابی، نشان می دهند که الگوریتم پیشنهادی در دو معیار sensitivity و f1_score نتایج بهتری نسبت به دیگر روش ها داشته است.

لینک ثابت مقاله

کلید واژه ها: مجموعه داده های نامتعادل، بیش نمونه برداری، همپوشانی، چگالی.