ارائه مدلی ترکیبی جهت خوشه بندی و تشخیص داده های پرت در داده های جریانی

حمید سعادت فر,میثم خادم

نویسندگان	حمید سعادت فر,میثم خادم
همایش	ششمین کنفرانس ملی پژوهش های کاربردی در مهندسی برق، مکانیک و مکاترونیک
تاریخ برگزاری همایش	۲۰۲۰-۰۹-۲۰
محل برگزاری همایش	تهران
شماره صفحات	۰-۰
نوع ارائه	سخنرانی
سطح همایش	داخلی

چکیده مقاله

امروزه با توجه به افزایش روزافزون دادههای جریانی، خوشهبندی این نوع از دادهها جهت استخراج دانش و تصمیمگیری به موقع تبدیل به یکی از مباحث داغ تحقیقاتی شده است. در این راستا خوشهبندی به عنوان یک رویکرد یادگیری بدون ناظر، میتواند در شناسایی الگو و استخراج دانش از چنین دادههایی موثر واقع شود. خوشهبندی به خودی به خود یک وظیفه چالش برانگیز است، حال با توجه به ماهیت در حال گذر بودن دادههای جریانی و محدودیت دسترسی به آنها و همچنین لزوم واکنش سریع و به موقع، این وظیفه با چالشهای جدیدی روبروست. از یک سو با توجه به این حقیقت که این نوع از دادهها نامتناهی بوده و به سرعت در حال تغییرند، میبایست خوشهبندی آنها نیز در گذر زمان و به صورت تکاملی انجام شود. از سوی دیگر وجود دادههای پرتی که میتوانند دقت یادگیری را تحت تأثیر خود قرار دهند و منجر به تصمیمگیریهای نادرست شوند، تشخیص خوشههای درست را قدری دشوار میسازد. در این راستا، الگوریتمهای متنوعی در حوزهی خوشه- بندی و همچنین تشخیص دادههای پرت در دادههای جریانی مطرح شده است. اغلب این الگوریتمها به صورت آنلاین (برخط) و با رویکردهای مبتنی بر فاصله به تشخیص دادههای پرت میپردازند. با توجه به اهمیت موضوع در مقاله جاری سعی شده است تا با رویکردی ترکیبی ضمن خوشهبندی دادهها توسط الگوریتم k-means و تشخیص دادههای پرت کاندید به صورت برخط، بار دیگر دادههای پرت به صورت غیربرخط (آفلاین) غربالگری شده و در نهایت دادههای پرت باقیمانده به عنوان دادههای پرت واقعی گزارش شوند. الگوریتم پیشنهادی بر روی مجموعه دادههای استاندارد KDD-CUP99 (که دربردارنده‌ی اطلاعات برچسب خوردهای در ارتباط با وضعیت عادی و وضعیت حمله در شبکه هستند) اعمال شده است. نتایج تحقیقات حاکی از این است که رویکرد پیشنهادی نسبت به رویکردهایی که اخیراً در این حوزه مطرح شده است دارای دقت تشخیص بالاتر بوده و خوشههای بدست آمده دارای خلوص بالاتری هستند. علاوه براین، تحلیلها نشان میدهند روش پیشنهادی از سرعت بالاتری نیز نسبت به رویکردهای مشابه برخوردار است.

لینک ثابت مقاله

کلید واژه ها: داده‌های جریانی، خوشه بندی، k-means، داده‌های پرت