کاهش فضای جستجو در بازشناسی زیر کلمات تایپی فارسی با استفاده از ویژگی‌های زیست‌سنجه مینوشیا

نویسندگانمهران تقی پور گرجی کلائی,امین تیمورپور,سیدمحمد رضوی
نشریهمهندسی برق و الکترونیک ایران
شماره صفحات۱۸۷-۱۹۷
شماره سریال۱۹
شماره مجلد۲
نوع مقالهFull Paper
تاریخ انتشار۲۰۲۲
نوع نشریهالکترونیکی
کشور محل چاپایران
نمایه نشریهisc

چکیده مقاله

با توجه به گسترده بودن زیرکلمات تایپ شده فارسی، یافتن یک زیرکلمه و به تبع آن یک کلمه در یک متن چاپ شده کار بسیار زمانبری خواهد بود. در این مقاله، روشی مبتنی بر نقاط زیستسنجه مینوشیا ارائه شده است که فضای جستجوی زیرکلمات تایپ شده فارسی را به صورت قابل توجهی کاهش میدهد. لذا تعداد نقاط و مختصات مینوشیای انشعابی و انتهایی که دو ویژگی مطرح در حوزه زیستسنجه میباشند، بعنوان ویژگیهایی برای کاهش فضای جستجو در قالب یک روش دو مرحلهای استفاده شدهاند. در گام نخست نقاط مینوشیا از تصویر زیرکلمه استخراج شده و در چهارخوشه که از لحاظ تعداد نقاط به یکدیگر نزدیک هستند دستهبندی میشوند، به این ترتیب فضای جستجو تقریباً نصف خواهد شد. در گام دوم با ایجاد یک مخزن از فواصل اولین تا آخرین نقطه انتهایی برای هر زیرکلمه در هر خوشه و تطبیق فاصله مذکور در تصویر آزمایشی با مخزن، فضای جستجو به مقدار قابل توجهی کاهش مییابد. نتایج بدست آمده از اعمال روش پیشنهادی بر روی تصاویر زیرکلمه موجود در پایگاه داده نشان میدهد، فضای جستجو از 12700 زیرکلمه بطور متوسط حدود 8/98 درصد، با دقت تقریبی بیشتر از 98 درصد کاهش یافته است.

لینک ثابت مقاله

tags: زیرکلمات فارسی، زیستسنجه، فضای جستجو، ویژگی مینوشیا