کاهش فضای جستجو برای بازشناسی زیرکلمات تایپی فارسی با استفاده از ویژگی‌های ساده، کوانتیزاسیون ویژگی و ترکیب طبقه‌بندها

Authorsسیدمحمد رضوی,اسماعیل میری,ناصر مهرشاد
Journalرایانش نرم و فناوری اطلاعات-Journal of Soft Computing and Information Technology
Page number۶۱-۷۳
Serial number۹
Volume number۲
Paper TypeFull Paper
Published At۲۰۲۰
Journal GradeScientific - research
Journal TypeTypographic
Journal CountryIran, Islamic Republic Of
Journal Indexisc

Abstract

در این مقاله روشی برای کاهش فضای جستجو در بازشناسی زیرکلمات چاپی فارسی ارائه می‌شود. ابتدا 10 ویژگی ساده از زیرکلمه استخراج می‌شود. با استفاده از مفهوم کوانتیزاسیون و با توجه به بازه تغییرات هر ویژگی روی همه داده‌های آموزشی ویژگی‌ها کوانتیزه شده و به اعداد صحیحی تبدیل می‌شوند. با استفاده از هر ویژگی و فاصله آن تا ویژگی متناظر هر کدام از نمونه‌های آموزشی، به هر کلاس امتیازی داده می‌شود. با اعمال همه ویژگی‌ها، هر کلاس به ازای هر ویژگی یک امتیاز دارد که با ترکیب این امتیازات با اعمال جبری یک امتیاز نهایی برای هر زیرکلمه بدست می‌آید که با مرتب کردن آنها و انتخاب تعدادی از آنها که امتیاز بیشتری دارند، فضای جستجو محدود می‌شود. از اعمال جبری جمع، ضرب، بیشینه، کمینه و جمع وزن‌دار برای ترکیب امتیازات استفاده شده است. روش جمع وزن دار، که وزن‌های بهینه با الگوریتم بهینه‌سازی جمعیت ذرات تعیین شده‌اند، بهترین پاسخ را داده است. In this paper, a method is presented for search space reduction in Farsi Printed Sub words recognition. First 10 simple features from sub word are extracted. By using the concept of quantization, These features are quantized according to the interval changes of each feature in training data, and are converted to integers. A score is given to every class, using each feature and its distance to corresponding feature of each training sample. By applying all features, each class has a score per feature. A final score is obtained, by fusion of these scores using algebra operations, for each class. Search space is reduced using sorting of final scores and selection of some sub words with more scores. For fusion of scores, sum, prod, max, min and weighted sum operations are used. The weighted sum method, which Optimized weights are obtained by particle swarm optimization (PSO), has given the best response.

Paper URL

tags: بازشناسی زیرکلمات فارسی، بهینه‌سازی جمعیت ذرات، ترکیب طبقه‌بندها، کاهش فضای جستجو، کوانتیزاسیون ویژگی Farsi Subwords Recognition, Particle Swarm Optimization (PSO), Fusion of Classifiers, Search Space Reduction, Feature Quantization