کاهش فضای جستجو برای بازشناسی زیرکلمات تایپی فارسی با استفاده از ویژگی‌های ساده، کوانتیزاسیون ویژگی و ترکیب طبقه‌بندها

نویسندگانسیدمحمد رضوی,اسماعیل میری,ناصر مهرشاد
نشریهرایانش نرم و فناوری اطلاعات-Journal of Soft Computing and Information Technology
شماره صفحات۶۱-۷۳
شماره سریال۹
شماره مجلد۲
نوع مقالهFull Paper
تاریخ انتشار۲۰۲۰
رتبه نشریهعلمی - پژوهشی
نوع نشریهچاپی
کشور محل چاپایران
نمایه نشریهisc

چکیده مقاله

در این مقاله روشی برای کاهش فضای جستجو در بازشناسی زیرکلمات چاپی فارسی ارائه می‌شود. ابتدا 10 ویژگی ساده از زیرکلمه استخراج می‌شود. با استفاده از مفهوم کوانتیزاسیون و با توجه به بازه تغییرات هر ویژگی روی همه داده‌های آموزشی ویژگی‌ها کوانتیزه شده و به اعداد صحیحی تبدیل می‌شوند. با استفاده از هر ویژگی و فاصله آن تا ویژگی متناظر هر کدام از نمونه‌های آموزشی، به هر کلاس امتیازی داده می‌شود. با اعمال همه ویژگی‌ها، هر کلاس به ازای هر ویژگی یک امتیاز دارد که با ترکیب این امتیازات با اعمال جبری یک امتیاز نهایی برای هر زیرکلمه بدست می‌آید که با مرتب کردن آنها و انتخاب تعدادی از آنها که امتیاز بیشتری دارند، فضای جستجو محدود می‌شود. از اعمال جبری جمع، ضرب، بیشینه، کمینه و جمع وزن‌دار برای ترکیب امتیازات استفاده شده است. روش جمع وزن دار، که وزن‌های بهینه با الگوریتم بهینه‌سازی جمعیت ذرات تعیین شده‌اند، بهترین پاسخ را داده است. In this paper, a method is presented for search space reduction in Farsi Printed Sub words recognition. First 10 simple features from sub word are extracted. By using the concept of quantization, These features are quantized according to the interval changes of each feature in training data, and are converted to integers. A score is given to every class, using each feature and its distance to corresponding feature of each training sample. By applying all features, each class has a score per feature. A final score is obtained, by fusion of these scores using algebra operations, for each class. Search space is reduced using sorting of final scores and selection of some sub words with more scores. For fusion of scores, sum, prod, max, min and weighted sum operations are used. The weighted sum method, which Optimized weights are obtained by particle swarm optimization (PSO), has given the best response.

لینک ثابت مقاله

tags: بازشناسی زیرکلمات فارسی، بهینه‌سازی جمعیت ذرات، ترکیب طبقه‌بندها، کاهش فضای جستجو، کوانتیزاسیون ویژگی Farsi Subwords Recognition, Particle Swarm Optimization (PSO), Fusion of Classifiers, Search Space Reduction, Feature Quantization