Authors | سیدمحمد رضوی,اسماعیل میری,ناصر مهرشاد |
---|---|
Journal | رایانش نرم و فناوری اطلاعات-Journal of Soft Computing and Information Technology |
Page number | ۶۱-۷۳ |
Serial number | ۹ |
Volume number | ۲ |
Paper Type | Full Paper |
Published At | ۲۰۲۰ |
Journal Grade | Scientific - research |
Journal Type | Typographic |
Journal Country | Iran, Islamic Republic Of |
Journal Index | isc |
Abstract
در این مقاله روشی برای کاهش فضای جستجو در بازشناسی زیرکلمات چاپی فارسی ارائه میشود. ابتدا 10 ویژگی ساده از زیرکلمه استخراج میشود. با استفاده از مفهوم کوانتیزاسیون و با توجه به بازه تغییرات هر ویژگی روی همه دادههای آموزشی ویژگیها کوانتیزه شده و به اعداد صحیحی تبدیل میشوند. با استفاده از هر ویژگی و فاصله آن تا ویژگی متناظر هر کدام از نمونههای آموزشی، به هر کلاس امتیازی داده میشود. با اعمال همه ویژگیها، هر کلاس به ازای هر ویژگی یک امتیاز دارد که با ترکیب این امتیازات با اعمال جبری یک امتیاز نهایی برای هر زیرکلمه بدست میآید که با مرتب کردن آنها و انتخاب تعدادی از آنها که امتیاز بیشتری دارند، فضای جستجو محدود میشود. از اعمال جبری جمع، ضرب، بیشینه، کمینه و جمع وزندار برای ترکیب امتیازات استفاده شده است. روش جمع وزن دار، که وزنهای بهینه با الگوریتم بهینهسازی جمعیت ذرات تعیین شدهاند، بهترین پاسخ را داده است. In this paper, a method is presented for search space reduction in Farsi Printed Sub words recognition. First 10 simple features from sub word are extracted. By using the concept of quantization, These features are quantized according to the interval changes of each feature in training data, and are converted to integers. A score is given to every class, using each feature and its distance to corresponding feature of each training sample. By applying all features, each class has a score per feature. A final score is obtained, by fusion of these scores using algebra operations, for each class. Search space is reduced using sorting of final scores and selection of some sub words with more scores. For fusion of scores, sum, prod, max, min and weighted sum operations are used. The weighted sum method, which Optimized weights are obtained by particle swarm optimization (PSO), has given the best response.
tags: بازشناسی زیرکلمات فارسی، بهینهسازی جمعیت ذرات، ترکیب طبقهبندها، کاهش فضای جستجو، کوانتیزاسیون ویژگی Farsi Subwords Recognition, Particle Swarm Optimization (PSO), Fusion of Classifiers, Search Space Reduction, Feature Quantization