تشخیص دست‌نوشتۀ‌ برخط فارسی با استفاده از مدل زبانی و کاهش قوانین نگارش کاربر

مسکنتی, سلمان; کشاورز, احمد

doi:10.18869/acadpub.jsdp.14.2.3

دوره 14، شماره 2 - ( 6-1396 ) جلد 14 شماره 2 صفحات 24-3 | برگشت به فهرست نسخه ها

‎ 10.18869/acadpub.jsdp.14.2.3

Mendeley

Zotero

RefWorks

Maskanati S, Keshavarz A. Online Persian Hand Writing Recognition Using Language Model and Reduction of User Writing Rules. JSDP 2017; 14 (2) :3-24
URL: http://jsdp.rcisp.ac.ir/article-1-428-fa.html

مسکنتی سلمان، کشاورز احمد. تشخیص دست‌نوشتۀ‌ برخط فارسی با استفاده از مدل زبانی و کاهش قوانین نگارش کاربر. پردازش علائم و داده‌ها. 1396; 14 (2) :3-24

URL: http://jsdp.rcisp.ac.ir/article-1-428-fa.html

تشخیص دست‌نوشتۀ‌ برخط فارسی با استفاده از مدل زبانی و کاهش قوانین نگارش کاربر

سلمان مسکنتی

، احمد کشاورز^*

دانشگاه خلیج فارس بوشهر

چکیده: (7497 مشاهده)

پیوسته‌بودن کلمات فارسی و وجود تنوع بسیار زیاد رسم‌الخط این زبان و همچنین شکل‌های متنوع حروف فارسی بسته به محل قرارگیری‌شان در کلمه، تشخیص دست‌نوشته‌های فارسی را به چالش کشانده‌اند. مهم‌ترین اشکال در اغلب روش‌های بازشناسی بی‌توجهی به بافت جمله است که باعث می‌شود در مواردی که کلمه ورودی اشتباه بازشناسی می‌شود، واژه‌ای با ظاهر درست در جمله‌ای نابه‌جا به کار رود. طراحی مدلی که بتواند بافت جمله را به‌خوبی تحلیل کند، مستلزم در‌اختیار‌داشتن منابع زبانی حجیمی است که نمایندۀ خوبی از زبان مورد بازشناسی باشند. در این مقاله روش جدیدی برای بازشناسی کلمات برخط فارسی ارائه شده است که با استفاده از بافت جمله سعی در بهبود بازشناسی دارد. فرآیند بازشناسی معرفی‌شده در این نوشتار به این صورت است که ابتدا علائم و بدنه زیرکلمات دست‌نوشته ورودی تفکیک شده و بدنه هر زیرکلمه و علائم آن مشخص می‌شود؛ سپس علائم زیرکلمات تشخیص داده‌شده و بر اساس آن مجموعه‌ای از واژگان به‌عنوان فرضیه در نظر گرفته می‌شوند؛ به هر فرضیه بر اساس میزان شباهت آن به دست‌نوشته ورودی امتیازی تعلق می‌گیرد و بر اساس امتیاز حاصله محتمل‌ترین فرضیات مشخص می‌شوند. سپس این رویه توسط مدل زبانی برای یافتن فرضیات محتمل‌تر، هدایت می‌شود. نتایج آزمایش‌های به‌عمل‌آمده نشان می‌دهد که کاهش قابل توجهی در نرخ خطای بازشناسی کلمات حاصل شده و کاربر در نگارش ملزم به رعایت محدودیت‌های کمتری است. از طرفی روش پیشنهادی می‌تواند نسبت به روش‌های قبلی با در‌اختیار‌داشتن یک پایگاه داده دست‌نویس محدود، صحت مطلوب‌تری ارائه کند. با به‌کارگیری روش ارائه‌شده، دقت بازشناسی در مرحلۀ‌ اولیه در سطح حروف 9/95% و پس از بازشناسی به‌کمک مدل زبانی دقت بازشناسی به 3/99% ارتقا یافت. برای بهبود عملکرد الگوریتم، استفاده از الگوریتم یادگیری تقویتی برای تطبیق پذیری الگوریتم با نویسنده به‌عنوان کار آینده پیشنهاد می‌شود.

واژه‌های کلیدی: بازشناسی برخط، دست‌نوشته فارسی، نزدیک‌ترین همسایه، مدل زبانی، محدودیت کاربر

متن کامل [PDF 8742 kb] (2263 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1394/7/4 | پذیرش: 1395/8/16 | انتشار: 1396/7/29 | انتشار الکترونیک: 1396/7/29

فهرست منابع

1. [1] ابراهیمی طاهره و زمانی دهکردی، بهزاد، "استفاده از مدل زبانی فاکتورگرا در افزایش نرخ صحیح بازشناسی گفتار"، اولین کنفرانس ملی ایده‌های نو در مهندسی کامپیوتر، شهرکرد، دانشگاه آزاد اسلامی واحد شهرکرد، 1394.

2. [2] نوش‌آبادی فخری،احمدی فرد علیرضا، خسروی حسین، "تشخیص دست‌نوشته برخط فارسی با رویکرد تجزیه‌ای"، پایان‌نامه‌ کارشناسی ارشد؛ دانشگاه صنعتی شاهرود؛ 1393.

3. [3] مهرعلیان محمدامین و فولادی کاظم، "بازشناسی برخط حروف مجزای دست‌نویس فارسی بر اساس تشخیص گروه و بدنه اصلی با استفاده از ماشین بردار پشتیبان"، هفتمین کنفرانس ماشین بینایی و پردازش تصویر، تهران، دانشگاه علم و صنعت، 1390.

4. [4] اسمعیل‌پور ندا، برومندنیا ندا، "بازشناسی زیر-کلمات برخط فارسی بر اساس رویکرد فازی و ساختاری با استفاده از ساختار لیست‌های پیوندی"، یازدهمین کنفرانس سراسری سیستم‌های هوشمند. انجمن سیستم‌های هوشمند ایران، 1391.

5. [5] خوش کلام محصصی زهرا، رضوی ابراهیمی سید علی و فرهودی نژاد اکبر، «طراحی یک سیستم عصبی - فازی با قابلیت آموزش هم‌زمان برای بازشناسی بر خط زیر - کلمات فارسی»، همایش ملی مهندسی کامپیوتر و توسعه پایدار با محوریت شبکه‌های کامپیوتری، مدل‌سازی و امنیت سیستم‌ها، مشهد، موسسه آموزش عالی خاوران، ۱۳۹۲.

6. [6] امینیان، مریم، "خوشه‌بندی معنایی افعال زبان فارسی"، پایان‌نامه‌ کارشناسی ارشد؛ دانشگاه صنعتی شریف؛ 1391.

7. [7] بحرانی محمد، ثامتی حسین، حافظی نازیلا، ممتازی سعیده، موثق حامد، "به‌کارگیری پیکره متنی زبان فارسی در ساخت مدل‌های زبانی آماری برای سیستم‌های بازشناسی گفتار پیوسته فارسی"، دومین کارگاه پژوهشی زبان فارسی و رایانه، صص 92-109، 1385.

8. [8] پیرنیا نائینی، شهریار و خادمی، مریم، "قطعه‌بندی برخط دست‌نویس فارسی با استفاده از استخراج ویژگی‌ها" ، سومین همایش ملی کامپیوتر و فناوری اطلاعات مهندسی سما، صص 266-271، همدان، ایران، 1389.

9. [9] رضوی، سید محمد و کبیر، احسان‌الله، "بازشناسی برخط حروف مجزای فارسی با شبکه‌ عصبی"، سومین کنفرانس ماشین بینایی و پردازش تصویر، جلد 41 شماره 1، صص 83-89، دانشگاه تهران،1383.

10. [10] رضوی، سید محمد و کبیر، احسان‌الله، "بازشناسی برخط کلمات دست‌نویس فارسی با واژگانی گسترده"، 1387، پنجمین کنفرانس ماشین بینایی و پردازش تصویر.

11. [11] رضوی، سید محمد و کبیر، احسان‌الله، "روشی ساده برای بازشناسی برخط زیر-کلمات فارسی"، نشریه مهندسی برق و مهندسی کامپیوتر ایران، شماره 2، صص 63- 72، 1384.

12. [12] رضوی، سید محمد و کبیر، احسان‌الله، "یک پایگاه داده برای بازشناسی دست‌نوشته‌های برخط فارسی"، ششمین کنفرانس سیستم‌های هوشمند، کرمان، 1383.

13. [13] ساجدی، هدیه و جم‌زاده، منصور و ثامتی، حسین و باباعلی، باقر، "ارائه‌ی یک روش مبتنی بر گروه‌بندی برای بازشناسی حروف مجزای برخط فارسی به کمک مدل مخفی مارکوف "، دوازدهمین کنفرانس بین‌المللی انجمن کامپیوتر ایران، صص 419-425، دانشگاه تهران، 1385.

14. [14] قدس، وحید و کبیر، احسان‌الله، "بررسی شیوه‌های متداول نگارش دست‌نوشته‌های برخط فارسی به‌منظور استفاده در بازشناسی آن‌ها"، مجله مهندسی برق دانشگاه تبریز، جلد 41 شماره 1، صص 22-32، 1391.

15. [15] فرهنگستان زبان و ادب فارسی (نشر آثار) ، دستور خط فارسی، چاپ نهم، 1389.

16. [16] کبودیان جهانشاه، شجاع مودب حمیدرضا، شیخ زادگان جواد، "یک سیستم جستجوگر کلمات مبتنی بر مدل پنهان مارکوف با دایره لغات نامحدود برای جستجوی مستندات گفتاری در محیط‌های واقعی و عملیاتی"، دهمین کنفرانس سالانه انجمن کامپیوتر ایران، 1383.

17. [17] میرزازاده، فرزانه، "بازشناسی کلمات در دست‌نوشته بر خط فارسی به روش فازی"، پایان‌نامه‌ کارشناسی ارشد، دانشگاه صنعتی شریف، تهران، 1386.

18. [18] پژوهشنامه نویسه‌خوان نوری OCR فارسی، شورای پژوهشی OCR کارگروه خط و زبان فارسی شورای عالی اطلاع‌رسانی, پائیز 1386.

19. [19] همایون پور محمد مهدی، سلیمی بدر آرمین، "تعیین مرز و نوع عبارات نحوی در متون فارسی"، فصلنامه علمی-پژوهشی پردازش علائم و داده ها، جلد 10، شماره 2، صفحه 69-86، 1392.

20. [20] بایسته تاشک الهام، احمدی فرد علیرضا، خسروی حسین، " روشی دو مرحله ای برای بازشناسی کلمات دست نوشته فارسی به کمک بلوک بندی تطبیقی گرادیان تصویر"، فصلنامه علمی-پژوهشی پردازش علائم و داده ها، جلد 12، شماره 3، صفحه 15-29، 1394.

21. [21] دیانت روح الله، علی احمدی مرتضی، اخلاقی محمد یحیی، باباعلی باقر، " ارایه یک روش جدید بازیابی اطلاعات مناسب برای متون حاصل از بازشناسی گفتار"، فصلنامه علمی-پژوهشی پردازش علائم و داده ها، جلد 13، شماره 4، صفحه 93-108، 1395

22. [1] T. Ebrahimi and B. Z. Dehkordi," Using of factor oriented language model for increase of speech recognition rate," 1st conference on new ideas in computer engineering, Sharekord,2015.

23. [2] F. Nooshabadi, A. Ahmadifard, H. Khosravi," Online persian hand writing recognition using Analytical approach", M.S. Thesis, Shahrood university of technology, 2014.

24. [3] M. Mehralian and K. Fooladi," Online persian hand writing discrete letter recognition based on group and main body detection using SVM", 7th Iranian conference on machine vision and image processing, Tehran, 2011.

25. [4] N. Esmailpour and N. Broomandnia, "Recognition of Persian online sub-words based on fuzzy and structural approach using link list structure", 11th Iranian conference on intelligent systems, 2012. [PMCID]

26. [5] Z. K. Mohassesi, S.A. Ebrahimi and A. Farhoodinezhad," The design of a neuro-fuzzy system with simultaneous training for on line recognizing the Persian sub-words", 8th Symposium on advances in science and technology (computer networks, modelling and system security), Mashahd, 2013.

27. [6] M. Imanian, "Semantic clustering of verbs in Persian language", M.S. thesis, Sharif university of technology, 2012.

28. [7] M. Bahrani, H. Sameti, N. Hafezi, S. Momtazi and H. Movasegh, "The use of the Persian text framework in the production of statistical language models for Persian continuous speech recognition systems", 2nd workshop of Persian language and computer, PP. 92-109, 2006. [PMID]

29. [8] Sh. P. Naeini and M. Khademi, "Persian online handwriting fragmentation using feature extraction", 3rd national conference on computer engineering and information technology, P.P. 266-271, Hamedan, Iran, 2010.

30. [9] S. M. Razavi and E. Kabir, "Online Persian hand writing discrete letter recognition using neural network", 3rd Iranian conference on machine vision and image processing, P.P. 83-89, Tehran, Iran, 2004.

31. [10] S. M. Razavi and E. Kabir, "Online Persian hand writing words recognition by Extensive vocabulary", 5th Iranian conference on machine vision and image processing, Iran, 2008.

32. [11] S. M. Razavi and E. Kabir, "A simple way to recognize online Persian sub-words", Iranian journal of electrical and computer engineering, vol. 2, P.P. 63-72, 2005.

33. [12] S. M. Razavi and E. Kabir, "A database for recognizing Persian online hand writing", Iranian journal of electrical and computer engineering, 6th Iranian conference on intelligent systems, Kerman, Iran, 2004.

34. [13] H. Sajedi, M. Jamzadeh, H. Sameti, B. Babaali "Presentation of a Grouping-Based Approach to Recognition of Persian Separated Letters Using the Hidden Markov Model", 12th International conference of Iranian computer society, Tehran, Iran, 2006.

35. [14] V. Ghods and E. Kabir, "The study of common ways of Persian online hand writing for use in their recognition", Tabriz journal of electrical engineering, Vol. 41, No. 1, P.P. 22-32, 2012.

36. [15] "Persian Language and Literature Academy (Publishing Works)", Persian writing order, 9th edition, 2010.

37. [16] J. Kaboodian, H. S. Moadab and J. Shaikhzadegan, "A word search engine based on the hidden Markov model with unlimited vocabulary to search for spoken documentation in real-world environments", 10th national conference of Iranian computer society, 2004.

38. [17] F. Mirzadeh, "Fuzzy based recognition of words in the Persian hand writing", M.S. Thesis, Sharif university of technology, 2007.

39. [18] "Research papers of Persian OCR", The OCR Research Council of the Persian writing and Language Teams, 2007.

40. [19] M. M. Homayoonpor and A. Salimi Badr, "Determining the boundary and type of syntactic expressions in Persian texts", Signal and data processing, Vol. 10, No. 2, P.P. 69-86, 2013.

41. [20] E. B. Tashk, A. Ahmadifard and H. Khosravi, "A two-step method for recognizing Persian handwritten words using the adaptive blocking of image gradients", Signal and data processing, Vol. 12, No. 3, P.P. 15-29, 2015.

42. [21] R. Deinat, M. Aliahmadi, M. Y. Akhlaghipour and B. Babaali, "Introducing a new information retrieval method applicable for speech recognized texts", Signal and data processing, Vol. 13, No. 4, P.P. 93-108, 2016.

43. [22] C. L. Liu, S. Jaeger, and M. Nakagawa, "Online recognition of Chinese characters: the state-of-the-art", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 26, no. 2, pp. 198–213, 2004. [DOI:10.1109/TPAMI.2004.1262182] [PMID]

44. [23] D. Jurafsky and J. H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Pearson Prentice Hall, 2009.

45. [24] H. N. Eseen and R. Kneser, "On Structuring Probabilistic Dependencies in Stochastic Language Modeling", Computer, Speech, and Language, vol. 8, pp. 1–38, 1994. [DOI:10.1006/csla.1994.1001]

46. [25] H. Witten and T. C. Bell, "The zero-frequency problem: Estimating the probabilities of novel events in adaptive text compression", IEEE Transactions on Information Theory, vol. 37, no. 4, pp. 1085–1094, 1991. [DOI:10.1109/18.87000]

47. [26] M. Bijankhan, "The role of the corpus in writing a grammar: An introduction to a software", Iranian Journal of Linguistics, vol. 19, no. 2, 2004.

48. [27] M. P. Harper, L. H. Jamieson, C. D. Mitchell, G. Ying, S. Potisuk, P. N. Srinivasan, R. Chen, C. B. Zoltowski, L. L. McPheters, and B. Pellom, "Integrating language models with speech recognition". AAAI-94 Workshop on the Integration of Natural Language and Speech Processing, Seattle, Washington, pp. 139-146, 1994.

49. [28] R. Plamondon and S. Srihari, "Online and off-line handwriting recognition: a comprehensive survey", Pattern Analysis and Machine, vol. 22, no. 1, pp. 63–84, 2000. [DOI:10.1109/34.824821]

50. [29] S. Al-Emami and M. Usher, "On-line recognition of handwritten Arabic characters", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 12, no. 7, pp. 704–710, 1990. [DOI:10.1109/34.56214]

51. [30] S. Atkins, J. Clear, and N. Ostler, "Corpus design criteria", Literary and linguistic computing, vol. 7, no. 1, pp. 1–16, 1992. [DOI:10.1093/llc/7.1.1]

52. [31] S. Connell and A. Jain, "Online handwriting recognition using multiple pattern class models", Michigan State University, 2000.

53. [32] S. Jaeger, C. L. Liu, and M. Nakagawa, "The state of the art in Japanese online handwriting recognition compared to techniques in western handwriting recognition", International Journal on Document Analysis and Recognition, vol. 6, no. 2, pp. 75–88, 2003. [DOI:10.1007/s10032-003-0107-y]

54. [33] S. Katz, "Estimation of probabilities from sparse data for the language model component of a speech recognizer", IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 35, no. 3, pp. 400–401, 1987. [DOI:10.1109/TASSP.1987.1165125]

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.

نظر شما در مورد قالب جدید چیست؟
	خوب
	متوسط
	ضعیف

پایگاه‌های مرتبط

واژگان کلیدی

نظرسنجی