دوره 16، شماره 3 - ( 10-1398 )                   جلد 16 شماره 3 صفحات 117-128 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Dastgheib M, koleini S, Fakhrahmad S. Design and implementation of Persian spelling detection and correction system based on Semantic. JSDP 2019; 16 (3) :128-117
URL: http://jsdp.rcisp.ac.ir/article-1-668-fa.html
دستغیب محمدباقر، کلینی سارا، فخراحمد سید مصطفی. طراحی و پیاده‌سازی سامانه شناسایی و تصحیح خطای املایی متون فارسی مبتنی بر معنای واژگان. پردازش علائم و داده‌ها. 1398; 16 (3) :128-117

URL: http://jsdp.rcisp.ac.ir/article-1-668-fa.html


گروه پژوهشی طراحی و عملیات سیستم‌ها، مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری
چکیده:   (4689 مشاهده)

طراحی و پیاده‌سازی ابزارهای پردازش زبان طبیعی فارسی، بر اساس ویژگی‌های خاص این زبان، همواره با چالش‌هایی مواجه است. با توجه به این‌که  سامانه‌های تصحیح املای خودکار در حوزه‌های مختلفی از قبیل تصحیح پرس‌و‌جوها، بررسی املای واژگان در اینترنت و برنامه‌های ویراستاری متنی کاربرد دارد، لازم است تا برای زبان فارسی نیز نرم‌افزارهای مناسب ایجاد شود. در این مقاله ابتدا مقدمه‌ای در‌خصوص انواع خطاهای املایی، راه‌کارهای شناسایی و تصحیح خطاها شرح داده شده و سپس به معرفی سامانه پارسی‌اسپل که بر اساس معنای واژگان فارسی، خطاها را شناسایی و تصحیح می‌کند، می‌پردازیم. با توجه به نتایج حاصله از ارزیابی سامانه پارسی‌اسپل با سایر نرم‌افزارهای  مشابه رایج، مشخص شد که سامانه پارسی اسپل به‌عنوان ابزار مؤثری جهت شناسایی و پیشنهاد واژه‌های صحیح برای خطاهای غیر‌واژه و واژه حقیقی است. در مراحل شناسایی و پیشنهاد، معیارF- به‌صورت معناداری بهبود یافته است. همچنین نتایج ارزیابی نشان داده که سامانه پارسی اسپل خطاهای واژه حقیقی بیشتری را شناسایی کرده و قادر به ارائه  و پیشنهاد واژه‌های جایگزین صحیح، برای واژه‌های نادرست است و مقدار معیار بازخوانی در شناسایی خطای واژه حقیقی به‌صورت معناداری بیشتر از نرم‌افزارهای رقیب آن است.
 

متن کامل [PDF 3141 kb]   (1364 دریافت)    
نوع مطالعه: كاربردي | موضوع مقاله: مقالات پردازش متن
دریافت: 1396/2/18 | پذیرش: 1398/3/29 | انتشار: 1398/10/17 | انتشار الکترونیک: 1398/10/17

فهرست منابع
1. [1] A. Sorokin, “Spelling Correction for Morphologically Rich language: a case study of Russian,” in Proceeding of the 6th on Balto-Slavic Natural Language Processing, Valencia, Spain, pp. 45-53, 2017.
2. [2] K. Kukich, “Techniques for automatically co-rrecting words in text”, ACM Computing Surveys (CSUR), vol. 24, pp. 377–439, 1992.
3. [3] O. Kashefi, M Sharifi, and B. Minaie,” A novel string distance metric for ranking Persian res-pelling suggestions”, Natural Language En-gineering, vol. 19, pp. 259–84, 2013.
4. [4] R. Mitton, “Ordering the suggestions of a spellchecker without using context”, Natural Language Engineering, vol. 15, pp. 173–192, 2008.
5. [5] F. J. Damerau, “A technique for computer detection and correction of spelling errors”, Communications of the ACM, vol.7, pp. 171–6, 1964.
6. [6] J. C. Wu, H. W ,Chiu, J. Chang, “Integrating dictionary and Web N-grams for chinese spell checking”, Computational Linguistics and Chinese Language Processing, vol.18, pp.17–30, 2013.
7. [7] M. Janidarmian, A. Roshan Fekr, K. Radecka, Z. Zilic, “A comprehensive analysis on wearable ac-celeration sensors in human activity recognition”, Sensors. vol 17, No. 3, 2017.
8. [8] N. Gupta and M. Pratistha, “Spell Checking Techniques in NLP: A Survey”, International Journal of Advanced Research in Computer Science and Software Engineering, vol 2, Issue 12, December 2012.
9. [9] F. Ahmed and et al, “Revised N-Gram based Automatic Spelling Correction Tool to Improve Retrieval Effectiveness” [online].Available:http://-citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.186.3996
10. [10] D. Naber, “A Rule-Based Style and Grammar Checker”, 2003, [online].Available: http://www-.danielnaber.de/languagetool/download/style_and_grammar_checker.pdf
11. [11] R. A. Wagner and M. J. Fischer, “The string-to-string correction problem,” J. ACM, vol. 21, no. 1, pp. 168–173, 1974.
12. [12] E. Zamora, J. Pollock, “The use of trigram analysis for spelling error Detection”, Information Pro-cessing & Management, vol 17, pp. 305-316, 1981.
13. [13] K. Toutanova and R. C. Moore, “Pronunciation modeling for improved spelling correction”. In Proceedings of the 40th Annual Meeting on. Association for Computational Linguistics, pp. 144–151, 2002.
14. [14] J. Schaback and F. Li, “Multi-level feature extraction for spelling correction”, in IJCAI-2007 Workshop on Analytics for Noisy Unstructured Text Data, pp.79–86, 2007.
15. [15] R. Mitton, “Spelling checkers, spelling correctors and the misspellings of poor spellers,” Inf. Process. Manag., vol. 23, pp. 495–505, 1987.
16. [16] T. M. Miangah, “FarsiSpell: a spell-checking system for Persian using a large monolingual corpus”. Literary and Linguistic Computing, vol 29, pp. 56–73, 2014.
17. [17] L. Barar, and B. QasemiZadeh,”CloniZER Spell Checker Adaptive Language Independent Spell Checker” In AIML Conference CICC, Cairo, Egypt, pp. 19–21, 2005.
18. [18] M. S. Rasooli, O.Kahefi, and B.Minaei-Bidgoli, “Effect of Adaptive Spell Checking in Persian” in Natural Language Processing and Knowledge Engineering (NLP-KE), 7th International Conference on IEEE, 2011. pp. 161–4.
19. [19] M. Shamsfard, H.S. Jafari, and M.Ilbeygi, “STeP-1: A Set of Fundamental Tools for Persian Text” in Processing. LREC, Malta, 2010.
20. [20] O, Kashefi, M. Nasri, and K. Kanani.” Automatic Spell Checking in Persian Language”. In Supreme Council of Information and Co-mmunication Technology (SCICT), Tehran, Iran, 2010.
21. [21] H. Faili, N. Ehsan, M. Montazery and M. T. Pilehvar, “Vafa spell-checker for detecting spelling, grammatical,and real-word errors of Persian language,” Literary and Linguistic Computing, vol. 31, pp. 95-117, 2016.
22. [22] M. Shamsfard, “Challenges and open problems in Persian text processing,” Proc. LTC, vol. 11, 2011.
23. [23] P. Samanta and B. Chaudhuri, “A simple Readword Error Detection and Correction Using Local Word Bigram and Trigram,” in Twenty-Fifth Conference on Computational Linguistics and Speech Processing (ROCLING 2013), Taiwan, R.O.C, 2013. pp. 211-220.

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.