روشی جدید جهت استخراج موجودیت‌های اسمی در عربی کلاسیک

سجادی, سید محمد باقر; رشیدی, حسن; مینایی بیدگلی, بهروز

doi:10.18869/acadpub.jsdp.14.2.59

***************«بسم الله الرحمن الرحیم» نشریه علمی «پردازش علائم و داده‌ها» با مجوز رسمی از کمیسیون نشریات وزارت علوم، تحقیقات و فناوری، صاحب امتیاز: پژوهشگاه توسعه فناوری‌های پیشرفته ***************

Signal and Data Processing Journal A scientific journal officially licensed by the Commission for Scientific Publications of the (MSRT). Publisher: Research Ceter for Developmen of Technologies

EN FA

دوره 14، شماره 2 - ( 6-1396 ) جلد 14 شماره 2 صفحات 74-59 | برگشت به فهرست نسخه ها

‎ 10.18869/acadpub.jsdp.14.2.59

Mendeley

Zotero

RefWorks

Sajadi S M B, Rashidi H, Minaei bidgoli B. A New Approach for Extracting Named Entity in Classical Arabic. JSDP 2017; 14 (2) :59-74
URL: http://jsdp.rcisp.ac.ir/article-1-295-fa.html

سجادی سید محمد باقر، رشیدی حسن، مینایی بیدگلی بهروز. روشی جدید جهت استخراج موجودیت‌های اسمی در عربی کلاسیک. پردازش علائم و داده‌ها. 1396; 14 (2) :59-74

URL: http://jsdp.rcisp.ac.ir/article-1-295-fa.html

روشی جدید جهت استخراج موجودیت‌های اسمی در عربی کلاسیک

سید محمد باقر سجادی

، حسن رشیدی^*

، بهروز مینایی بیدگلی

دانشگاه علامه طباطبایی

چکیده: (7756 مشاهده)

تشخیص واحدهای اسمی به‌عنوان یکی از سامانه‌های پردازش زبان طبیعی عبارت از تشخیص اسامی خاص و طبقه‌بندی آن‌ها به یکی از گروه‌های شخص، مکان، سازمان و زمان است. این عملیات به دلیل تأثیر قابل توجه در بهبود کارایی دیگر حوزه‌های پردازش زبان طبیعی مانند ترجمه ماشین، بازیابی اطلاعات، خوشه‌بندی نتایج جستجو و پرسش و پاسخ، در سال‌های اخیر مورد توجه پژوهش‌گران در زبان عربی نیز قرار گرفته است. گرچه بیشتر پژوهش‌ها در این حوزه روی عربی استاندارد امروزی انجام ‌شده است، اما در این مطالعه عربی کلاسیک مورد توجه است. در همین راستا، روشی جدید جهت تشخیص واحدهای اسمی در زبان عربی ارائه می‌شود. در این پژوهش یک پیکره متنی عربی کلاسیک به نام نورکورپ، متشکل از ۱۳۰ هزار کلمه برچسب‌گذاری‌شده توسط متخصصان، معرفی می‌شود؛ همچنین از یک فرهنگ لغات شامل ۱۸۰۰۰ اسامی اشخاص که از کتب حدیثی استخراج شده است، به‌عنوان منابع خارجی استفاده می‌شود. مدل پیش‌بینی، بر اساس مجمع رده‌بندها و یک روش دو‌مرحله‌ای پیشنهاد شده است؛ به‌طوری‌که در مرحله نخست تشخیص واحدهای اسمی از طریق الگوریتم آدابوست M1 و در مرحله دوم طبقه‌بندی آن‌ها به گروه‌های از‌پیش‌تعیین‌شده توسط الگوریتم آدابوست M2 انجام می‌شود. به‌منظور غلبه بر چالش‌های زبان عربی عملیات نشانه‌گذاری، برچسب‌گذاری ادات سخن و قطعه‌کردن عبارت پایه به کار گرفته‌شده است. با استفاده از یک روش آماری، برخی از کلمات پر کاربرد در واحدهای اسمی به‌عنوان کلمات کلیدی استخراج شدند. نتیجه به‌دست‌آمده از مدل پیشنهادی در ارزیابی F-measure‌ معادل ۸۵/۸۶ درصد است که بیان‌گر عملکرد مطلوب مدل است. در آخر، روش پیشنهادی روی یک پیکره استاندارد امروزی به نام انرکورپ اعمال و نتایج با پیکره نورکورپ مقایسه شده‌اند.

واژه‌های کلیدی: تشخیص واحدهای اسمی، مجمع رده‌بندها، روش بوستینگ، زبان عربی کلاسیک

متن کامل [PDF 5866 kb] (3578 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1393/9/10 | پذیرش: 1396/1/4 | انتشار: 1396/7/29 | انتشار الکترونیک: 1396/7/29

فهرست منابع

1. [11] ب. وزیرنژاد، ف. سلطانزاده، م. مهدوی و م. مرادی، "ویرایش‌گر متن شریف: سامانۀ ویرایش و خطایابی املایی زبان فارسی"، مجله پردازش علائم و داده‌ها، شماره۱۲، صفحات ۴۳-۵۲، ۱۳۹۴.

2. [28] م. عسگری بیدهندی و ب. مینایی بیدگلی، "تشخیص اسامی اشخاص با استفاده از تزریق کلمه‌های نامزد اسم در میدان‌های تصادفی شرطی برای زبان عربی"، مجله پردازش علائم و داده‌ها، شماره ۱۱، صفحات ۷۳-۸۵، ۱۳۹۳.

3. [29] م. رضائی شریف آبادی و پ. خسروی‌زاده، "برچسب‌زنی خودکار نقش‌های معنایی در جملات فارسی به کمک درخت‌های وابستگی"، مجله پردازش علائم و داده‌ها، شماره ۱۳، صفحات ۲۷-۳۸، ۱۳۹۵.

4. [31] آ. سلیمی بدر و م. همایون‌پور, "تعیین مرز و نوع عبارات نحوی در متون فارسی"، مجله پردازش علائم و داده‌ها، شماره ۱۰، صفحات ۶۹-۸۶، ۱۳۹۲.

5. [35] ر. طباطبائی، م. فیضی درخشی و س. معصومی، "ارائه یک سیستم هوشمند و معناگرا برای ارزیابی سیستم های خلاصه ساز متون"، مجله پردازش علائم و داده‌ها، شماره ۱۲، صفحات ۳-۱۱، ۱۳۹۴.

6. [1] D. Nadeau and S. Sekine, "A survey of named entity recognition and classification," Lingvisticae Investig., vol. 30, no. 1, pp. 3–26, 2007. [DOI:10.1075/li.30.1.03nad]

7. [2] M. Oudah and K. Shaalan, "A Pipeline Arabic Named Entity Recognition using a Hybrid Approach.," Coling, vol. 2, no. December 2012, pp. 2159–2176, 2012. [PMID]

8. [3] S. Abuleil and M. Evens, "Extracting Names From Arabic Text for Question-Answering Systems.," Riao, pp. 638–647, 2004.

9. [4] R. Koulali and A. Meziane, "A contribution to arabic named entity recognition," in International Conference on ICT and Knowledge Engineering, 2012, pp. 46–52. [DOI:10.1109/ICTKE.2012.6408570]

10. [5] K. Shaalan, "A Survey of Arabic Named Entity Recognition and Classification," Comput. Linguist., vol. 40, no. July 2013, pp. 469–510, 2014. [PMCID]

11. [6] N. Y. Habash, "Introduction to Arabic natural language processing," Synth. Lect. Hum. Lang. Technol., vol. 3, no. 1, pp. 1–187, 2010. [DOI:10.2200/S00277ED1V01Y201008HLT010]

12. [7] H. Al-Jumaily, P. Martínez, J. L. Martínez-Fernández, and E. Van der Goot, "A real time Named Entity Recognition system for Arabic text mining," Lang. Resour. Eval., vol. 46, no. 4, pp. 543–563, 2012. [DOI:10.1007/s10579-011-9146-z]

13. [8] M. Korayem, D. Crandall, and M. Abdul-Mageed, "Subjectivity and sentiment analysis of arabic: A survey," Adv. Mach. Learn. …, 2012.

14. [9] Y. Maynard, D., Tablan, V., Ursu, C., Cunningham, H. ve Wilks, "Named Entity Recognition from Diverse Text Types," in Recent Advances in Natural Language Processing, Springer, 2001, pp. 440–451.

15. [10] I. a Alkharashi, "Person Named Entity Generation and Recognition for Arabic Language," in the Proceedings of 2nd International Conference on Arabic Language Resources and Tools, Cairo, Egypt, 2009, pp. 205–208.

16. [11] B. Vazirnejad, F. Soltanzadeh, M. Mahdavi, and M. Moradi, "Sharif Text Editor: A Persian Editor and Spell Checker System.," JSDP, vol. 12, no. 4, pp. 43–52, 2016.

17. [12] I. A. Al-sughaiyer and I. A. Al-kharashi, "Arabic Morphological Analysis Techniques : A Comprehensive Survey," J. Am. Soc. Information Science and Technology, vol. 55, no. 3, pp. 189–213, 2004. [DOI:10.1002/asi.10368]

18. [13] K. Darwish, A. Abdelali, and H. Mubarak, "Using Stem-Templates to improve Arabic POS and Gender/Number Tagging," in International Conference on Language Resources and Evaluation (LREC-2014), 2014, pp. 2926–2931.

19. [14] I. Zitouni, J. Sorensen, X. Luo, and R. Florian, "The impact of morphological stemming on Arabic mention detection and coreference resolution," Proceedings of the ACL Workshop on Computational Approaches to Semitic Languages, June 29, pp. 63–70, 2005. [DOI:10.3115/1621787.1621800]

20. [15] Y. Benajiba, P. Rosso, M. Bened, and J. Bened iRuiz, "ANERsys : An Arabic Named Entity Recognition System Based on Maximum Entropy," Names, pp. 143–153, 2007.

21. [16] Y. Benajiba and P. Rosso, "ANERsys 2.0: Conquering the NER Task for the Arabic Language by Combining the Maximum Entropy with POS-tag Information.," in 3rd Indian International Conference on Artificial Intelligence (IICAI-07), 2007, pp. 1814–1823.

22. [17] Y. Benajiba and P. Rosso, "Arabic named entity recognition using conditional random fields," Proc. Work. HLT NLP within …, 2008.

23. [18] Y. Benajiba, M. Diab, and P. Rosso, "Arabic named entity recognition using optimized feature sets," Proc. Conf. Empir. Methods Nat. Lang. Process. EMNLP 08, no. October, pp. 284–293, 2008. [DOI:10.3115/1613715.1613755]

24. [19] D. Valencia, "Arabic Named Entity Recognition," Audio, Speech, Lang. Process. IEEE Trans., vol. 17, no. May, pp. 151–152, 2010.

25. [20] S. Abdallah, K. Shaalan, and M. Shoaib, "Integrating rule-based system with classification for arabic named entity recognition," Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 7181 LNCS, no. PART 1, pp. 311–322, 2012. [DOI:10.1007/978-3-642-28604-9_26]

26. [21] K. Shaalan and M. Oudah, "A hybrid approach to Arabic named entity recognition," J. Inf. Sci., vol. 40, no. 1, pp. 67–87, 2014. [DOI:10.1177/0165551513502417]

27. [22] M. A. Meselhi, H. M. Abo Bakr, I. Ziedan, and K. Shaalan, "Hybrid Named Entity Recognition-Application to Arabic Language," in Computer Engineering & Systems (ICCES), 2014 9th International Conference on, 2014, pp. 80–85. [DOI:10.1109/ICCES.2014.7030933]

28. [23] M. A. Meselhi, H. M. A. Bakr, I. Ziedan, and K. Shaalan, "A Novel Hybrid Approach to Arabic Named Entity," in Machine Translation, Springer, 2014, pp. 93–103.

29. [24] F. Enríquez, F. L. Cruz, F. J. Ortega, C. G Vallejo, and J. A. Troyano, "A comparative study of classifier combination applied to NLP tasks," Inf. Fusion, vol. 14, no. 3, pp. 255–267, 2013. [DOI:10.1016/j.inffus.2012.05.001]

30. [25] X. Carreras, L. Marquez, and L. Padró, "Named entity extraction using adaboost," 2002, pp. 1–4.

31. [26] X. Carreras, L. Màrquez, and L. Padró, "A simple named entity extractor using AdaBoost," … seventh Conf. Nat. …, 2003. [DOI:10.3115/1119176.1119197]

32. [27] G. Szarvas, R. Farkas, and A. Kocsor, "A Multilingual Named Entity Recognition System Using Boosting and C4.5 Decision Tree Learning Algorithms," Structure, pp. 267–278, 2006. [DOI:10.1007/11893318_27]

33. [28] M. Asgari Bidhendi and B. Minaei Bidgoli, "Extracting person names using name candidate injection in a conditional random field model for Arabic language," JSDP, vol. 11, no. 1, pp. 73–85, 2014.

34. [29] M. Rezaei Sharifabadi and P. Khosravizadeh, "Automatic Labeling of Semantic Roles in Persian Sentences using Dependency Trees," JSDP, vol. 13, no. 1, pp. 27–38, 2016.

35. [30] F. Al Shamsi and A. Guessoum, "A hidden Markov model-based POS tagger for Arabic," in Proceeding of the 8th International Conference on the Statistical Analysis of Textual Data, France, 2006, pp. 31–42.

36. [31] A. Salimibadr and M. M. Homayounpour, "Phrase chunking in Persian texts," JSDP, vol. 10, no. 2, pp. 69–86, 2014.

37. [32] M. Diab, "Second Generation AMIRA Tools for Arabic Processing : Fast and Robust Tokenization, POS tagging, and Base Phrase Chunking," Proc. Second Int. Conf. Arab. Lang. Resour. Tools, pp. 285–288, 2009.

38. [33] L. Kuncheva, "Combining Pattern Classifiers methods and algorithms. John Wiley&Sons," Inc. Publ. Hoboken, 2004. [DOI:10.1002/0471660264]

39. [34] C. M. Bishop and others, Pattern recognition and machine learning, vol. 1. springer New York, 2006.

40. [35] R. Tabatabaei, M. R. Feizi-Derakhshi, and S. Masoumi, "Proposing an intelligent and semantic-based system for Evaluating Text Summarizers," JSDP, vol. 12, no. 2, pp. 3–11, 2015.

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.