پیما: پیکره برچسب‌خورده موجودیت‌های اسمی زبان فارسی

شهشهانی, مهسا‌سادات; محسنی, مهدی; شاکری, آزاده; فیلی, هشام

doi:10.29252/jsdp.16.1.91

***************«بسم الله الرحمن الرحیم» نشریه علمی «پردازش علائم و داده‌ها» با مجوز رسمی از کمیسیون نشریات وزارت علوم، تحقیقات و فناوری، صاحب امتیاز: پژوهشگاه توسعه فناوری‌های پیشرفته ***************

Signal and Data Processing Journal A scientific journal officially licensed by the Commission for Scientific Publications of the (MSRT). Publisher: Research Ceter for Developmen of Technologies

EN FA

دوره 16، شماره 1 - ( 3-1398 ) جلد 16 شماره 1 صفحات 110-91 | برگشت به فهرست نسخه ها

‎ 10.29252/jsdp.16.1.91

Mendeley

Zotero

RefWorks

Shahshahani M S, Mohseni M, Shakery A, Faili H. PAYMA: A Tagged Corpus of Persian Named Entities. JSDP 2019; 16 (1) :91-110
URL: http://jsdp.rcisp.ac.ir/article-1-769-fa.html

شهشهانی مهسا‌سادات، محسنی مهدی، شاکری آزاده، فیلی هشام. پیما: پیکره برچسب‌خورده موجودیت‌های اسمی زبان فارسی. پردازش علائم و داده‌ها. 1398; 16 (1) :91-110

URL: http://jsdp.rcisp.ac.ir/article-1-769-fa.html

پیما: پیکره برچسب‌خورده موجودیت‌های اسمی زبان فارسی

مهسا‌سادات شهشهانی

، مهدی محسنی

، آزاده شاکری^*

، هشام فیلی

دانشگاه تهران

چکیده: (6110 مشاهده)

هدف در مسأله تشخیص موجودیت‌های اسمی، ردهبندی اسامی خاص متن با برچسب‌هایی همچون شخص، مکان، و سازمان است. این مسأله به‌عنوان یکی از گام‌های پیش‌پردازشی بسیاری از مسائل پردازش زبان طبیعی مطرح است. اگر چه در زبان انگلیسی پژوهش‌های زیادی در این حوزه انجام شده و سامانه‌ها به کیفیت F1 بالای نود درصد دست یافته‌اند، در زبان فارسی به‌دلیل نبود یک مجموعه داده استاندارد، پژوهش‌های کمی در این زمینه انجام شده است. در این پژوهش به ساخت چنین مجموعه‌داده‌ای می‌پردازیم و آن را به‌صورت آزاد در اختیار پژوهش‌گران قرار می‌دهیم؛ سپس با استفاده از این مجموعه‌داده به طراحی سامانه آماری با استفاده از مدل میدان‌های تصادفی شرطی و نیز سامانه‌ای مبتنی بر شبکه‌های عصبی بازگشتی از نوع LSTM برای تشخیص موجودیتهای اسمی می‌پردازیم. در پیکره ایجاد‌شده هفت نوع موجودیت شخص، مکان، سازمان، زمان، تاریخ، درصد، و مقادیر پولی برچسب خوردهاند و در‌نتیجه تمام ارزیابی‌های سامانه طراحی‌شده بر روی این هفت برچسب انجام می‌گیرد. برای طراحی این سامانه، پس از آموزش یک سامانه آماری مبتنی بر الگوریتم CRF، از خروجی این سامانه به‌عنوان یک ویژگی برای آموزش یک شبکه عصبی بازگشتی LSTM دوطرفه استفاده می‌کنیم. علاوه‌بر این ویژگی، از خوشه‌بندی واژگان به روش k- means نیز بهره می‌بریم. برای این کار، شماره خوشه واژگان را به‌عنوان یک ویژگی در اختیار شبکه عصبی LSTM قرار می‌دهیم و به این ترتیب سامانه ترکیبی نهایی ساخته می‌شود. این شیوه ترکیب مدل CRF با مدل شبکه عصبی و نیز استفاده از شماره خوشه برای هر واژه در روش خوشه‌بندی k-means نوآوری این پژوهش محسوب می‌شود. نتایج آزمایش‌ها نشان می‌دهد که با استفاده از مدل نهایی به F1 برابر با ۸۷ درصد در سطح واژه و هشتاد درصد در سطح عبارت موجودیت اسمی می‌رسیم. همچنین آزمایش‌ها نشان می‌دهد که روش پیشنهادی برای استفاده از خروجی مدل CRF به‌عنوان یک ویژگی در ورودی مدل شبکه عصبی باعث می‌شود که با در‌اختیار‌داشتن حجم کمتری از داده برچسب‌خورده به کیفیت قابل قبولی در تشخیص موجودیت‌های اسمی برسیم که این مسأله می‌تواند در زبان‌هایی که حجم داده برچسب‌خورده آن‌ها محدود است، مفید باشد.

واژه‌های کلیدی: پیکره موجودیت‌های اسمی، تشخیص موجودیت‌های اسمی، روش قاعده‌محور، روش مبتنی بر یادگیری عمیق، روش میدان‌های تصادفی شرطی

متن کامل [PDF 5341 kb] (2895 دریافت)

نوع مطالعه: كاربردي | موضوع مقاله: مقالات پردازش متن
دریافت: 1396/9/25 | پذیرش: 1397/12/5 | انتشار: 1398/3/20 | انتشار الکترونیک: 1398/3/20

فهرست منابع

1. [1] س.ع. اصفهانی، س. راحتی قوچانی و ن. جهانگیری، «سیستم شناسایی و طبقه¬بندی اسامی در متون فارسی»، پردازش علایم و داده‌ها، دوره 7 شمارة ۱، ۱۳۸۹.

2. [1] S. A. Esfahani, S. Rahati Ghouchani, and N. Jahangiri, "Persian named entity recognition and classification", Journal of Signal and Data Processing, vol. 7, no. 1, 2010.

3. [2] م. عبدوس، «ارائه‌ روشی جهت تشخیص واحدهای اسمی در زبان فارسی با استفاده از محتوای ویکی‌پدیای فارسی»، پایان‌نامة کارشناسی ارشد، دانشگاه علم و صنعت ایران، تهران، ایران، ۱۳۹۴.

4. [2] M. Abdous, "Recognizing Persian Named Entities Using Persian Wikipedia Content", M.S Thesis, Iran University of Science and Technology, Tehran, Iran, 2015.

5. [3] م. عبدوس و ب. مینایی بیدگلی، «بهبود شناسایی موجودیت‌های نامدار فارسی با استفاده از کسره‌ اضافه»، پردازش علائم و داده‌ها، دورة ۱۴، شمارة ۴، ۱۳۹۶.

6. [3] M. Abdous and B. Minaei Bidgoli, "Improving Named Entity Recognition Using Izafe in Farsi", Journal of Signal and Data Processing, vol. 14, no. 4, 2017. [DOI:10.29252/jsdp.14.4.43]

7. [4] پ.‌س. مرتضوی و م. شمس‌فرد، «شناسايی موجوديت نام‌دار در متون فارسی»، پانزدهمين كنفرانس انجمن كامپيوتر ايران، تهران، 1388.

8. [4] P. S. Mortazavi, M. Shamsfard, "Named Entity Recognition in Persian Texts", in 15th National CSI Computer Conference, Tehran, Iran, 2009.

9. [5] F. Ahmadi and H. Moradi, "A Hybrid Method for Persian Named Entity Recognition," in 7th Internatonal Conference on Information Know-ledge Technology, 2015. [DOI:10.1109/IKT.2015.7288806] [PMCID]

10. [6] D. M. Bikel, S. Miller, R. M. Schwartz, and R. Weischedel, "Nymble: A High-Performance Learning Name-Finder", in Proceedings of the fifth conference on Applied natural language process-ing, pp. 194-201, 1997. [DOI:10.3115/974557.974586]

11. [7] A. Borthwick and J. Sterling, "NYU: Description of the MENE Named Entity System as used in MUC-7," Proceedings of the 7th Message Understanding Conference (MUC-7), 1998.

12. [8] A. X. Chang and C. D. Manning, "TOKENS REGEX : Defining Cascaded Regular Expressions over Tokens," Stanford University Technical Report, 2004.

13. [9] A. Chinchor, "OVERVIEW OF MUC-7 / MET-2 Overviews of English and Multilingual Tasks," in Proceedings of Seventh Message Understanding Conference (MUC-7): Proceedings of a Con-ference Held in Fairfax, Virginia, April 2, 1997.

14. [10] J. P. C. Chiu and E. Nichols, "Named Entity Recognition with Bidirectional LSTM-CNNs," in Transactions of the Association for Compu-tational Linguistics, vol. 4 pp. 357-370, 2016. [DOI:10.1162/tacl_a_00104]

15. [11] C. dos Santos and V. Guimar, "Boosting Named Entity Recognition with Neural Character Embeddings," in Fifth Named Entity Recognition Workshop, joint with 53rd ACL and the 7th IJCNLP, 2015, pp. 25-33. [DOI:10.18653/v1/W15-3904] [PMCID]

16. [12] J. R. Finkel, T. Grenager, and C. Manning, "Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling," in Proceedings of the 43rd annual meeting on association for computational linguistics, 2005. [DOI:10.3115/1219840.1219885]

17. [13] D. Jurafsky and J. H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics, 2nd editio. Prentice-Hall, 2009.

18. [14] M. K. Khormuji and M. Bazrafkan, "Persian Named Entity Recognition based with Local Filters," International Journal of Computer Applications, vol. 100, no. 4, pp. 1-6, 2014. [DOI:10.5120/17510-8062]

19. [15] M. Konkol, T. Brychcín, and M. Konopík, "Latent semantics in Named Entity Recognition," Expert Systems with Applications, vol. 42, no. 7, pp. 3470-3479, 2015. [DOI:10.1016/j.eswa.2014.12.015]

20. [16] G. Kumaran and J. Allan, "Text Classification and Named Entities for New Event Detection," in Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval, 2004, pp. 297-304. [DOI:10.1145/1008992.1009044]

21. [17] J. Lafferty and A. Mccallum, "Conditional Random Fields : Probabilistic Models for Segmenting and Labeling Sequence Data Conditional Random Fields : Probabilistic Models for Segmenting and," in Proceedings of the eighteenth international conference on machine learning, ICML, 2001, vol. 1, no. June, pp. 282-289.

22. [18] G. Lample, M. Ballesteros, S. Subramaninan, K. Kawakami, and C. Dyer, "Neural Architectures for Named Entity Recognition," in Proceedings of NAACL-HLT 2016, 2016, no. July. [DOI:10.18653/v1/N16-1030]

23. [19] A. McCallum and W. Li, "Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons," Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003, vol. 4, 2003,pp. 188-191. [DOI:10.3115/1119176.1119206]

24. [20] T. Mikolov, G. Corrado, K. Chen, and J. Dean, "Efficient Estimation of Word Representations in Vector Space," in Proceedings of the International Conference on Learning Represen-tations (ICLR 2013), 2013, pp. 1-12.

25. [21] S. Miller, J. Guinness, and A. Zamanian, "Name Tagging with Word Clusters and Discriminative Training," in Proceedings of HLT-NAACL, 2004.

26. [22] D. Molla, Me. van Zaanen, and D. Smith, "Named Entity Recogntion for Question Answering," Proceedings of the 2006 Aus-tralasian language technology workshop, vol. 4, 2006, pp. 51-58.

27. [23] D. Nadeau, "A Survey of Named Entity Recognition and Classification," Linguisticae Investigationes, no. 30, p. 3-26., 2007. [DOI:10.1075/li.30.1.03nad]

28. [24] M. Pasca, "Acquisition of Categorized Named Entities for Web Search," Thirteenth ACM international conference on Information and knowledge management, 2004, pp. 137-145. [DOI:10.1145/1031171.1031194]

29. [25] T. Poibeau and L. Kosseim, "Proper Name Extraction from Non-Journalistic Texts," in Proc. Computational Linguistics in the Netherlands, 2001, pp. 144-157. [DOI:10.1163/9789004333901_011]

30. [26] H. Poostchi and M. Piccardi, "PersoNER : Persian Named-Entity Recognition," in Proceedings of Coling 2016, the 26th International Conference on Computational Linguistics, 2016, pp. 3381-3389.

31. [27] M. Seok, H. Song, C. Park, J. Kim, and Y. Kim, "Named Entity Recognition using Word Embedding as a Feature 1," International Journal of Software Engineering and Its Applications, vol. 10, no. 2, pp. 93-104, 2016. [DOI:10.14257/ijseia.2016.10.2.08]

32. [28] S. K. Sienˇ, "Adapting word2vec to Named Entity Recognition," in Proceedings of the 20th Nordic Conference of Computational Linguistics, NODALIDA 2015, 2015, pp. 239-243.

33. [29] B. M. Sundheim, "Overview of Results of the MUC-6 Evaluation," in Proceedings of the 6th conference on Message understanding. Association for Computational Linguistics, 1996, pp. 13-31. [DOI:10.3115/1072399.1072402]

34. [30] E. F. Tjong, K. Sang, and F. De Meulder, "Language-Independent Named Entity Recognition," in Proc. CoNLL, 2003. [DOI:10.3115/1118853.1118878]

35. [31] J. Turian, L. Ratinov, Y. Bengio, and J. Turian, "Word Representations: A Simple and General Method for Semi-supervised Learning," Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, no. July, pp. 384-394, 2010.

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.