Signal and Data Processing
پردازش علائم و دادهها
JSDP
Engineering & Technology
http://jsdp.rcisp.ac.ir
1
admin
2538-4201
2538-421X
10.52547/jsdp
1
8888
fa
jalali
1396
6
1
gregorian
2017
9
1
14
2
online
1
fulltext
fa
روشی جدید جهت استخراج موجودیتهای اسمی در عربی کلاسیک
A New Approach for Extracting Named Entity in Classical Arabic
مقالات پردازش متن
Paper
پژوهشي
Research
<p class="abstract" dir="RTL"><span style="font-family:b nazanin;">تشخیص واحدهای اسمی بهعنوان یکی از سامانههای پردازش زبان طبیعی عبارت از تشخیص اسامی خاص و طبقهبندی آنها به یکی از گروههای شخص، مکان، سازمان و زمان است. این عملیات به دلیل تأثیر قابل توجه در بهبود کارایی دیگر حوزههای پردازش زبان طبیعی مانند ترجمه ماشین، بازیابی اطلاعات، خوشهبندی نتایج جستجو و پرسش و پاسخ، در سالهای اخیر مورد توجه پژوهشگران در زبان عربی نیز قرار گرفته است. گرچه بیشتر پژوهشها در این حوزه روی عربی استاندارد امروزی انجام شده است، اما در این مطالعه عربی کلاسیک مورد توجه است. در همین راستا، روشی جدید جهت تشخیص واحدهای اسمی در زبان عربی ارائه میشود. در این پژوهش یک پیکره متنی عربی کلاسیک به نام نورکورپ، متشکل از ۱۳۰ هزار کلمه برچسبگذاریشده توسط متخصصان، معرفی میشود؛ همچنین از یک فرهنگ لغات شامل ۱۸۰۰۰ اسامی اشخاص که از کتب حدیثی استخراج شده است، بهعنوان منابع خارجی استفاده میشود. مدل پیشبینی، بر اساس مجمع ردهبندها و یک روش دومرحلهای پیشنهاد شده است؛ بهطوریکه در مرحله نخست تشخیص واحدهای اسمی از طریق الگوریتم آدابوست </span><span dir="LTR"><span style="font-size:8.0pt;">M1</span></span><span style="font-family:b nazanin;"> و در مرحله دوم طبقهبندی آنها به گروههای ازپیشتعیینشده توسط الگوریتم آدابوست </span><span dir="LTR"><span style="font-size:8.0pt;">M2</span></span><span style="font-family:b nazanin;"> انجام میشود. بهمنظور غلبه بر چالشهای زبان عربی عملیات نشانهگذاری، برچسبگذاری ادات سخن و قطعهکردن عبارت پایه به کار گرفتهشده است. با استفاده از یک روش آماری، برخی از کلمات پر کاربرد در واحدهای اسمی بهعنوان کلمات کلیدی استخراج شدند. نتیجه بهدستآمده از مدل پیشنهادی در ارزیابی </span><span dir="LTR"><span style="font-size:8.0pt;">F-measure</span></span><span style="font-family:b nazanin;"> معادل ۸۵/۸۶ درصد است که بیانگر عملکرد مطلوب مدل است. در آخر، روش پیشنهادی روی یک پیکره استاندارد امروزی به نام انرکورپ اعمال و نتایج با پیکره نورکورپ مقایسه شدهاند.</span><br>
</p>
<p class="abstract" style="text-align:justify;direction:ltr;unicode-bidi:embed"><strong>In Natural Language Processing (NLP) studies</strong><span dir="RTL">,</span><strong> developing resources and tools makes a contribution to extension and effectiveness of researches in each language. In recent years</strong><span dir="RTL">,</span><strong> Arabic Named Entity Recognition (ANER) has been considered by NLP researchers due to a significant impact on improving other NLP tasks such as Machine translation, Information retrieval, question answering, query result clustering, etc. While most of these researches are based on Modern Standard Arabic (MSA), in this paper, we focus on Classical Arabic (CA) literature. We propose a corpus called NoorCorp with 130k labeled words for research purposes which is annotated by expert human resources manually. This corpus is based on a Historic-Islamic book of 1200 years ago including 1843 sentences and 127550 words. We also collected about 18k proper names from old Hadith books as a gazetteer which is called NoorGazet used as a future. In this paper, we propose a new approach to extract named entities (NEs) including person, location, organization and time.</strong> <strong>We use hybrid approach benefiting from advantages of Rule based approach and Machine learning approach. We divided the NoorCorp into two parts of training and test sets containing 80% and 20% of the data set respectively. Prediction model, based on Boosting method, was developed in two steps which Adaboost.M1 is employed to identify NEs and Adaboost.M2 is employed to classify NEs. There are many methods using multiple classifiers as voters and summing up their results, among which, ensemble</strong> <strong>methods are those which generate multiple hypotheses using the same base learner. We developed an ensemble consisting of 50 members (classifiers) based on decision stump to implement the weak learner. Since only 17% of the text data is composed of name entity labels, we had to deepen the tree while restricting pruning. We exploited tokenizing, part of speech (POS) tagging, and base phrase chunking (BPC) to overcome linguistic obstacles in Arabic including Meaning ambiguity, Optional diacritics, Complex morphology and Nonstandard written text. Moreover, using a statistical technique, the most frequently used words extracted as key words. Results show that performance of the method is better than decision tree as the base classifier. An overall F-measure value of 86.85 obtained which is better than base line about 20% and CART decision tree about 12%. Since CA corpus consists of simpler linguistic patterns compared to MSA, we applied the proposed approach on ANERCorp as Modern Standard Arabic corpus. Results show that the proposed model outcome on CA corpus is about 19% better than MSA. This result is due to the fact that there are plenty of NEs entered to MSA from other languages. These proper names do not have specific patterns and do not exist in the gazetteer. In addition, many NE’s are not distributed uniformly in ANERcorp which considerably reduces the results accuracy.</strong><br>
<br>
</p>
تشخیص واحدهای اسمی, مجمع ردهبندها, روش بوستینگ, زبان عربی کلاسیک
Named entity recognition (NER), Ensemble learning, Boosting method, Classical Arabic Language
59
74
http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-654-3&slc_lang=fa&sid=1
Seyed mohamad bagher
Sajadi
سید محمد باقر
سجادی
mb.sajadi@qiau.ac.ir
10031947532846007213
10031947532846007213
No
Islamic Azad University Central Tehran Branch
دانشگاه آزاد واحد تهران مرکز
Hassan
Rashidi
حسن
رشیدی
Hrashi@atu.ac.ir
10031947532846007214
10031947532846007214
Yes
Allameh Tabataba'i University
دانشگاه علامه طباطبایی
Behrooz
Minaei bidgoli
بهروز
مینایی بیدگلی
B_minaei@iust.ac.ir
10031947532846007215
10031947532846007215
No
Iran University of Science and Technology
دانشگاه علم و صنعت