دوره 14، شماره 2 - ( 6-1396 )                   جلد 14 شماره 2 صفحات 59-74 | برگشت به فهرست نسخه ها



DOI: 10.18869/acadpub.jsdp.14.2.59

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Sajadi S M B, Rashidi H, Minaei bidgoli B. A New Approach for Extracting Named Entity in Classical Arabic. JSDP. 2017; 14 (2) :59-74
URL: http://jsdp.rcisp.ac.ir/article-1-295-fa.html
سجادی سید محمد باقر، رشیدی حسن، مینایی بیدگلی بهروز. روشی جدید جهت استخراج موجودیت‌های اسمی در عربی کلاسیک. پردازش علائم و داده‌ها. 1396; 14 (2) :59-74

URL: http://jsdp.rcisp.ac.ir/article-1-295-fa.html


دکتری دانشگاه آزاد واحد تهران مرکز
چکیده:   (216 مشاهده)

تشخیص واحدهای اسمی به عنوان یکی از سامانه‌های پردازش زبان طبیعی عبارت است از تشخیص اسامی خاص و طبقه‌بندی آن‌ها به یکی از گروه‌های شخص، مکان، سازمان و زمان. این عملیات به دلیل تأثیر قابل توجه در بهبود کارایی دیگر حوزه‌های پردازش زبان طبیعی مانند ترجمه ماشین، بازیابی اطلاعات، خوشه‌بندی نتایج جستجو و پرسش و پاسخ، در سال‌های اخیر مورد توجه محققان در زبان عربی نیز قرار گرفته است. گرچه بیشتر تحقیقات در این حوزه روی عربی استاندارد امروزی انجام‌شده است، اما در این مطالعه عربی کلاسیک مورد توجه است. در همین راستا، روشی جدید جهت تشخیص واحدهای اسمی در زبان عربی ارائه می‌گردد. در این تحقیق یک پیکره متنی عربی کلاسیک به نام نورکورپ، متشکل از ۱۳۰ هزار کلمه برچسب‌گذاری شده توسط متخصصین، معرفی می‌گردد. همچنین از یک فرهنگ لغات شامل ۱۸۰۰۰ اسم شخص که از کتب حدیثی استخراج شده است به عنوان منابع خارجی استفاده می‌شود. مدل پیش‌بینی، بر اساس مجمع رده‌بندها و یک روش دو-مرحله‌ای پیشنهاد شده است به‌طوری‌که در مرحله اول تشخیص واحدهای اسمی از طریق الگوریتم آدابوست M1 و در مرحله دوم طبقه‌بندی آن‌ها به گروه‌های از پیش تعیین‌شده توسط الگوریتم آدابوست M2 انجام می‌گیرد. به‌منظور غلبه بر چالش‌های زبان عربی عملیات نشانه‌گذاری، برچسب‌گذاری ادات سخن و قطعه‌کردن عبارت پایه به کار گرفته‌شده است. با استفاده از یک روش آماری، برخی از کلمات پر کاربرد در واحدهای اسمی به عنوان کلمات کلیدی استخراج شدند. نتیجه به‌دست‌آمده از مدل پیشنهادی در ارزیابی F-measure‌ معادل ۸۵/۸۶ درصد است که بیانگر عملکرد مطلوب مدل می‌باشد. در آخر، روش پیشنهادی روی یک پیکره استاندارد امروزی به نام انرکورپ اعمال و نتایج با پیکره نورکورپ مقایسه شده‌اند.

متن کامل [PDF 6248 kb]   (82 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: ۱۳۹۳/۹/۱۰ | پذیرش: ۱۳۹۶/۱/۴ | انتشار: ۱۳۹۶/۷/۲۹ | انتشار الکترونیک: ۱۳۹۶/۷/۲۹

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
کد امنیتی را در کادر بنویسید

ارسال پیام به نویسنده مسئول


کلیه حقوق این وب سایت متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها می باشد.