سیستم شناسایی و طبقه بندی اسامی در متون فارسی

راحتی قوچانی, سعید; اصفهانی, عبدالحمید; جهانگیری, نادر

دوره 7، شماره 1 - ( 6-1389 ) جلد 7 شماره 1 صفحات 88-77 | برگشت به فهرست نسخه ها

Mendeley

Zotero

RefWorks

Persian name entity recognition and classification. JSDP 2010; 7 (1) :77-88
URL: http://jsdp.rcisp.ac.ir/article-1-731-fa.html

راحتی قوچانی سعید، اصفهانی عبدالحمید، جهانگیری نادر. سیستم شناسایی و طبقه بندی اسامی در متون فارسی. پردازش علائم و داده‌ها. 1389; 7 (1) :77-88

URL: http://jsdp.rcisp.ac.ir/article-1-731-fa.html

سیستم شناسایی و طبقه بندی اسامی در متون فارسی

سعید راحتی قوچانی^*، عبدالحمید اصفهانی، نادر جهانگیری

دانشگاه ازاد مشهد

چکیده: (4088 مشاهده)

یک سیستم شناسایی و طبقه‌بندی اسامی، سیستمی است که می تواند یک یا چند نوع از اسامی را در متن شناسایی و طبقه‌بندی کند این اسامی می توانند اسامی اشخاص، ارگان ها، شرکت ها، اسامی مکان ها ( کشور، شهر، خیابان و مانند آن) اسامی زمان (تاریخ و ساعت) مقادیر مالی، درصدها و مانند آن باشد. هر چند که در دهه اخیر کارهای زیادی بر روی سیستم های شناسایی و طبقه‌بندی اسامی در زبان های مختلف و دامنه های مختلف انجام شده است، امّا در زبان فارسی، با توجّه به عدم وجود یک مجموعه داده کامل به همراه برچسب های غنی، تاکنون سیستمی برای طبقه بندی اسامی ایجاد نشده است. در این پژوهش از مجموعه داده پژوهشکده پردازش هوشمند علائم استفاده شده است. روش کار بدین صورت است که در ابتدا الگوریتم پیش پردازش اسامی را با استفاده از برچسب دستوری کلمات از داده ها جدا شده و سپس مصدر ها، اسامی زمان، اسامی شمارشی، اعداد را هم از مجموعه داده حذف می کند. این کار باعث می‌‌شود تا حجم طبقات در داده‌های آموزشی متوازن تر گردد؛ در استخراج ویژگی از تابع N-gramاستفاده شده است. پس از استخراج ویژگی، سیستم را با چهار طبقه‌بندی کننده خطی، بیزین، نزدیک ترین همسایگی و شبکه عصبی آموزش می دهیم. عدم تنوع در اسامی زمان و هم چنین عدم اختلاط و یا اختلاط کم این اسامی با اسامی طبقات دیگر، این امکان را فراهم می کند تا بتوان با استفاده از یک سیستم مبتنی بر حافظه، اسامی زمان را در یک متن شناسایی کرد. با استفاده از شبکه عصبی نتایج بسیار مناسبی در جداسازی اسامی مکان و افراد از بقیه اسامی به دست آمده است (99%) و طبقه‌بندی کننده KNN و طبقه بندی کننده خطّی به طور میانگین اسامی مکان و افراد و اسامی عمومی طبقه¬بندی مقدار 91 % بر اساس معیار F-measure به دست آمده است. در طبقه بندی اسامی زمان با استفاده از یک فهرست کمکی مقدار 96 % بر اساس معیار F-measure به دست آمده است.

واژه‌های کلیدی: پردازش زبان طبیعی- شناسایی و طبقه‌بندی اسامی- انتخاب ویژگی- تابع N-gram

متن کامل [PDF 3813 kb] (926 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش گفتار
دریافت: 1389/6/31 | پذیرش: 1396/11/30 | انتشار: 1396/11/30 | انتشار الکترونیک: 1396/11/30

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.

نظر شما در مورد قالب جدید چیست؟
	خوب
	متوسط
	ضعیف

پایگاه‌های مرتبط

واژگان کلیدی

نظرسنجی