دوره 7، شماره 1 - ( 6-1389 )                   جلد 7 شماره 1 صفحات 88-77 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Persian name entity recognition and classification. JSDP 2010; 7 (1) :77-88
URL: http://jsdp.rcisp.ac.ir/article-1-731-fa.html
راحتی قوچانی سعید، اصفهانی عبدالحمید، جهانگیری نادر. سیستم شناسایی و طبقه بندی اسامی در متون فارسی. پردازش علائم و داده‌ها. 1389; 7 (1) :77-88

URL: http://jsdp.rcisp.ac.ir/article-1-731-fa.html


دانشگاه ازاد مشهد
چکیده:   (4088 مشاهده)

یک سیستم شناسایی و طبقه‌بندی اسامی، سیستمی است که می تواند یک یا چند نوع از اسامی را در متن شناسایی و طبقه‌بندی کند این اسامی می توانند اسامی اشخاص، ارگان ها، شرکت ها، اسامی مکان ها ( کشور، شهر، خیابان و مانند آن) اسامی زمان (تاریخ و ساعت) مقادیر مالی، درصدها و مانند آن باشد. هر چند که در دهه اخیر کارهای زیادی بر روی سیستم های شناسایی و طبقه‌بندی اسامی در زبان های مختلف و دامنه های مختلف انجام شده است، امّا در زبان فارسی، با توجّه به عدم وجود یک مجموعه داده کامل به همراه برچسب های غنی، تاکنون سیستمی برای طبقه بندی اسامی ایجاد نشده است. در این پژوهش از مجموعه داده پژوهشکده پردازش هوشمند علائم استفاده شده است. روش کار بدین صورت است که در ابتدا الگوریتم پیش پردازش اسامی را با استفاده از برچسب دستوری کلمات از داده ها جدا شده و سپس مصدر ها، اسامی زمان، اسامی شمارشی، اعداد را هم از مجموعه داده حذف می کند. این کار باعث می‌‌شود تا حجم طبقات در داده‌های آموزشی متوازن تر گردد؛ در استخراج ویژگی از تابع N-gramاستفاده شده است. پس از استخراج ویژگی، سیستم را با چهار طبقه‌بندی کننده خطی، بیزین، نزدیک ترین همسایگی و شبکه عصبی آموزش می دهیم. عدم تنوع در اسامی زمان و هم چنین عدم اختلاط و یا اختلاط کم این اسامی با اسامی طبقات دیگر، این امکان را فراهم می کند تا بتوان با استفاده از یک سیستم مبتنی بر حافظه، اسامی زمان را در یک متن شناسایی کرد. با استفاده از شبکه عصبی نتایج بسیار مناسبی در جداسازی اسامی مکان و افراد از بقیه اسامی به دست آمده است (99%) و طبقه‌بندی کننده KNN و طبقه بندی کننده خطّی به طور میانگین اسامی مکان و افراد و اسامی عمومی طبقه¬بندی مقدار 91 % بر اساس معیار F-measure به دست آمده است. در طبقه بندی اسامی زمان با استفاده از یک فهرست کمکی مقدار 96 % بر اساس معیار F-measure به دست آمده است.

متن کامل [PDF 3813 kb]   (926 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش گفتار
دریافت: 1389/6/31 | پذیرش: 1396/11/30 | انتشار: 1396/11/30 | انتشار الکترونیک: 1396/11/30

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.