دوره 10، شماره 2 - ( 12-1392 )                   جلد 10 شماره 2 صفحات 86-69 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

salimibadr A, Homayounpour M M. Phrase chunking in Persian texts . JSDP 2014; 10 (2) :69-86
URL: http://jsdp.rcisp.ac.ir/article-1-73-fa.html
سلیمی بدر آرمین، همایون‌پور محمدمهدی. تعیین مرز و نوع عبارات نحوی در متون فارسی . پردازش علائم و داده‌ها. 1392; 10 (2) :69-86

URL: http://jsdp.rcisp.ac.ir/article-1-73-fa.html


دانشگاه صنعتی امیرکبیر
چکیده:   (11010 مشاهده)
واحدسازی، از مهمترین مسائل در پردازش زبان‌های طبیعی است که عبارت است از فرایند تقسیم متن به واحدهای معنادار نظیر واژه، عبارت نحوی، جمله و غیره. واحدسازی گروه‌های نحوی یک متن، از جمله وظایف واحدسازی متن محسوب می‌شود که در بسیاری از کارهای پردازش زبان طبیعی، نظیر سیستم‌های ترجمه‌ی ماشینی، استخراج اطلاعات، پرسش‌وپاسخ و سیستم‌های تبدیل متن به گفتار، می‌تواند به عنوان پیش‌پردازشی مهم، حضور داشته باشد. واحدسازی عبارات نحوی، در هر زبان، متناسب با ویژگی‌های نوشتاری آن زبان دارای مشکلات و پیچیدگی‌هایی است. زبان فارسی به‌دلیل وجود رسم‌الخط‌های مختلف، جملات بدون ترتیب، افعال مرکب، ابهامات معنایی و عدم نمایش مصوت‌ها دارای مشکلاتی است. در این مقاله روشی مبتنی بر روش‌های آماری و یادگیری و اطلاعات و ویژگی‌های دستور زبانی جهت تشخیص مرز و نوع گروه‌های نحوی در متون فارسی فاقد علایم سجاوندی ارائه شده است که در آن از روش‌های یادگیری ماشین بردار پشتیبان و میدان تصادفی شرطی استفاده شده است. در روش ارائه شده ویژگی‌های مختلف زبانی استخراج و مورد بررسی قرار گرفته است. بهترین دقت به دست آمده توسط این سیستم، 02/84% بر اساس معیار F و 45/87%، بر اساس تعداد برچسب‌های صحیح به کل در تعیین مرز، و 04/78%، در تعیین مرز و نوع به صورت توأم، بوده است.. 
متن کامل [PDF 2581 kb]   (2740 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1392/3/15 | پذیرش: 1392/6/19 | انتشار: 1393/1/19 | انتشار الکترونیک: 1393/1/19

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.