RT - Journal Article T1 - Phrase chunking in Persian texts JF - jsdp YR - 2014 JO - jsdp VO - 10 IS - 2 UR - http://jsdp.rcisp.ac.ir/article-1-73-fa.html SP - 69 EP - 86 K1 - Natural language processing K1 - Phrase chunking K1 - POS tagging K1 - Support vector machine K1 - Conditional random fields K1 - Text to speech K1 - Machine translation AB - واحدسازی، از مهمترین مسائل در پردازش زبان‌های طبیعی است که عبارت است از فرایند تقسیم متن به واحدهای معنادار نظیر واژه، عبارت نحوی، جمله و غیره. واحدسازی گروه‌های نحوی یک متن، از جمله وظایف واحدسازی متن محسوب می‌شود که در بسیاری از کارهای پردازش زبان طبیعی، نظیر سیستم‌های ترجمه‌ی ماشینی، استخراج اطلاعات، پرسش‌وپاسخ و سیستم‌های تبدیل متن به گفتار، می‌تواند به عنوان پیش‌پردازشی مهم، حضور داشته باشد. واحدسازی عبارات نحوی، در هر زبان، متناسب با ویژگی‌های نوشتاری آن زبان دارای مشکلات و پیچیدگی‌هایی است. زبان فارسی به‌دلیل وجود رسم‌الخط‌های مختلف، جملات بدون ترتیب، افعال مرکب، ابهامات معنایی و عدم نمایش مصوت‌ها دارای مشکلاتی است. در این مقاله روشی مبتنی بر روش‌های آماری و یادگیری و اطلاعات و ویژگی‌های دستور زبانی جهت تشخیص مرز و نوع گروه‌های نحوی در متون فارسی فاقد علایم سجاوندی ارائه شده است که در آن از روش‌های یادگیری ماشین بردار پشتیبان و میدان تصادفی شرطی استفاده شده است. در روش ارائه شده ویژگی‌های مختلف زبانی استخراج و مورد بررسی قرار گرفته است. بهترین دقت به دست آمده توسط این سیستم، 02/84% بر اساس معیار F و 45/87%، بر اساس تعداد برچسب‌های صحیح به کل در تعیین مرز، و 04/78%، در تعیین مرز و نوع به صورت توأم، بوده است.. LA eng UL http://jsdp.rcisp.ac.ir/article-1-73-fa.html M3 ER -