دوره 10، شماره 2 - ( 12-1392 )
جلد 10 شماره 2 صفحات 86-69
|
برگشت به فهرست نسخه ها
تعیین مرز و نوع عبارات نحوی در متون فارسی
آرمین سلیمی بدر
*
،
محمدمهدی همایونپور
دانشگاه صنعتی امیرکبیر
چکیده:
(11007 مشاهده)
واحدسازی، از مهمترین مسائل در پردازش زبانهای طبیعی است که عبارت است از فرایند تقسیم متن به واحدهای معنادار نظیر واژه، عبارت نحوی، جمله و غیره. واحدسازی گروههای نحوی یک متن، از جمله وظایف واحدسازی متن محسوب میشود که در بسیاری از کارهای پردازش زبان طبیعی، نظیر سیستمهای ترجمهی ماشینی، استخراج اطلاعات، پرسشوپاسخ و سیستمهای تبدیل متن به گفتار، میتواند به عنوان پیشپردازشی مهم، حضور داشته باشد. واحدسازی عبارات نحوی، در هر زبان، متناسب با ویژگیهای نوشتاری آن زبان دارای مشکلات و پیچیدگیهایی است. زبان فارسی بهدلیل وجود رسمالخطهای مختلف، جملات بدون ترتیب، افعال مرکب، ابهامات معنایی و عدم نمایش مصوتها دارای مشکلاتی است. در این مقاله روشی مبتنی بر روشهای آماری و یادگیری و اطلاعات و ویژگیهای دستور زبانی جهت تشخیص مرز و نوع گروههای نحوی در متون فارسی فاقد علایم سجاوندی ارائه شده است که در آن از روشهای یادگیری ماشین بردار پشتیبان و میدان تصادفی شرطی استفاده شده است. در روش ارائه شده ویژگیهای مختلف زبانی استخراج و مورد بررسی قرار گرفته است. بهترین دقت به دست آمده توسط این سیستم، 02/84% بر اساس معیار F و 45/87%، بر اساس تعداد برچسبهای صحیح به کل در تعیین مرز، و 04/78%، در تعیین مرز و نوع به صورت توأم، بوده است..
واژههای کلیدی:
پردازش زبان طبیعی – تعیین مرز و نوع گروههای نحوی – برچسبگذاری مقولهی نحوی - ماشین بردار پشتیبان – میدان تصادفی شرطی - تبدیل متن به گفتار - ترجمهی ماشینی.
متن کامل
[PDF 2581 kb]
(2740 دریافت)
نوع مطالعه:
پژوهشي
| موضوع مقاله:
مقالات پردازش متن
دریافت: 1392/3/15 | پذیرش: 1392/6/19 | انتشار: 1393/1/19 | انتشار الکترونیک: 1393/1/19
بازنشر اطلاعات
این مقاله تحت شرایط
Creative Commons Attribution-NonCommercial 4.0 International License
قابل بازنشر است.