دوره 10، شماره 2 - ( 12-1392 )                   جلد 10 شماره 2 صفحات 86-69 | برگشت به فهرست نسخه ها

XML English Abstract Print


دانشگاه صنعتی امیرکبیر
چکیده:   (11007 مشاهده)
واحدسازی، از مهمترین مسائل در پردازش زبان‌های طبیعی است که عبارت است از فرایند تقسیم متن به واحدهای معنادار نظیر واژه، عبارت نحوی، جمله و غیره. واحدسازی گروه‌های نحوی یک متن، از جمله وظایف واحدسازی متن محسوب می‌شود که در بسیاری از کارهای پردازش زبان طبیعی، نظیر سیستم‌های ترجمه‌ی ماشینی، استخراج اطلاعات، پرسش‌وپاسخ و سیستم‌های تبدیل متن به گفتار، می‌تواند به عنوان پیش‌پردازشی مهم، حضور داشته باشد. واحدسازی عبارات نحوی، در هر زبان، متناسب با ویژگی‌های نوشتاری آن زبان دارای مشکلات و پیچیدگی‌هایی است. زبان فارسی به‌دلیل وجود رسم‌الخط‌های مختلف، جملات بدون ترتیب، افعال مرکب، ابهامات معنایی و عدم نمایش مصوت‌ها دارای مشکلاتی است. در این مقاله روشی مبتنی بر روش‌های آماری و یادگیری و اطلاعات و ویژگی‌های دستور زبانی جهت تشخیص مرز و نوع گروه‌های نحوی در متون فارسی فاقد علایم سجاوندی ارائه شده است که در آن از روش‌های یادگیری ماشین بردار پشتیبان و میدان تصادفی شرطی استفاده شده است. در روش ارائه شده ویژگی‌های مختلف زبانی استخراج و مورد بررسی قرار گرفته است. بهترین دقت به دست آمده توسط این سیستم، 02/84% بر اساس معیار F و 45/87%، بر اساس تعداد برچسب‌های صحیح به کل در تعیین مرز، و 04/78%، در تعیین مرز و نوع به صورت توأم، بوده است.. 
متن کامل [PDF 2581 kb]   (2740 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1392/3/15 | پذیرش: 1392/6/19 | انتشار: 1393/1/19 | انتشار الکترونیک: 1393/1/19

بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.