Signal and Data Processing

fa تعیین مرز و نوع عبارات نحوی در متون فارسی Phrase chunking in Persian texts مقالات پردازش متن Paper پژوهشي Research <a name="up">واحدسازی، از مهمترین مسائل در پردازش زبان‌های طبیعی است که عبارت است از فرایند تقسیم متن به واحدهای معنادار نظیر واژه، عبارت نحوی، جمله و غیره. واحدسازی گروه‌های نحوی یک متن، از جمله وظایف واحدسازی متن محسوب می‌شود که در بسیاری از کارهای پردازش زبان طبیعی، نظیر سیستم‌های ترجمه‌ی ماشینی، استخراج اطلاعات، پرسش‌وپاسخ و سیستم‌های تبدیل متن به گفتار، می‌تواند به عنوان پیش‌پردازشی مهم، حضور داشته باشد. واحدسازی عبارات نحوی، در هر زبان، متناسب با ویژگی‌های نوشتاری آن زبان دارای مشکلات و پیچیدگی‌هایی است. زبان فارسی به‌دلیل وجود رسم‌الخط‌های مختلف، جملات بدون ترتیب، افعال مرکب، ابهامات معنایی و عدم نمایش مصوت‌ها دارای مشکلاتی است. در این مقاله روشی مبتنی بر روش‌های آماری و یادگیری و اطلاعات و ویژگی‌های دستور زبانی جهت تشخیص مرز و نوع گروه‌های نحوی در متون فارسی فاقد علایم سجاوندی ارائه شده است که در آن از روش‌های یادگیری ماشین بردار پشتیبان و میدان تصادفی شرطی استفاده شده است. در روش ارائه شده ویژگی‌های مختلف زبانی استخراج و مورد بررسی قرار گرفته است. بهترین دقت به دست آمده توسط این سیستم، 02/84% بر اساس معیار F و 45/87%، بر اساس تعداد برچسب‌های صحیح به کل در تعیین مرز، و 04/78%، در تعیین مرز و نوع به صورت توأم، بوده است.. </a> Text tokenization is the process of tokenizing text to meaningful tokens such as words, phrases, sentences, etc. Tokenization of syntactical phrases named as chunking is an important preprocessing needed in many applications such as machine translation information retrieval, text to speech, etc. In this paper chunking of Farsi texts is done using statistical and learning methods and the grammatical characteristics of Farsi texts. Many features and labeling methods are examined one by one and the best features and labeling techniques are used for the detection of syntactic phrases and their boundaries. Several machine learning techniques including Support Vector Machine and Conditional Random Fields are used as classifier in our experiments. The impact of the size of training texts on chunking performance was studied as well. Using the proposed methods in this paper, a performance of 84.02% was obtained for detection of phrase boundaries and 78.04% for detection of both phrase boundaries and phrase type پردازش زبان طبیعی – تعیین مرز و نوع گروه‌های نحوی – برچسب‌گذاری مقوله‌ی نحوی - ماشین بردار پشتیبان – میدان تصادفی شرطی - تبدیل متن به گفتار - ترجمه‌ی ماشینی. Natural language processing, Phrase chunking, POS tagging, Support vector machine, Conditional random fields, Text to speech, Machine translation 69 86 http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-292-1&slc_lang=fa&sid=1 armin salimibadr آرمین سلیمی بدر arminsb@gmail.com 10031947532846008038 10031947532846008038 Yes دانشگاه صنعتی امیرکبیر Mohammad Mehdi Homayounpour محمدمهدی همایون‌پور homayoun@aut.ac.ir 10031947532846008039 10031947532846008039 No دانشگاه صنعتی امیرکبیر