Signal and Data Processing
پردازش علائم و دادهها
JSDP
Engineering & Technology
http://jsdp.rcisp.ac.ir
1
admin
2538-4201
2538-421X
10.52547/jsdp
1
8888
fa
jalali
1392
12
1
gregorian
2014
3
1
10
2
online
1
fulltext
fa
تعیین مرز و نوع عبارات نحوی در متون فارسی
Phrase chunking in Persian texts
مقالات پردازش متن
Paper
پژوهشي
Research
<a name="up">واحدسازی، از مهمترین مسائل در پردازش زبانهای طبیعی است که عبارت است از فرایند تقسیم متن به واحدهای معنادار نظیر واژه، عبارت نحوی، جمله و غیره. واحدسازی گروههای نحوی یک متن، از جمله وظایف واحدسازی متن محسوب میشود که در بسیاری از کارهای پردازش زبان طبیعی، نظیر سیستمهای ترجمهی ماشینی، استخراج اطلاعات، پرسشوپاسخ و سیستمهای تبدیل متن به گفتار، میتواند به عنوان پیشپردازشی مهم، حضور داشته باشد. واحدسازی عبارات نحوی، در هر زبان، متناسب با ویژگیهای نوشتاری آن زبان دارای مشکلات و پیچیدگیهایی است. زبان فارسی بهدلیل وجود رسمالخطهای مختلف، جملات بدون ترتیب، افعال مرکب، ابهامات معنایی و عدم نمایش مصوتها دارای مشکلاتی است. در این مقاله روشی مبتنی بر روشهای آماری و یادگیری و اطلاعات و ویژگیهای دستور زبانی جهت تشخیص مرز و نوع گروههای نحوی در متون فارسی فاقد علایم سجاوندی ارائه شده است که در آن از روشهای یادگیری ماشین بردار پشتیبان و میدان تصادفی شرطی استفاده شده است. در روش ارائه شده ویژگیهای مختلف زبانی استخراج و مورد بررسی قرار گرفته است. بهترین دقت به دست آمده توسط این سیستم، 02/84% بر اساس معیار F و 45/87%، بر اساس تعداد برچسبهای صحیح به کل در تعیین مرز، و 04/78%، در تعیین مرز و نوع به صورت توأم، بوده است.. </a>
Text tokenization is the process of tokenizing text to meaningful tokens such as words, phrases, sentences, etc. Tokenization of syntactical phrases named as chunking is an important preprocessing needed in many applications such as machine translation information retrieval, text to speech, etc. In this paper chunking of Farsi texts is done using statistical and learning methods and the grammatical characteristics of Farsi texts. Many features and labeling methods are examined one by one and the best features and labeling techniques are used for the detection of syntactic phrases and their boundaries. Several machine learning techniques including Support Vector Machine and Conditional Random Fields are used as classifier in our experiments. The impact of the size of training texts on chunking performance was studied as well. Using the proposed methods in this paper, a performance of 84.02% was obtained for detection of phrase boundaries and 78.04% for detection of both phrase boundaries and phrase type
پردازش زبان طبیعی – تعیین مرز و نوع گروههای نحوی – برچسبگذاری مقولهی نحوی - ماشین بردار پشتیبان – میدان تصادفی شرطی - تبدیل متن به گفتار - ترجمهی ماشینی.
Natural language processing, Phrase chunking, POS tagging, Support vector machine, Conditional random fields, Text to speech, Machine translation
69
86
http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-292-1&slc_lang=fa&sid=1
armin
salimibadr
آرمین
سلیمی بدر
arminsb@gmail.com
10031947532846008038
10031947532846008038
Yes
دانشگاه صنعتی امیرکبیر
Mohammad Mehdi
Homayounpour
محمدمهدی
همایونپور
homayoun@aut.ac.ir
10031947532846008039
10031947532846008039
No
دانشگاه صنعتی امیرکبیر