برچسب‌گذاری ادات سخن زبان فارسی با استفاده از مدل شبکۀ فازی

بادپیما, محمد; حورعلی, فاطمه; حورعلی, مریم

doi:10.29252/jsdp.15.4.123

دوره 15، شماره 4 - ( 12-1397 ) جلد 15 شماره 4 صفحات 130-123 | برگشت به فهرست نسخه ها

‎ 10.29252/jsdp.15.4.123

برچسب‌گذاری ادات سخن زبان فارسی با استفاده از مدل شبکۀ فازی

محمد بادپیما

، فاطمه حورعلی

، مریم حورعلی^*

دانشگاه مالک‌اشتر

چکیده: (3832 مشاهده)

برچسب‌گذاری ادات سخن یکی از مسائل مطرح در حوزۀ پردازش زبان‌های طبیعی است. هدف در این مسئله تعیین نقش واژگان در جمله است. برحسب این برچسب‌گذاری ویژگی‌های دستوری و نحوی واژگان نیز مشخص می‌شود. در این مقاله یک روش مبتنی بر آماری برای ادات سخن فارسی پیشنهاد شده است. در این روش محدودیت‌های روش‌های آماری با استفاده از معرّفی یک مدل شبکه فازی کاهش پیدا کرده است؛ بهطوریکه درصورت وجود تعداد کمی دادۀ آموزشی، مدل فازی پارامترهای قابل اطمینان‌تری را تخمین می‌زند. در این روش ابتدا هنجار‌سازی به‌عنوان پیش‌پردازش صورت گرفته و سپس فراوانی هر واژه با توجه به برچسب مربوطه به‌صورت یک تابع فازی تخمین زده و سپس مدل شبکه فازی تشکیل شده و درجۀ هر یال در این شبکه با استفاده از یک شبکۀ عصبی و تابع عضویت مشخص می‌شود. درنهایت بعد از اینکه مدل شبکۀ فازی برای یک جمله ساخته شد، از الگوریتم ویتربی برای تعیین محتمل‌ترین مسیر در این شبکه استفاده شده است. نتایج آزمایش روی پیکرۀ بی‌جن‌خان کارایی این روش را تأیید کرده و نشان می‌دهد که روش پیشنهادی در شرایطی که داده‌های آموزشی کمتری در اختیار باشد، از روش‌های مشابه، مثل مدل مخفی مارکوف عملکرد بهتری دارد.

واژه‌های کلیدی: پردازش زبان‌های طبیعی، برچسب‌زنی اجزای سخن، زبان فارسی، فازی، شبکۀ عصبی

متن کامل [PDF 8386 kb] (931 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1395/10/1 | پذیرش: 1397/10/19 | انتشار: 1397/12/17 | انتشار الکترونیک: 1397/12/17

فهرست منابع

1. [1] محمدرضا فیضی درخشی، فرهنگ فیروزی، مهدی رحیمی،"مقایسه کارهای انجام‌شده برای برچسب‌گذاری ادات سخن زبان فارسی"، زبان‌شناسی رایانشی، سومین همایش ملی زبان‌شناسی رایانشی، دانشگاه صنعتی شریف، ۱۳۹۳. [1] M. R. Feizi Derakhshi, F. Firozi, M. Rahimi, "Comparison of Works Performed on the Persian Part-of-Speech Tagging," Computational Linguis-tics, 3rd National Conference on Computer Linguistics, Sharif University of Technology, 2014.

2. [2] مهدی حسینی، سیستم برچسب‌گذاری و ابهام‌زدایی خودکار اجزای کلام برای پیکره متنی زبان فارسی، کارشناسی ارشد، علم و صنعت، تهران، ۱۳۸۷. [2] M. Hosseini, "Automatic labeling system and automatic disambiguation of the components of the word for the textual form of Persian language," MA, Iran University of Science And Technology, Tehran, 2008.

3. [3] M. BijanKhan, "The Role of the Corpus in Writing a Grammar: An Introduction to a Software", Iranian Journal of Linguistics, 19(2), 2004.

4. [4] G. D. Forney, "The Viterbi algorithm," Proceedings of the IEEE, pp. 268-278, 1973. [DOI:10.1109/PROC.1973.9030]

5. [5] E. Brill, "A simple rule-based part of speech tagger", In Proceedings of the 3rd Conference on Applied Natural Language Process-ing(ANLP-92), pp. 153-155, 1992. [DOI:10.3115/974499.974526]

6. [6] K. W. Church, "A stochastic PARTS program and noun phrase parser for unrestricted text", In Proceedings of Applied Natural Language Pro-cessing, pp. 136-143, 1988. [DOI:10.3115/974235.974260]

7. [7] J. Benello, A. W. Mackie , and J. A. Anderson , "Syntactic category disambiguation with neural networks," Computer Speech and Language, vol.3, pp.203-217, 1989. [DOI:10.1016/0885-2308(89)90018-1]

8. [8] H. Hidekiyo and Y. Nishkawa, "Fuzzy network technique for technological forecast-ing", Fuzzy Sets and Systems, pp. 99-113, 1984. [DOI:10.1016/0165-0114(84)90094-0]

9. [9] H. Kawamura, "Fuzzy network for decision support systems", Fuzzy Sets and Systems, pp. 59-72, 1993. [DOI:10.1016/0165-0114(93)90322-9]

10. [10] S. Chanas and, W. Kolodziejczyk, "Maximum flow in a network with fuzzy arc capacities", Fuzzy Sets and Systems, pp. 165-173, 1982. [DOI:10.1016/0165-0114(82)90006-9]

11. [11] R. Sedgewick, "Algorithms in C," Addison-Wes-ley Publishing Company, 1990.

12. [12] H.-J. Zimmermann , "Fuzzy Set Theory and Its Applications, " Kluwer-Nijhoff Publishing, pp. 61-82, 1985. [DOI:10.1007/978-94-015-7153-1_6]

13. [13] T. Brants, "TnT - a statistical partof-speech tagger," In Proceedings of the 6th Conference on Applied Natural Language Processing, 2000, pages 224-231.

14. [14] K. Toutanova, D. Klein, Ch. D. Manning and Y. Singer, "Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network", 2003, [DOI:10.3115/1073445.1073478]

15. [15] J. Giménez, and L. Màrquez, "A general pos tagger generator based on support vector machines, " In Proceedings of the 4th Interna-tional Conference on Language Resources and Evaluation (LREC 2004), Lisbon, Portugal.

16. [16] H. Tseng, D. Jurafsky, and Ch. Manning. "Morphological features help POS tagg-ing of unknown words across language varieties, " Fourth SIGHAN Work-shop on Chinese Language Processing, 2005, pp. 32-39.

17. [17] P. Hal acsy, A. Kornai, and C. Oravecz, "HunPos - an open source trigram tagger, ", In Proceedings of the 45th Annual Meeting of the Association for Com-putational Linguistics, Posters Prague, Czech Republic, 2007. [DOI:10.3115/1557769.1557830]

18. [18] S. Mostafa ASSI and M. Haji Abdolhosseini, "Grammatical Tagging of a Persian Corpus," Institute for Humanities and Cultural Studies, 2000.

19. [19] S. Mojgan, "A Statistical Part-of-Speech Tagger for Persian," Department of Linguistics and Philology, NODALIDA 2011, Riga, Latvia, May 11-13, 2011.

20. [20] K. Jae-Hoon, and G. Chang Kim, "Fuzzy network model for part-of-speech tagging under small training data," Natural Language En-gineering 2.02 (1996), pp. 95-110. [DOI:10.1017/S1351324996001258]

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.