یک چارچوب نیمه‌نظارتی مبتنی بر لغت‌نامه وفقی خودساخت جهت تحلیل نظرات فارسی

نجف‌زاده, محسن; راحتی قوچانی, سعید; قائمی, رضا

doi:10.29252/jsdp.15.2.89

دوره 15، شماره 2 - ( 6-1397 ) جلد 15 شماره 2 صفحات 102-89 | برگشت به فهرست نسخه ها

‎ 10.29252/jsdp.15.2.89

Mendeley

Zotero

RefWorks

Najafzadeh M, Rahati Quchan S, Ghaemi R. A Semi-supervised Framework Based on Self-constructed Adaptive Lexicon for Persian Sentiment Analysis. JSDP 2018; 15 (2) :89-102
URL: http://jsdp.rcisp.ac.ir/article-1-644-fa.html

نجف‌زاده محسن، راحتی قوچانی سعید، قائمی رضا. یک چارچوب نیمه‌نظارتی مبتنی بر لغت‌نامه وفقی خودساخت جهت تحلیل نظرات فارسی. پردازش علائم و داده‌ها. 1397; 15 (2) :89-102

URL: http://jsdp.rcisp.ac.ir/article-1-644-fa.html

یک چارچوب نیمه‌نظارتی مبتنی بر لغت‌نامه وفقی خودساخت جهت تحلیل نظرات فارسی

محسن نجف‌زاده

، سعید راحتی قوچانی^*

، رضا قائمی

دانشگاه آزاد اسلامی، واحد مشهد

چکیده: (6316 مشاهده)

با معرفی وب 2.0 و 3.0 تعاملات کاربران در فضای مجازی، منجر به ایجاد انبوهی از نظرات ارزشمند شده است. با توجه به‌دشواری یا عدم امکان تحلیل و بررسی دستی این نظرات، تحلیل احساس متن و یا نظرکاوی به‌عنوان یکی از زیرمجموعه‌های پردازش زبان طبیعی مطرح شد. تلاش‌های محدودی در نظرکاوی فارسی نسبت به سایر زبان‌ها صورت گرفته است. در این مقاله برای نخستین بار، یک چارچوب نیمه‌نظارتی برای نظرکاوی فارسی ارائه شده است. درضمن، ازآنجاکه یکی از آخرین پیشرفت‌های علمی در نظرکاوی زبان فارسی الگوریتمی بر اساس استخراج الگوهای حسی وفقی (حساس به مجموعه‌داده) مبتنی بر خبره انسانی است، در این پژوهش ضمن ارتقای الگوریتم یادشده، تعیین برچسب‌های حاوی احساس به کمک یک لغت‌نامه خودساخت (بدون نیاز به خبره انسانی) وفقی انجام می‌گیرد؛ همچنین کاربرد دسته‌بند مدل مخفی مارکوف خودناظر بر روی خصیصه‌های یادشده در کنار قوانین مبتنی بر معیار شباهت برای فرآیند نظرکاوی بررسی ‌شده‌است. در راستای خودآموزسازی هوشمند، روشی برای ارزیابی قابلیت اطمینان بالای خروجی، ارائه ‌شده‌است که خودآموزی به‌شرط وجود آن انجام می‌پذیرد. روش پیشنهادی با اجرا بر روی دادگان مبنا نرخ صحت نود درصد (باوجود عدم نیاز به خبره انسانی) را که در مقایسه با روش‌های نظارتی و نیمه‌نظارتی مستقل از خبره موجود برتری قابل‌ملاحظه‌ای دارد، خروجی می‌دهد؛ همچنین این الگوریتم نیمه‌نظارتی هنگام استفاده از مجموعه آموزش کوچک با نسبت مجموعه دادگان آموزش/آزمون ده به نود نیز بررسی و با نرخ صحت 80% قابلیت اطمینان آن به اثبات رسید.

واژه‌های کلیدی: نظرکاوی، یادگیری خودناظر، لغت‌نامه خودساخت، مدل مخفی مارکوف، لغت‌نامه وفقی

متن کامل [PDF 4317 kb] (2618 دریافت)

نوع مطالعه: كاربردي | موضوع مقاله: مقالات پردازش متن
دریافت: 1396/1/21 | پذیرش: 1396/8/3 | انتشار: 1397/6/25 | انتشار الکترونیک: 1397/6/25

فهرست منابع

1. [1] سید محمد اصغری نکاح، محسن کاهانی و احسان. عسگریان. «نظرکاوی با استفاده از برچسب‌های صرفی و معنایی و کشف روابط حسی جملات فارسی». بیستمین کنفرانس ملی سالانه انجمن کامپیوتر ایران. دانشگاه فردوسی مشهد. 1394.

2. [1] S.M. Asghari N, M. Kahani, and E. Askarian, "Opinion Mining by means of syntactic and semantic labels, and discovering emotional relations in Persian sentences". Computer Society of Iran (20th) Computer Conference (CSICC 2015). Ferdowsi University of Mashhad. 2015

3. [2] برهانی زرندی، سمیه، علی اکبر نیک نفس، و مجید محمدی. "عقیده کاوی در نقد کالا با استفاده از شبکه واژگان احساسی"، دومین کنفرانس ملی مهندسی صنایع و سیستم ها، نجف آباد، دانشگاه آزاد اسلامی واحد نجف آباد، گروه مهندسی صنایع، 1392.

4. [2] S. Borhani Z., A.A. Niknafs, and M. Mohammadi, "Opinion mining in product reviews, using emotional vocabulary network" 2nd National Conference on Indurtrial Engineering & Systems (NIESC 2014). Najafabad branch, Islamic Azad University. 2014

5. [3] هاجر ستوده, زهره هنرجویان. "مروری بر دشواری‌های زبان فارسی در محیط دیجیتال و تاثیرات آنها بر اثر بخشی پردازش خودکار متن و بازیابی اطلاعات". فصلنامه علمی و پژوهشی کتابداری و اطلاع رسانی - آستان قدس رضوی، 1391.

6. [3] H. Sotudeh and Z. Honarjooyan, "A review on Persian challenges in digital paradigms, and their effect on efficiency of automatic text processing and information retrieval," Library and Informa-tion Science, 15 (4), Astan Quds Razavi. 2013

7. [4] S. Alimardani and A. Aghaei, "Opinion Mining in Persian Language Using Supervised Algorithms," 2015.

8. [5] A. Azimizadeh, M. M. Arab, and S. R. Quchani, "Persian part of speech tagger based on Hidden Markov Model," 9th JADT, 2008.

9. [6] M. E. Basiri, A. R. Naghsh-Nilchi, and N. Ghassem-Aghaee, "A Framework for Sentiment Analysis in Persian," 2014.

10. [7] J. Bollen, H. Mao, and X. Zeng, "Twitter mood predicts the stock market," J. Comput. Sci., vol. 2, no. 1, pp. 1–8, 2011. [DOI:10.1016/j.jocs.2010.12.007]

11. [8] I. Dehdarbehbahani, A. Shakery, and H. Faili, "Semi-supervised word polarity identification in resource-lean languages," Neural Networks, vol. 58, pp. 50-59, 2014. [DOI:10.1016/j.neunet.2014.05.018] [PMID]

12. [9] M. Gamon, "Sentiment classification on customer feedback data: noisy data, large feature vectors, and the role of linguistic analysis," in Proceedings of the 20th international conference on Computa-tional Linguistics, 2004, p. 841.

13. [10] V. Gupta and G. S. Lehal, "A survey of text mining techniques and applications," J. Emerg. Technol. web Intell., vol. 1, no. 1, pp. 60–76, 2009. [DOI:10.4304/jetwi.1.1.60-76]

14. [11] A. K. Jain and Y. Pandey, "Analysis and implementation of sentiment classification using lexical POS markers," Int. J., vol. 2, no. 1, 2013.

15. [12] B. Liu, "Sentiment analysis and opinion mining," Synth. Lect. Hum. Lang. Technol., vol. 5, no. 1, pp. 1–167, 2012. [DOI:10.2200/S00416ED1V01Y201204HLT016]

16. [13] B. Liu, "Sentiment analysis: Mining opinions, sentiments, and emotions": Cambridge Univer-sity Press, 2015. [DOI:10.1017/CBO9781139084789]

17. [14] J. Liu, Y. Cao, C.-Y. Lin, Y. Huang, and M. Zhou, "Low-Quality Product Review Detection in Opinion Summarization," in EMNLP-CoNLL, 2007, pp. 334–342.

18. [15] R. Kumar and R. Vadlamani, "A survey on opinion mining and sentiment analysis: tasks, approaches and applications," Knowledge-Based Syst., vol. 89, pp. 14–46, 2015. [DOI:10.1016/j.knosys.2015.06.015]

19. [16] E. Sadikov, A. Parameswaran, and P. Venetis, "Blogs as predictors of movie success," 2009

20. [17] M. Saraee and A. Bagheri, "Feature selection methods in Persian sentiment analysis," in Natural Language Processing and Information Systems, Springer, 2013, pp. 303–308. [DOI:10.1007/978-3-642-38824-8_29]

21. [18] M. Shams, A. Shakery, and H. Faili, "A non-parametric LDA-based induction method for sentiment analysis," in Artificial Intelligence and Signal Processing (AISP), 2012 16th CSI International Symposium on, 2012, pp. 216–221.

22. [19] S. M. Thede and M. P. Harper, "A second-order hidden Markov model for part-of-speech tagging," in Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, 1999, pp. 175–182 [DOI:10.3115/1034678.1034712]

23. [20] A. Tumasjan, T. O. Sprenger, P. G. Sandner, and I. M. Welpe, "Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment," ICWSM, vol. 10, pp. 178–185, 2010.

24. [21] H. Scudder, "Probability of error of some adaptive pattern-recognition machines," IEEE Transactions on Information Theory, vol. 11, pp. 363-371, 1965. [DOI:10.1109/TIT.1965.1053799]

25. [22] N. F. F. da Silva, L. F. Coletta, E. R. Hruschka, and E. R. Hruschka Jr, "Using unsupervised information to improve semi-supervised tweet sentiment classification," Information Sciences, vol. 355, pp. 348-365, 2016. [DOI:10.1016/j.ins.2016.02.002]

26. [23] L. R. Welch, "Hidden Markov models and the Baum-Welch algorithm," IEEE Information Theory Society Newsletter, vol. 53, pp. 10-13, 2003.

27. [24] M. Kang, J. Ahn, and K. Lee, "Opinion mining using ensemble text hidden Markov models for text classification." 2017.

28. [25] N. F. F. D. Silva, L. F.Coletta, & E. R.Hruschka, "A survey and comparative study of tweet sentiment analysis via semi-supervised learning." ACM Computing Surveys (CSUR), 49(1), 15. 2016 [DOI:10.1145/2932708]

29. [26] D. Rao, and D. Ravichandran, "Semi-supervised polarity lexicon induction" in Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics (pp. 675-682). Association for Computational Linguistics. 2009.

30. [27] L. Becker, G. Erhart, D. Skiba, and V. Matula, "AVAYA: Sentiment Analysis on Twitter with Self-Training and Polarity Lexicon Expansion". SemEval@ NAACL-HLT, pp. 333-340, 2013.

31. [28] S.Liu, F.Li, F.Li, X.Cheng, & H.Shen, "Adaptive co-training SVM for sentiment classification on tweets". In Proceedings of the 22nd International Conference on World Wide Web Information & Knowledge Management (pp. 2079-2088). ACM. 2013. [PMCID]

32. [29] S.Liu, W.Zhu, N.Xu, F.Li, X. Q.Cheng, Y.Liu, & Y.Wang, "Co-training and visualizing sentim-ent evolvement for tweet events". In Proceedings of the 22nd International Confer-ence on World Wide Web (pp. 105-106). ACM. 2013

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.

نظر شما در مورد قالب جدید چیست؟
	خوب
	متوسط
	ضعیف

پایگاه‌های مرتبط

واژگان کلیدی

نظرسنجی