دوره 16، شماره 3 - ( 10-1398 )                   جلد 16 شماره 3 صفحات 79-88 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Baradaran R, Golpar-Raboki E. Feature Extraction and Efficiency Comparison Using Dimension Reduction Methods in Sentiment Analysis Context. JSDP 2019; 16 (3) :88-79
URL: http://jsdp.rcisp.ac.ir/article-1-698-fa.html
برادران راضیه، گلپر رابوکی عفت. استخراج ویژگی‌ و بررسی کارآیی روش‌های کاهش بُعد در زمینه تحلیل احساس. پردازش علائم و داده‌ها. 1398; 16 (3) :88-79

URL: http://jsdp.rcisp.ac.ir/article-1-698-fa.html


گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه قم
چکیده:   (4113 مشاهده)

امروزه با فراگیر‌شدن دسترسی به اینترنت و به‌خصوص شبکه‌های اجتماعی، امکان به‌اشتراکگذاری عقاید و نظرات کاربران فراهم شده است. از سوی دیگر تحلیل احساس و عقاید افراد می‌تواند نقش به‌سزایی در تصمیم‌گیری سازمان‌ها و تولیدکنندگان داشته باشد. از‌این‌‌رو وظیفه تحلیل احساس و یا عقیدهکاوی به زمینه پژوهشی مهمی در حوزه پردازش زبان طبیعی تبدیل شده است. یکی از چالش‌های استفاده از شیوه‎های یادگیری ماشینی در حوزه پردازش زبان طبیعی، انتخاب و استخراج ویژگی‌های مناسب از میان تعداد زیاد ویژگی‌های اولیه برای دست‌یابی به مدلی با صحت مطلوب است. در این پژوهش دو روش فشرده‌سازی براساس تجزیه‌های ماتریسی SVD و   NMF و یک روش بر اساس شبکه‌های عصبی برای استخراج ویژگی‌های مؤثرتر و با تعداد کمتر در زمینه تحلیل احساس در مجموعه‌داده نظرات به زبان فارسی مورد استفاده و تأثیر سطح فشرده‌سازی و اندازه مجموعه‌داده در صحت مدل‎های ایجاد‌شده مورد ارزیابی قرارگرفته شده است. بررسی‌ها نشان می‌دهد که فشرده‌سازی نه‌‌‌تنها از بار محاسباتی و زمانی ایجاد مدل کم می‌کند، بلکه می‌تواند صحت مدل را نیز افزایش دهد. بر طبق نتایج پیاده‌سازی، فشرده‌سازی ویژگی‌ها از 7700 ویژگی اولیه به دوهزار ویژگی با استفاده از شبکه عصبی، نه‌‌تنها باعث کاهش هزینه محاسسباتی و فضای ذخیره‌سازی می‎شود، بلکه می‌تواند صحت مدل را از % 05/77 به % 85/77 افزایش دهد.  از سوی دیگر در مجموعه داده کوچک با استفاده از روش SVD نتایج بهتری به‌دست می‎‌آید و با تعداد ویژگی دوهزار می‌توان به صحت % 92/63 در مقابل % 57/63 دست پیدا کرد؛ هم‌چنین آزمایش‌ها حاکی از آن است که فشرده‌سازی با استفاده از شبکه عصبی در صورت بزرگی مجموعه‌داده برای ابعاد پایین مجموعه ویژگی،‌ بسیار بهتر از سایر روش‌ها عمل می‌کند. به‌طوری‌که تنها با یکصد ویژگی استخراج‌شده با استفاده از فشرده‌ساز شبکه عصبی از 7700 ویژگی اولیه می‌توان به صحت قابل قبول % 46/74 در مقابل صحت اولیه % 05/77 با 7700 ویژگی دست یافت.
 

متن کامل [PDF 3119 kb]   (718 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1396/4/31 | پذیرش: 1398/3/29 | انتشار: 1398/10/17 | انتشار الکترونیک: 1398/10/17

فهرست منابع
1. [1] حسینی، پدرام، احمدیان رمکی، علی، ملکی، حسن، انواری، منصوره، میرروشندل، ابولقاسم، "پیکره فارسی تحلیل احساس سِنتی پِرس"، سومین همایش ملی زبان‌شناسی رایانشی، تهران، دانشگاه صنعتی شریف، 1393.
2. [1] P. Hosseini, A. Ahmadian-Ramaki, H. Maleki, M. Anvari and A. Mirroshandel, "Sentipers: A sentiment analysis corpus for Persian", in 3th National Conference on Linguistics, Tehran: Sharif University of Technology, 2015.
3. [2] شاهدوستی، حمید رضا، قاسمیان، حسن، "استفاده از تبدیلPCA مکانی جهت ادغام تصاویر چند طیفی و تک رنگ"، پردازش علائم و داده‌ها، دوره 10، شماره 1، صفحات 69-78، ۱۳۹۲.
4. [2] H. Ghassemian, and H. R. Shahdoosti. "Multispectral and Panchromatic image fusion using Spatial PCA", in Signal and Data Processing, vol. 10, pp. 78-69, 2013.
5. [3] عسکریان، احسان، کاهانی، محسن، شریفی، شهلا، "حس‌نگار: شبکه واژگان حسی فارسی"، پردازش علائم و داده‌ها. دوره ۱۵، شماره ۱، صفحات ۷۱-۸۶، ۱۳۹۷.
6. [3] E. Asgarian, M. Kahani, and S. Sharifi, "HesNegar: Persian Sentiment WordNet", Signal and Data Processing, vol. 15, pp. 71-86, 2018.
7. [4] نجف‌زاده، محسن، راحتی قوچانی، سعید، قائمی، رضا، "یک چارچوب نیمه‌نظارتی مبتنی بر لغت‌نامه وفقی خودساخت جهت تحلیل نظرات فارسی"، پردازش علائم و داده‌ها، دوره 15، شماره 2، صفحات 89-102، ۱۳۹۷.
8. [4] M. Najafzadeh, S. Rahati Quchani, R. Ghaemi, "A Semi-supervised Framework Based on Self-constructed Adaptive Lexicon for Persian Sentiment Analysis", Signal and Data Processing, vol. 15, pp. 89-102, 2018.
9. [5] نوفرستی، سمیرا، شمس فرد، مهرنوش، "ساخت نیمه‎خودکار یک پیکره از نظرات غیر مستقیم در دامنه دارو و به کارگیری آن در تعیین قطبیت نظرات"، مجله پردازش علائم و داده‌ها، شماره 2، صفحات 35-42، 1395.
10. [5] S. Noferesti, and M. Shamsfard. “Automatic building a corpus and exploiting it for polarity classification of indirect opinions about drugs”, Signal and Data Processing, vol 2, pp. 35-42, 2017.
11. [6] D. Ankitkumar, R. Badre, and M. Kinikar, “A Survey on Sentiment Analysis and Opinion Mining”, International Journal of Innovative Research in Computer and Communication Engineering, vol. 2, no. 11, November 2014.
12. [7] J. Blitzer, “Dimensionality Reduction for Language, A Survey of Dimensionality Reduction Techniques for Natural Language”, 2008, [Online]. Available:http://john.blitzer.com/papers/wpe2.pdf. [Accessed: 10 July 2017].
13. [8] M. Chu, F. Diele, R. Plemmons, and S. Ragni, “Optimality, Computation and Interpretation of NonNegative Matrix Factorizations”, October 2014. Available: http://users.wfu.edu/ple-mmons/papers/chu_ple.pdf. [Accessed: 10 July 2017].
14. [9] G. Golub, and C. V. Loan, Matrix computation, 3th ed. Baltimore, Maryland: JHU Press, 1989.
15. [10] J. Jotheeswaran, B. MadhuSudhanan, and R.Loganathan, “Feature Reduction using Principal Component Analysis for Opinion Mining”, International Journal of Computer Science and Telecommunications, vol. 3, no. 5, pp. 118-121, May 2012.
16. [11] J. Jotheeswaran, and S.Koteeswaran, “Feature Selection using Random Forest method for Sentiment Analysis”, Indian Journal of Science and Technology, vol. 9, no. 3, pp. 1-7, January 2016.
17. [12] E. Keogh, and A. Mueen, “Curse of dimensionality”, In: Encyclopedia of Machine Learning, Springer, pp. 257–258, 2010.
18. [13] J. Kim, and H. Park, “Sparse nonnegative matrix factorization for clustering”, Technical Report CSE Technical Reports, GTCSE-08-01, Georgia Institute of Technology, 2008.
19. [14] D.P. Kingma, and M. Welling, “Auto-Encoding Variational Bayes”, Cornell University Library, ArXiv: 1312.6114, December 2013.
20. [15] D. D. Lee, and H. Sebastian Seung, “Algorithms for Non-Negative Matrix Factorization”, Advances in Neural Information Processing Systems, vol. 13, pp. 556-562, 2001.
21. [16] TS. Lee, BC. Shia, and CL. Huh, “Social Media Sentimental Analysis in Exhibition’s Visitor Engagement Prediction”, American Journal of Industrial and Business Management, vol. 06, pp. 392-400. March 2016.
22. [17] T. Li, Y. Zhang, and V. Sindhwani, “A non-negative matrix tri-factorization approach to sentiment classification with lexical prior kno-wledge”, in Proceedings of ACL-IJCNLP, 2009, pp. 244–252.
23. [18] C. Y. Cheng, J. W Liou, D. R Liou, “Autoencoder for Words”, Neurocomputing, vol. 139, pp. 84–96, September 2014.
24. [19] B. Liu,”Sentiment Analysis and Opinion Mining”, Synthesis lectures on human language technologies, vol. 5. no. 1, pp. 1-167, 2012.
25. [20] W. Medhat, A. Hassan, and H. Korashy, “Sentiment analysis algorithms and applications: A survey”, Ain Shams Engineering Journal, vol. 5, no. 4, pp. 1093-1113, December 2014.
26. [21] T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient estimation of word representations in vector space”, ICLR, 2013.
27. [22] T. Mikolov, M. Karafiát, L. Burget, J. Cernockỳ, and S. Khudanpur, “Recurrent neural network based language model,” in INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, 2010, pp. 1045–1048.
28. [23] B. Pang, L. Lee, “Opinion mining and sentiment analysis”, Foundations and Trends in Infor-mation Retrieval, vol. 2, no. 1-2, pp. 1-135, 2008.
29. [24] B. Pang, L. Lee, S. Vaithyanathan, “Thumbs up? Sentiment classification using machine learning techniques”, in Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 79–86, 2002.
30. [25] W. Rong, Y. Nie, Y. Ouyang, B. Peng, and Z. Xiong, “Auto-encoder Based Bagging Architecture for Sentiment Analysis”, Journal of Visual Languages and Computing, vol. 25, pp. 840-849, 2014.
31. [26] G. Vinodhini, and RM. Chandrasekaran, “Opinion mining using principal component analysis based ensemble model for e-commerce application”, CSI Transactions on ICT, vol. 2, pp. 169–179, November 2014.
32. [27] M. E. Wall, A. Rechtsteiner, and L. M. Rocho, “Singular Value Decomposition and Principal Component Analysis”, chapter 5 in A Practical Approach to Microarray Data Analysis Kluwer Academic Publishers, Boston, MA, 91-109, 2003.
33. [28] Wikipedia-Autoencoder, [Online]. Available: https://en.wikipedia.org/wiki/Autoencoder. [Accessed: 10 July 2017].
34. [29] Y. Yoshida, T. Hirao, T. Iwata, M. Nagata, and Y. Matsumoto, “Transfer learning for multiple-domain sentiment analysis identifying domain dependent/independent word polarity.” in Proceedings of the Twenty-Fifth AAAI Con-ference on Artificial Intelligence, 2011.
35. [30] N. Zainuddin,A. Selamat and R. Ibrahim, "Hybrid Sentiment Classification on Twitter Aspect-Based Sentiment Analysis," Applied Intelligence, vol. 48, no. 5, pp. 1218-1232, May 2018.

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.