دوره 20، شماره 2 - ( 6-1402 )                   جلد 20 شماره 2 صفحات 58-39 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Heidari V, Taheri S M, Amini M. Topic Modeling Based on Variational Bayes Method. JSDP 2023; 20 (2) : 3
URL: http://jsdp.rcisp.ac.ir/article-1-1228-fa.html
حیدری وحید، طاهری سید محمود، امینی مرتضی. الگوسازی موضوع‌ها بر پایه‌ی روش بیز گوناگونی. پردازش علائم و داده‌ها. 1402; 20 (2) :39-58

URL: http://jsdp.rcisp.ac.ir/article-1-1228-fa.html


دانشگاه تهران
چکیده:   (879 مشاهده)
در این مقاله، برپایه‌ی روش بیز گوناگونی، نشان می‌دهیم که روش تخصیص پنهان دیریکله که یک مدل احتمالاتی مولّد است و در پردازش زبان‌های طبیعی، متن‌کاوی، کاهش ابعاد، و زیست‌داده‌ورزی کاربرد دارد،  نسبت به روش تحلیل معنایی پنهان احتمالاتی در مدل‌بندی داده‌ها عملکرد بهتری دارد. در این باره، ابتدا یک مدل بیزی را در مدل‌سازی موضوع‌ها شرح می‌دهیم. آنگاه با روش بیز گوناگونی و الگوریتم امیدریاضی-بیشینهسازی (EM) پارامترهای مدل را برآورد می‌کنیم. سپس الگوریتم ارائه شده، موسوم به الگوریتم EM گوناگونی، را برپایه‌ی یک مجموعه‌داده‌ی نوشتاری از داده‌های واقعی در زمینه‌ی تحلیل داده‌های خبری پیاده‌سازی می‌کنیم و مدل‌بندی زبانی را بر اساس ملاک سرگشتگی بررسی می‌کنیم، و دقت خوشه‌بندی موضوع‌ها و کاربرد کاهش ابعاد داده‌های حجیم را با کمک ماشین بردار پشتیبان می‌سنجیم. همچنین در مقایسه‌ای دیگر، کاربرد الگوریتم پیشنهادی را در پالایش همکارانه بررسی می‌کنیم.
شماره‌ی مقاله: 3
متن کامل [PDF 1412 kb]   (269 دریافت)    
نوع مطالعه: كاربردي | موضوع مقاله: مقالات پردازش متن
دریافت: 1400/1/30 | پذیرش: 1401/12/3 | انتشار: 1402/7/30 | انتشار الکترونیک: 1402/7/30

فهرست منابع
1. [1] م. رسولی, ب. مینایی‌بیدگلی, ه. فیلی, م. امینیان, "استخراج بی ناظر ظرفیت فعل در زبان فارسی," پردازش علائم و داده‌ها, دوره ۹,شماره ۲, صفحات ۱۲-۳, ۱۳۹۱.
2. ]1[ M. S. Rasoli, B. Minaei Bidgoli, H. Faili, and M. Aminian, "Unsupervised Persian Verb Valency Induction," Signal and Data Processing, vol. 9, no. 2, 3-12, 2013.
3. [2] ا. عسکریان, م. کاهانی, ش. شریفی, "حس‌نگار: شبکۀ واژگان فارسی", پردازش علائم و داده‌ها, دوره ۱۵, شمارۀ ۱, صفحات ۸۶-۷۱, ۱۳۹۷.
4. ]2[ E. Asgarian, M. Kahani, and S. Sharifi, "HesNegar: Persian Sentiment WordNet," Signal and Data Processing, vol. 15, no. 1, pp. 71-86, 2018. [DOI:10.29252/jsdp.15.1.71]
5. [3] ه. فیلی, "استفاده از تجزیه‌گرهای احتمالاتی زبان طبیعی جهت بهبود ترجمۀ افعال گروهی انگلیسی به فارسی," پردازش علائم و داده‌ها, دوره ۷, شماره ۱, صفحات ۷۶-۶۵, ۱۳۸۹.
6. ]3[ H. Faili, "Phrasal Verb Translation from English to Persian Using Statistical Parsing," Signal and Data Processing, vol. 7, no. 1, pp. 66-76, 2010.
7. [4] ه. فیلی, ح. قادر, م. آنالویی, "یک الگوی بیزی برای استخراج با مربی گرامر زبان طبیعی," پردازش علائم و داده‌ها, دوره ۹, شماره ۱, صفحات ۳۴-۱۹, ۱۳۹۱.
8. ]4[ H. Faili, H. Ghader, and M. Analoui, "A Bayesian Model for Supervised Grammar Induction," Signal and Data Processing, vol. 9, no. 1, pp. 19-34, 2012.
9. [5] ب. مسعودی, س. قوچانی, "رفع ابهام معنایی واژگان مبهم فارسی با مدل موضوعی LDA," پردازش علائم و داده‌ها, دوره ۱۲, شماره ۴, صفحات ۱۲۵-۱۱۷, ۱۳۹۴.
10. ]5[ B. Masoudi, and R. G. Saeid, "Farsi Word Sense Disambiguation with LDA Topic Model," Signal and Data Processing, vol. 12, no. 4, pp. 117-125, 2016.
11. ]6[ E. Asgari, and J.-C. Chappelier, "Linguistic ]1[ Analysis of Persian Poems, "Proceedings of the Second Workshop on Computational Linguistics for Literature, Atlanta, Georgia, pp. 23-31, 2013.
12. ]7[ D. Blei, A. Ng, and J. Michael, "Latent Dirichlet Allocation," Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003.
13. ]8[ S. Deerwester, S. T. Dumais, T. K. Landauer, G. W. Furnas, and R. Harshman, "Indexing by Latent Semantic Analysis," Journal of the American Society for Information Science, vol. 41, pp. 391-407, 1990. https://doi.org/10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 [DOI:10.1002/(SICI)1097-4571(199009)41:63.0.CO;2-9]
14. ]9[ Y. Du, Y. Yi, X. Li, X. Chen, Y. Fan, and F. Su, "Extracting and Tracking Hot Topics of Micro-blogs Based on Improved Latent Dirichlet Allocation," Engineering Applications of Artificial Intelligence, vol. 87, pp. 103279, 2020. [DOI:10.1016/j.engappai.2019.103279]
15. ]10[ C. Geigle, "Inference Methods for Latent Dirichlet Allocation,", Course notes (cs598cxz advanced topics in information retrieval), Department of Computer Science, University of Illinois at Urbana-Champaign, 2016.
16. ]11[ Y. Gong, Q. Zhang, and X. Huang, "Hashtag Recommendation for Multimodal Microblog Posts," Neurocomputing, vol. 272, pp. 170-177, 2018. [DOI:10.1016/j.neucom.2017.06.056]
17. ]12[ M. Hoffman, D. Blei, and F. Bach, "Online Learning for Latent Dirichlet Allocation," Advances in Neural Information Processing Systems. pp. 856-864, 2010.
18. ]13[ T. Hofmann, "Probabilistic Latent Semantic Indexing," SIGIR '99. pp. 50-57, 1999. [DOI:10.1145/312624.312649]
19. ]14[ T. Hofmann, "Probabilistic Latent Semantic Analysis," UAI'99. pp. 289-296, 1999. [DOI:10.1145/312624.312649]
20. ]15[ T. Hofmann, "Unsupervised Learning by Probabilistic Latent Semantic Analysis," Machine Learning, vol. 42, pp. 177-196, 2001. [DOI:10.1023/A:1007617005950]
21. ]16[ H. Jelodar, Y. Wang, C. Yuan, X. Feng, X. Jiang, Y. Li, and L. Zhao, "Latent Dirichlet Allocation (LDA) and Topic Modeling: Models, Applications, a Survey," Multimedia Tools Applications, vol. 78, pp. 15169-15211, 2019. [DOI:10.1007/s11042-018-6894-4]
22. ]17[ D. Jurafsky, and J. H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, USA: Prentice Hall PTR, 2000.
23. ]18[ J. Leskovec, A. Rajaraman, and J. D. Ullman, Mining of Massive Datasets, USA: Cambridge University Press, 2014. [DOI:10.1017/CBO9781139924801] [PMID]
24. ]19[ B. Liu, C. Wang, Y. Wang, K. Zhang, and C. Wang, "Microblog Topic Mining Based on FR-DATM," Chinese Journal of Electronics, vol. 27, pp. 334-341, 2018. [DOI:10.1049/cje.2017.12.006]
25. ]20[ X. Liu, Y. Gao, Z. Cao, and G. Sun, "LDA-based Topic Mining of Microblog Comments," Journal of Physics: Conference Series, vol. 1757, pp. 012118, 2021. [DOI:10.1088/1742-6596/1757/1/012118]
26. ]21[ Y. Lu, Q. Mei, and C. Zhai, "Investigating Task Performance of Probabilistic Topic Models: An Empirical Study of PLSA and LDA," Information Retrieval, vol. 14, pp. 178-203, 2011. [DOI:10.1007/s10791-010-9141-9]
27. ]22[ H. F. Maxwell, and K. Joseph, "The MovieLens Datasets: History and Context," ACM Transactions on Interactive Intelligent Systems, vol. 5, 2015. [DOI:10.1145/2827872]
28. ]23[ T. Minka, "Estimating a Dirichlet Distribution,", Technical report, M.I.T., 2000.
29. ]24[ K. P. Morphy, Machine Learning: A Probabilistic Perspective, London, England: MIT Press, 2012.
30. ]25[ A. Raj, M. Stephens, and J. K. Pritchard, "fastSTRUCTURE: Variational Inference of Population Structure in Large SNP Data Sets," Genetics, vol. 197, pp. 573-589, 2014. [DOI:10.1534/genetics.114.164350] [PMID] []
31. ]26[ V. Smidl, and A. Quinn, The Variational Bayes Method in Signal Processing, Berlin Heidelberg, Germany: Springer, 2006.

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.