دوره 15، شماره 4 - ( 12-1397 )                   جلد 15 شماره 4 صفحات 70-57 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Rahimi M, Zahedi M, Mashayekhi H. A Probabilistic Topic Model based on Local Word Relationships in Overlapped Windows. JSDP 2019; 15 (4) :57-70
URL: http://jsdp.rcisp.ac.ir/article-1-673-fa.html
رحیمی مرضیه، زاهدی مرتضی، مشایخی هدی. یک مدل موضوعی احتمالاتی مبتنی بر روابط محلّی واژگان در پنجره‌های هم‌پوشان. پردازش علائم و داده‌ها. 1397; 15 (4) :57-70

URL: http://jsdp.rcisp.ac.ir/article-1-673-fa.html


دانشگاه صنعتی شاهرود
چکیده:   (3393 مشاهده)

 بسیاری از مدل‌های موضوعی مانند LDA که مبتنی بر هم‌رخدادی واژگان در سطح یک سند هستند قادر به بهره‌گیری از روابط محلی واژگان نیستند. برخی از مدل‌های موضوعی مانند BTM سعی کرده‌اند با ترکیب موضوعات و مدل‌های زبانی n-gram، این مشکل را حل کنند. امّا BTM مبتنی بر ترتیب دقیق واژگان است؛ بنابراین با مشکل تُنُکی روبه­روست. در این مقاله یک مدل موضوعی احتمالاتی جدید معرفی شده که قادر به مدل­کردن روابط محلی واژگان با استفاده از پنجره‌های هم‌پوشان است. بر اساس فرضیه هم‌رخدادی، رخداد هم­زمان واژگان در پنجره‌های کوتاه­تر، گواه محکم­تری بر ارتباط معنایی آنهاست. در مدل پیشنهادی، هر سند، مجموعه‌ای از پنجره‌های هم‌پوشان فرض می‌شود، که هریک متناظر با یکی از واژگان متن است. موضوعات بر مبنای هم‌رخدادی واژگان در این پنجره‌های هم‌پوشان استخراج می‌شوند. به‌عبارت دیگر، مدل پیشنهادی، روابط محلی واژگان را بدون وابستگی به ترتیب دقیق آنها مدل می‌کند. آزمایش­های ما نشان می‌دهد که روش پیشنهادی، موضوعات منسجم‌تری را تولید و در کاربرد خوشه‌بندی اسناد، دقیق‌تر از دو مدل LDA و BTM   عمل می‌کند.
 

متن کامل [PDF 13549 kb]   (893 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1396/9/3 | پذیرش: 1397/11/6 | انتشار: 1397/12/17 | انتشار الکترونیک: 1397/12/17

فهرست منابع
1. [1]فیلی هشام، قادر حمیدرضا، آنالویی مرتضی. یک مدل بیزی برای استخراج باناظر گرامر زبان طبیعی. پردازش علائم و داده‌ها. ۱۳۹۱; ۹ (۱) :۱۹-۳۴
2. [1] Faili, H., H. Ghader, and M. Morteza Analoui, "A Bayesian Model for Supervised Grammar Induc-tion," Signal and Data Processing, 2012. 9(1), pp. 19-34.
3. [2] D., et al. Wang, "Multi-document summarization using sentence-based topic models," 2009. Association for Computational Linguistics.
4. [3] صادقی سیده ساره، وزیرنژاد بهرام. خلاصه‌ساز متون روایی مبتنی بر جنبه‌های شناختی ذهن انسان. پردازش علائم و داده‌ها. ۱۳۹۴; ۱۲ (۲) :۸۷-۹۶
5. [3] S. S. Sadegi and B, vazir nejad, "Extractive summarization based on cognitive aspects of human mind for narrative text," Signal and Data Processing, vol.12(2), pp. 87-96, 2015
6. [4] H. Zhang and G. Zhong, "Improving short text classification by learning vector representations of both words and hidden topics," Knowledge-Based Systems, 2016. 102: pp. 76-86. [DOI:10.1016/j.knosys.2016.03.027]
7. [5] D.M. Blei, A.Y. Ng, and M.I. Jordan, "Latent dirichlet allocation," Journal of machine Learning research, pp. 993-1022, 2003.
8. [6] H.M. Wallch, "Topic modeling: beyond bag-of-words," ACM, 2006. [DOI:10.1145/1143844.1143967]
9. [7] C.D. Manning, et al., "Introduction to Information Retrieval," Cambridge University Press, pp. 496, 2008.
10. [8] im Walde, S.S. and A. Melinger, "An in-depth look into the co-occurrence distribution of semantic associates," Italian Journal of Linguistics, Special Issue on From Context to Meaning: Distributional Models of the Lexicon in Linguistics and Cognitive Science, 2008.
11. [9] N. Barbieri, et al., "Probabilistic topic models for sequence data," Machine learning, vol.93(1), pp. 5-29, 2013. [DOI:10.1007/s10994-013-5391-2]
12. [10] T.L. Griffiths, M. Steyvers, and J.B. Tenenbaum, "Topics in semantic representation." Psycho-logical review, vol.114(2), pp. 211, 2007. [DOI:10.1037/0033-295X.114.2.211] [PMID]
13. [11] X. Wang, A. McCallum, and X. Wei. "Topical n-grams: Phrase and topic discovery, with an application to information retrieval," IEEE, 2007. [DOI:10.1109/ICDM.2007.86] [PMCID]
14. [12] G. Yang, et al., "A novel contextual topic model for multi-document summarization, "Expert Sys-tems with Applications, vol. 42(3), pp. 1340-1352, 2015. [DOI:10.1016/j.eswa.2014.09.015]
15. [13] S. Jameel, W. Lam, and L. Bing, "Supervised topic models with word order structure for document classification and retrieval learning," Information Retrieval Journal, vol.18(4), pp. 283-330, 2015. [DOI:10.1007/s10791-015-9254-2]
16. [14] Y.W. The, "A hierarchical Bayesian language model based on Pitman-Yor processes," Associa-tion for Computational Linguistics, 2006.
17. [15] H. Noji, D. Mochihashi, and Y. Miyao. "Improvements to the Bayesian Topic N-Gram Models," in EMNLP, 2013.
18. [16] I. Sato and H. Nakagawa. "Topic models with power-law using Pitman-Yor process," ACM, 2010. [DOI:10.1145/1835804.1835890]
19. [17] Y.-S. Jeong and H.-J. Choi, "Overlapped latent Dirichlet allocation for efficient image segmenta-tion," Soft Computing, vol. 19(4), pp. 829-838. [DOI:10.1007/s00500-014-1410-x]
20. [18] Y. Zue, J. Zhao, and K. Xu, "Word network topic model: a simple but general solution for short and imbalanced texts," Knowledge and Information Systems, pp. 1-20, 2014.
21. [19] W. Ou, Z. Xie, and Z. Lv. "Spatially Regularized Latent topic Model for Simultaneous object discovery and segmentation," in Systems, Man, and Cybernetics (SMC), 2015 IEEE International Conference on. 2015. IEEE. [DOI:10.1109/SMC.2015.511]
22. [20] T.L. Griffiths and M. Steyvers, "Finding scientific topics," in Proceedings of the National academy of Sciences, 2004. 101(suppl 1), pp. 5228-5235. [DOI:10.1073/pnas.0307752101] [PMID] [PMCID]
23. [21] T. Minka and J. Lafferty. "Expectation-propagation for the generative aspect model," Morgan Kaufmann Publishers In, 2002.
24. [22] J. Rennie, 20 Newsgroups. Available from: http://qwone.com/~jason/20Newsgroups/20news-18828.tar.gz
25. [23] G. Heinrich, "Parameter estimation for text analy-sis," University of Leipzig, Tech. Rep, 2008.
26. [24] D. Newman, et al. "Automatic evaluation of topic coherence," in Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Com-putational Linguistics. 2010. Association for Computational Linguistics.
27. [25] D. O'Callaghan, et al., "An analysis of the coherence of descriptors in topic modeling," Expert Systems with Applications, vol. 42(13), pp. 5645-5657, 2013. [DOI:10.1016/j.eswa.2015.02.055]
28. [26] D. Mimno , et al. "Optimizing semantic coherence in topic models," Association for Computational Linguistics, 2011.
29. [27] M. Meilă, "Comparing clusterings by the variation of information, in Learning theory and kernel machines," Springer, 2003, pp. 173-187. [DOI:10.1007/978-3-540-45167-9_14]

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.