یک مدل موضوعی احتمالاتی مبتنی بر روابط محلّی واژگان در پنجره‌های هم‌پوشان

رحیمی, مرضیه; زاهدی, مرتضی; مشایخی, هدی

doi:10.29252/jsdp.15.4.57

دوره 15، شماره 4 - ( 12-1397 ) جلد 15 شماره 4 صفحات 70-57 | برگشت به فهرست نسخه ها

‎ 10.29252/jsdp.15.4.57

Mendeley

Zotero

RefWorks

Rahimi M, Zahedi M, Mashayekhi H. A Probabilistic Topic Model based on Local Word Relationships in Overlapped Windows. JSDP 2019; 15 (4) :57-70
URL: http://jsdp.rcisp.ac.ir/article-1-673-fa.html

رحیمی مرضیه، زاهدی مرتضی، مشایخی هدی. یک مدل موضوعی احتمالاتی مبتنی بر روابط محلّی واژگان در پنجره‌های هم‌پوشان. پردازش علائم و داده‌ها. 1397; 15 (4) :57-70

URL: http://jsdp.rcisp.ac.ir/article-1-673-fa.html

یک مدل موضوعی احتمالاتی مبتنی بر روابط محلّی واژگان در پنجره‌های هم‌پوشان

مرضیه رحیمی^*

، مرتضی زاهدی

، هدی مشایخی

دانشگاه صنعتی شاهرود

چکیده: (4113 مشاهده)

بسیاری از مدل‌های موضوعی مانند LDA که مبتنی بر هم‌رخدادی واژگان در سطح یک سند هستند قادر به بهره‌گیری از روابط محلی واژگان نیستند. برخی از مدل‌های موضوعی مانند BTM سعی کرده‌اند با ترکیب موضوعات و مدل‌های زبانی n-gram، این مشکل را حل کنند. امّا BTM مبتنی بر ترتیب دقیق واژگان است؛ بنابراین با مشکل تُنُکی روبهروست. در این مقاله یک مدل موضوعی احتمالاتی جدید معرفی شده که قادر به مدلکردن روابط محلی واژگان با استفاده از پنجره‌های هم‌پوشان است. بر اساس فرضیه هم‌رخدادی، رخداد همزمان واژگان در پنجره‌های کوتاهتر، گواه محکمتری بر ارتباط معنایی آنهاست. در مدل پیشنهادی، هر سند، مجموعه‌ای از پنجره‌های هم‌پوشان فرض می‌شود، که هریک متناظر با یکی از واژگان متن است. موضوعات بر مبنای هم‌رخدادی واژگان در این پنجره‌های هم‌پوشان استخراج می‌شوند. به‌عبارت دیگر، مدل پیشنهادی، روابط محلی واژگان را بدون وابستگی به ترتیب دقیق آنها مدل می‌کند. آزمایشهای ما نشان می‌دهد که روش پیشنهادی، موضوعات منسجم‌تری را تولید و در کاربرد خوشه‌بندی اسناد، دقیق‌تر از دو مدل LDA و BTM عمل می‌کند.

واژه‌های کلیدی: مدل‌های موضوعی احتمالاتی، نمونه‌برداری گیبس، هم‌رخدادی، مدل‌های گرافیکی، خوشه‌بندی متن

متن کامل [PDF 13549 kb] (1999 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1396/9/3 | پذیرش: 1397/11/6 | انتشار: 1397/12/17 | انتشار الکترونیک: 1397/12/17

فهرست منابع

1. [1]فیلی هشام، قادر حمیدرضا، آنالویی مرتضی. یک مدل بیزی برای استخراج باناظر گرامر زبان طبیعی. پردازش علائم و داده‌ها. ۱۳۹۱; ۹ (۱) :۱۹-۳۴

2. [1] Faili, H., H. Ghader, and M. Morteza Analoui, "A Bayesian Model for Supervised Grammar Induc-tion," Signal and Data Processing, 2012. 9(1), pp. 19-34.

3. [2] D., et al. Wang, "Multi-document summarization using sentence-based topic models," 2009. Association for Computational Linguistics.

4. [3] صادقی سیده ساره، وزیرنژاد بهرام. خلاصه‌ساز متون روایی مبتنی بر جنبه‌های شناختی ذهن انسان. پردازش علائم و داده‌ها. ۱۳۹۴; ۱۲ (۲) :۸۷-۹۶

5. [3] S. S. Sadegi and B, vazir nejad, "Extractive summarization based on cognitive aspects of human mind for narrative text," Signal and Data Processing, vol.12(2), pp. 87-96, 2015

6. [4] H. Zhang and G. Zhong, "Improving short text classification by learning vector representations of both words and hidden topics," Knowledge-Based Systems, 2016. 102: pp. 76-86. [DOI:10.1016/j.knosys.2016.03.027]

7. [5] D.M. Blei, A.Y. Ng, and M.I. Jordan, "Latent dirichlet allocation," Journal of machine Learning research, pp. 993-1022, 2003.

8. [6] H.M. Wallch, "Topic modeling: beyond bag-of-words," ACM, 2006. [DOI:10.1145/1143844.1143967]

9. [7] C.D. Manning, et al., "Introduction to Information Retrieval," Cambridge University Press, pp. 496, 2008.

10. [8] im Walde, S.S. and A. Melinger, "An in-depth look into the co-occurrence distribution of semantic associates," Italian Journal of Linguistics, Special Issue on From Context to Meaning: Distributional Models of the Lexicon in Linguistics and Cognitive Science, 2008.

11. [9] N. Barbieri, et al., "Probabilistic topic models for sequence data," Machine learning, vol.93(1), pp. 5-29, 2013. [DOI:10.1007/s10994-013-5391-2]

12. [10] T.L. Griffiths, M. Steyvers, and J.B. Tenenbaum, "Topics in semantic representation." Psycho-logical review, vol.114(2), pp. 211, 2007. [DOI:10.1037/0033-295X.114.2.211] [PMID]

13. [11] X. Wang, A. McCallum, and X. Wei. "Topical n-grams: Phrase and topic discovery, with an application to information retrieval," IEEE, 2007. [DOI:10.1109/ICDM.2007.86] [PMCID]

14. [12] G. Yang, et al., "A novel contextual topic model for multi-document summarization, "Expert Sys-tems with Applications, vol. 42(3), pp. 1340-1352, 2015. [DOI:10.1016/j.eswa.2014.09.015]

15. [13] S. Jameel, W. Lam, and L. Bing, "Supervised topic models with word order structure for document classification and retrieval learning," Information Retrieval Journal, vol.18(4), pp. 283-330, 2015. [DOI:10.1007/s10791-015-9254-2]

16. [14] Y.W. The, "A hierarchical Bayesian language model based on Pitman-Yor processes," Associa-tion for Computational Linguistics, 2006.

17. [15] H. Noji, D. Mochihashi, and Y. Miyao. "Improvements to the Bayesian Topic N-Gram Models," in EMNLP, 2013.

18. [16] I. Sato and H. Nakagawa. "Topic models with power-law using Pitman-Yor process," ACM, 2010. [DOI:10.1145/1835804.1835890]

19. [17] Y.-S. Jeong and H.-J. Choi, "Overlapped latent Dirichlet allocation for efficient image segmenta-tion," Soft Computing, vol. 19(4), pp. 829-838. [DOI:10.1007/s00500-014-1410-x]

20. [18] Y. Zue, J. Zhao, and K. Xu, "Word network topic model: a simple but general solution for short and imbalanced texts," Knowledge and Information Systems, pp. 1-20, 2014.

21. [19] W. Ou, Z. Xie, and Z. Lv. "Spatially Regularized Latent topic Model for Simultaneous object discovery and segmentation," in Systems, Man, and Cybernetics (SMC), 2015 IEEE International Conference on. 2015. IEEE. [DOI:10.1109/SMC.2015.511]

22. [20] T.L. Griffiths and M. Steyvers, "Finding scientific topics," in Proceedings of the National academy of Sciences, 2004. 101(suppl 1), pp. 5228-5235. [DOI:10.1073/pnas.0307752101] [PMID] [PMCID]

23. [21] T. Minka and J. Lafferty. "Expectation-propagation for the generative aspect model," Morgan Kaufmann Publishers In, 2002.

24. [22] J. Rennie, 20 Newsgroups. Available from: http://qwone.com/~jason/20Newsgroups/20news-18828.tar.gz

25. [23] G. Heinrich, "Parameter estimation for text analy-sis," University of Leipzig, Tech. Rep, 2008.

26. [24] D. Newman, et al. "Automatic evaluation of topic coherence," in Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Com-putational Linguistics. 2010. Association for Computational Linguistics.

27. [25] D. O'Callaghan, et al., "An analysis of the coherence of descriptors in topic modeling," Expert Systems with Applications, vol. 42(13), pp. 5645-5657, 2013. [DOI:10.1016/j.eswa.2015.02.055]

28. [26] D. Mimno , et al. "Optimizing semantic coherence in topic models," Association for Computational Linguistics, 2011.

29. [27] M. Meilă, "Comparing clusterings by the variation of information, in Learning theory and kernel machines," Springer, 2003, pp. 173-187. [DOI:10.1007/978-3-540-45167-9_14]

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.

نظر شما در مورد قالب جدید چیست؟
	خوب
	متوسط
	ضعیف

پایگاه‌های مرتبط

واژگان کلیدی

نظرسنجی