بهبود صحت ابهام‌زدایی نام نویسنده با استفاده از خوشه‌بندی تجمّعی

مرتضوی, سید محمد; ندیمی شهرکی, محمد حسین; موسی خانی, مصطفی

doi:10.29252/jsdp.14.4.117

دوره 14، شماره 4 - ( 12-1396 ) جلد 14 شماره 4 صفحات 128-117 | برگشت به فهرست نسخه ها

‎ 10.29252/jsdp.14.4.117

Mendeley

Zotero

RefWorks

Mortazavi S M, Nadimi Shahraki M H, Mosakhani M. Improving the accuracy of the author name disambiguation by using clustering ensemble. JSDP 2018; 14 (4) :117-128
URL: http://jsdp.rcisp.ac.ir/article-1-524-fa.html

مرتضوی سید محمد، ندیمی شهرکی محمد حسین، موسی خانی مصطفی. بهبود صحت ابهام‌زدایی نام نویسنده با استفاده از خوشه‌بندی تجمّعی. پردازش علائم و داده‌ها. 1396; 14 (4) :117-128

URL: http://jsdp.rcisp.ac.ir/article-1-524-fa.html

بهبود صحت ابهام‌زدایی نام نویسنده با استفاده از خوشه‌بندی تجمّعی

سید محمد مرتضوی

، محمد حسین ندیمی شهرکی^*

، مصطفی موسی خانی

دانشگاه آزاد اسلامی واحد نجف آباد

چکیده: (6336 مشاهده)

امروزه کتابخانه‌های دیجیتال از مهمترین و سریعترین منابع پژوهشی در جهان محسوب میشوند. از نقطه‌نظر مدیریت تجمیع دانش، توانایی جستجوی صحیح، دقیق و سریع مطالب علمی مد نظر کاربر، اهمیت زیادی دارد. پیچیدگی و وجود تشابه در بانکهای اطلاعاتی موجب میگردد این منابع در هنگام بهرهبرداری با چالشها و ابهامات زیادی مواجه شوند و همین چالشها دست‌مایه پژوهش‌های گسترده‌ای را در این حوزه شکل داده است. یکی از مهمترین این چالشها، وجود ابهام در نام نویسنده است. در این خصوص روش‌های بسیاری با بهره‌گیری از روش‌های خوشهبندی نسبت به حل نامهای مبهم مبادرت ورزیدهاند. این روش‌ها تا حدودی توانسته‌اند مشکل را برطرف کنند، اما همچنان مسئله تکه‌تکه‌بودن خوشه‌ها و خطا در نتایج تولیدی، از معایب روش‌های موجود است. از سویی تجربه نشان داده که یک روش به‌تنهایی نتایجی با صحت بالا نمی‌تواند تولید کند. بدین منظور در این مقاله مدلی جهت حل مشکل ذکر‌شده ارائه شده است‌. راهکار پیشنهادی در دو گام، عملیات ابهام‌زدایی را انجام میدهد. در گام نخست خوشههای اولیه با استفاده از "الگوریتم خوشه‌بندی سلسله‌مراتبی تجمعی با پارامترها و توابع اندازه‌گیری مشابهت مختلف"، تولید می‌شوند. در گام دوم با بهرهگیری از "الگوریتم خوشه‌بندی تجمعی"، خوشههای تولید‌شده به‌گونهای ترکیب میشوند تا خوشه‌هایی غنی با درصد کمتری از تکه‌تکه‌بودن و صحت بالاتر تولید شوند. در ارزیابی‌ الگوریتم پیشنهادی از "مجموعه دادگان DBLP، تحت معیار K" استفاده شده است. نتایج، بهبود قابل توجهی را در ترکیب خوشه‌های مذکور نشان میدهند.

واژه‌های کلیدی: کتابخانه‌های دیجیتال، ابهام‌زدایی نام نویسنده، نام مبهم، خوشه‌بندی تجمعی

متن کامل [PDF 4244 kb] (1656 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1395/3/3 | پذیرش: 1396/10/10 | انتشار: 1396/12/22 | انتشار الکترونیک: 1396/12/22

فهرست منابع

1. [1] R. G. Cota, A. A. Ferreira, C. Nascimento, M. A. Gonçalves, and A. H. Laender, "An unsupervised heuristic‐based hierarchical method for name disambiguation in bibliographic citations," Journal of the American Society for Information Science and Technology, vol. 61, pp. 1853-1870, 2010. [DOI:10.1002/asi.21363]

2. [2] B.-W. On and D. Lee, "Scalable Name Disambiguation using Multi-level Graph Part-ition," in SDM, 2007.

3. [3] X. Fan, J. Wang, X. Pu, L. Zhou, and B. Lv, "On graph-based name disambiguation," Journal of Data and Information Quality (JDIQ), vol. 2, p. 10, 2011. [DOI:10.1145/1891879.1891883]

4. [4] Z. Chen, D. V. Kalashnikov, and S. Mehrotra, "Adaptive graphical approach to entity resolu-tion," in Proceedings of the 7th ACM/IEEE-CS joint conference on Digital libraries, 2007, pp. 204-213. [PMCID]

5. [5] L. D. u Thu, "Named Entity Disambiguation in Digital Libraries," 2010.

6. [6] B.-W. On, E. Elmacioglu, D. Lee, J. Kang, and J. Pei, "Improving grouped-entity resolution using quasi-cliques," in Data Mining, 2006. ICDM'06. Sixth International Conference on, 2006, pp. 1008-1015. [DOI:10.1109/ICDM.2006.85]

7. [7] I.-S. Kang, S.-H. Na, S. Lee, H. Jung, P. Kim, W.-K. Sung, et al., "On co-authorship for author disambiguation," Information Processing & Management, vol. 45, pp. 84-97, 2009. [DOI:10.1016/j.ipm.2008.06.006]

8. [8] H. Han, L. Giles, H. Zha, C. Li, and K. Tsioutsiouliklis, "Two supervised learning approaches for name disambiguation in author citations," in Digital Libraries, 2004. Proceedings of the 2004 Joint ACM/IEEE Conference on, 2004, pp. 296-305. [DOI:10.1145/996350.996419]

9. [9] H. Han, H. Zha, and C. L. Giles, "Name disambiguation in author citations using a k-way spectral clustering method," in Digital Libraries, 2005. JCDL'05. Proceedings of the 5th ACM/IEEE-CS Joint Conference on, 2005, pp. 334-343. [DOI:10.1145/1065385.1065462]

10. [10] J. Huang, S. Ertekin, and C. L. Giles, "Efficient name disambiguation for large-scale databases," in Knowledge Discovery in Databases: PKDD 2006, ed: Springer, 2006, pp. 536-544. [DOI:10.1007/11871637_53]

11. [11] B. Zhang and M. A. Hasan, "Name Entity Disambiguation in Anonymized Graphs using Link Analysis: A Network Embedding based Solution," arXiv preprint arXiv:1702.02287, 2017.

12. [12] S. Ressler, "Social network analysis as an approach to combat terrorism: Past, present, and future research," Homeland Security Affairs, vol. 2, pp. 1-10, 2006.

13. [13] F. H. Levin and C. A. Heuser, "Using Genetic Programming to Evaluate the Impact of Social Network Analysis in Author Name Disambigu-ation," in AMW, 2010.

14. [14] D. Shin, T. Kim, H. Jung, and J. Choi, "Automatic method for author name disambigu-ation using social networks," in Advanced Information Networking and Applica-tions (AINA), 2010 24th IEEE Intern-ational Confe-rence on, 2010, pp. 1263-1270.

15. [15] Y. Ju, B. Adams, K. Janowicz, Y. Hu, B. Yan, and G. McKenzie, "Things and Strings: Improving Place Name Disambiguation from Short Texts by Combining Entity Co-Occur-rence with Topic Modeling," in Knowledge Engineering and Knowledge Management: 20th International Conference, EKAW 2016, Bolo-gna, Italy, November 19-23, 2016, Procee-dings 20, 2016, pp. 353-367. [DOI:10.1007/978-3-319-49004-5_23]

16. [16] I. B. L. Getoor, "A Latent Dirichlet Model for Unsupervised Entity Resolution," in Procee-dings of the Sixth SIAM International Confe-rence on Data Mining, 2006, p. 47.

17. [17] I. Bhattacharya and L. Getoor, "Collective entity resolution in relational data," ACM Transactions on Knowledge Discovery from Data (TKDD), vol. 1, p. 5, 2007. [DOI:10.1145/1217299.1217304]

18. [18] Y. Song, J. Huang, I. G. Councill, J. Li, and C. L. Giles, "Generative models for name disambiguation," in Proceedings of the 16th international conference on World Wide Web, 2007, pp. 1163-1164. [DOI:10.1145/1242572.1242746] [PMID]

19. [19] D. A. Pereira, B. Ribeiro-Neto, N. Ziviani, A. H. Laender, M. A. Gonçalves, and A. A. Ferreira, "Using web information for author name disambiguation," in Proceedings of the 9th ACM/IEEE-CS joint conference on Digital libraries, 2009, pp. 49-58. [DOI:10.1145/1555400.1555409]

20. [20] K.-H. Yang, H.-T. Peng, J.-Y. Jiang, H.-M. Lee, and J.-M. Ho, "Author name disambiguation for citations using topic and web correlation," in Research and Advanced Technology for Digital Libraries, ed: Springer, 2008, pp. 185-196. [DOI:10.1007/978-3-540-87599-4_19]

21. [21] V. I. Torvik and N. R. Smalheiser, "Author name disambiguation in MEDLINE," ACM Transa-ctions on Knowledge Discovery from Data (TKDD), vol. 3, p. 11, 2009. [DOI:10.1145/1552303.1552304] [PMID] [PMCID]

22. [22] A. A. Ferreira, A. Veloso, M. A. Gonçalves, and A. H. Laender, "Effective self-training author name disambiguation in scholarly digital libra-ries," in Proceedings of the 10th annual joint conference on Digital libraries, 2010, pp. 39-48. [DOI:10.1145/1816123.1816130]

23. [23] W. W. Cohen, H. Kautz, and D. McAllester, "Hardening soft information sources," in Proceedings of the sixth ACM SIGKDD interna-tional conference on Knowledge discovery and data mining, 2000, pp. 255-259. [DOI:10.1145/347090.347141] [PMID]

24. [24] F. H. Levin and C. A. Heuser, "Evaluating the use of social networks in author name disambiguation in digital libraries," Journal of Information and Data Management, vol. 1, p. 183, 2010.

25. [25] M. H. Nadimi and M. Mosakhani, "A more Accurate Clustering Method by using Co-author Social Networks for Author Name Disambigu-ation," Journal of Computing and Security, vol. 1, 2015.

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.

نظر شما در مورد قالب جدید چیست؟
	خوب
	متوسط
	ضعیف

پایگاه‌های مرتبط

واژگان کلیدی

نظرسنجی