دوره 14، شماره 4 - ( 12-1396 )                   جلد 14 شماره 4 صفحات 78-55 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

rezaie V, mohammadpour M, parvin H, nejatian S. An Approach for Extraction of Keywords and Weighting Words for Improvement Farsi Documents Classification. JSDP 2018; 14 (4) :55-78
URL: http://jsdp.rcisp.ac.ir/article-1-449-fa.html
رضائی وحیده، محمدپور مجید، پروین حمید، نجاتیان صمد. ارائه روشی برای استخراج کلمات کلیدی و وزن‌دهی کلمات برای بهبود طبقه‌بندی متون فارسی . پردازش علائم و داده‌ها. 1396; 14 (4) :55-78

URL: http://jsdp.rcisp.ac.ir/article-1-449-fa.html


دانشگاه آزاد اسلامی واحد یاسوج
چکیده:   (7059 مشاهده)

با توجه به گسترش روزافزون اطلاعات و وجود حجم انبوه متون غیرساخت ­یافته، استفاده از کلمات کلیدی نقش مهمی در بازیابی اطلاعات دارد. این درحالی است که استخراج کلمات کلیدی به­صورت دستی مشکلات زیادی دارد. بنابرین استخراج کلمات کلیدی به­صورت خودکار از نیازهای ضروری فناوری امروزه است. در این پژوهش سعی شده با استفاده از اصطلاح­نامه که از نظامی ساختارمند برخوردار است، کلمات کلیدی بامعناتری از متون استخراج کرد و با آن­ها طبقه­بندی متون فارسی را بهبود بخشید. مراحلی که برای افزایش جامعیت جستجو باید سپری شود به این صورت است که در مرحله نخست کلمات زائد حذف و باقی کلمات ریشه­یابی می­شود؛ سپس به کمک اصطلاح­‌نامه کلمات هم­معنی، اعم­ها و اخص­ها و همچنین وابسته­ها پیدا و در ادامه برای مشخص‌شدن اهمیت نسبی کلمات یک وزن عددی به هر کلمه منسوب می‌شود که بیان­گر میزان تأثیر کلمه در ارتباط با موضوع متن و درمقایسه با سایر کلمات به­کار‌رفته در متن است‌. با توجه به مراحل بالا و به کمک اصطلاح­نامه، طبقه­بندی متون دقیق­تر انجام می­گیرد. در این روش از الگوریتم نزدیکترین همسایه (KNN) برای طبقه­بندی استفاده می­شود. الگوریتم KNN به­خاطر سادگی و مؤثر‌بودن آن در طبقه­بندی متون بسیار به­کار برده می­شود. مبنای کار این الگوریتم، مقایسه متن آزمایش داده‌شده با متون آموزشی داده‌شده و به­دست‌آوردن میزان شباهت بین آن­ها است. نتایج آزمایش‌ها برروی چندین متن در موضوع­های مختلف، نشان­دهنده دقت و توانایی روش پیشنهادی در استخراج کلمات کلیدی منطبق با خواست کاربر و در‌نتیجه طبقه­بندی دقیق­تر متون  است.
 

متن کامل [PDF 7340 kb]   (3224 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1394/8/8 | پذیرش: 1396/8/3 | انتشار: 1396/12/22 | انتشار الکترونیک: 1396/12/22

فهرست منابع
1. [1] راد، ف.، پروین، ح.، دهباشی، آ.، مینایی، ب.، ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون، نشریه پردازش علائم و داده‌ها، دوره 13، شماره 1، صفحه 87-100، 1395.
2. [2] دهباشی هاشم، آتوسا، بهبود خوشه بندی متون فارسی بر اساس کلمات کلیدی با استفاده از اطلاعات زبان شناختی و اصطلاح‌نامه. پایان‌نامه کارشناسی ارشد، 1389.
3. [3] یغمایی، ف.، تعبدی س، بهبود دسته‌بندی متون فارسی در روش همسایگی وزن‌دار، نخستین کنفرانس بین‌المللی پردازش خط و زبان فارسی، 1391.
4. [4] علاقه بند، م.ر.، سعیدی محمدی، م.ر.، دزفولیان، م.ح.، خوشه‌بندی متون مبتنی بر مرکز دسته با استفاده از روش SVD و بهره‌گیری از نقاط همسایگی، نخستین کنفرانس بین‌المللی پردازش خط و زبان فارسی، 1391.
5. [1] F. Rad, H. Parvin, A. Dehbashi, B. Minaei, "A New Method for Automatic Indexing and Extract-ing Keywords for Information Retrieval and Clustering of Texts", Journal of Signal Processing and Data, Volume 13, No. 1, page 87-100, 2017.
6. [2] Dehbashi Hashem, Atoosa, "Improved clustering of Persian texts based on keywords using linguis-tic information and thesaurus". Master thesis, 2010.
7. [3] F. Yaghmaei, S. Tabodi, "Improving the Classification of Persian Texts in Weighted Neighboring Method", The First International Conference on Line Processing and Persian Language, 2012.
8. [4] M.R., Alagheband, M.R Saeedi Mohammadi, M.H Dezfulian, "clustering of center-based texts using the SVD method and utilizing neighborhoods", the first international conference on processing Persian language and language, 2012.
9. [5] A.R, Arasteh, M.H, Elahimanesh, A. Sharif, B. Minaei-Bidgoli, "Semantically Clustering of Persian Words", Proceeding of 1st International Conference on Persian Language Processing (ICPLP), Semnan, Iran, Sep. 5-6, 2012.
10. [6] Berry, W. Michael, and Castellanos, Malu, eds, Survey of text mining. New York: Springer, 2004. [DOI:10.1007/978-1-4757-4305-0]
11. [7] Borko, Harold, and Bernick, Myrna, "Automatic document classification", Journal of the ACM (JACM) 10, no. 2: 151-162, 1963. [DOI:10.1145/321160.321165]
12. [8] Cavnar, B. William, and Trenkle, M. John, "N-gram-based text categorization", Ann Arbor MI 48113, no. 2: 161-175, 1994.
13. [9] F. Colace, M. D. Santo, L. Greco, P. Napoletano, "Text classification using a few labeled examples", Journal of Computers in Human Behavior, Vol. 30, January 2014, pp. 689-697, 2014.
14. [10] Cleverdon, Cyril, "Optimizing convenient online access to bibliographic databases', Information services and Use 4, no. 1: 37-47, 1984. [DOI:10.3233/ISU-1984-41-204]
15. [11] D. Choi, B. Ko, H. Kim, P. Kim, Text analysis for detecting terrorism-related articles on the web, Journal of Network and Computer Applications, Vol. 38, pp. 16-21, 2014. [DOI:10.1016/j.jnca.2013.05.007]
16. [12] A. Díaz, M. Buenaga, L. A. Ure-a, and M. García, "Integrating Linguistic Resources in an Uniform Way for Text Classification Tasks", In First International Conference on Language Resources & Evaluation, Granada (Spain), 1998.
17. [13] M. Deegan, "Keyword Extraction with Thesauri and Content Analysis", URL: http://www.rlg.or-g/en/page.php?Page_ID=17068, 2004.
18. [14] Escudero, Gerard, Màrquez, Lluís, and Rigau, German, "Boosting applied to word sense disambiguation", Springer Berlin Heidelberg, 2000. [DOI:10.1007/3-540-45164-1_14]
19. [14] K. Frantzi, S. Ananiadou and H. Mima, Automatic Recognition of Multi-word Terms: the C-value/NC-value Method, Digital Libraries, 3(2), pp. 115-130, 2000. [DOI:10.1007/s007999900023]
20. [15] S. Forsyth, Richard, "New directions in text categorization", In Causal models and intelligent data management, pp. 151-185. Springer Berlin Heidelberg.
21. [16] N. Freitas, and A. Kaestner, "Automatic text summarization using a machine learning approach", 16th Brazilian Symposium on Artificial Intelligence (SBIA), Brazil. Vol. 398, 2005.
22. [17] Granitzer, Michael, Hierarchical text classifica-tion using methods from machine learning. Master's Thesis, Graz University of Technology, 2003.
23. [18] D. Hyun, "Automatic Keyword Extraction Using Category Correlation of Data", Heidelberg, pp. 224-230, 2006.
24. [19] Harter, Stephen P. "A probabilistic approach to automatic keyword indexing", Part II. An algorithm for probabilistic indexing. Journal of the American Society for Information Science 26, no. 5: 280-289, 1975. [DOI:10.1002/asi.4630260504]
25. [20] Hassel, Martin, and Mazdak, Nima, FarsiSum: a Persian text summarizer. Proceedings of the Workshop on Computational Approaches to Arabic Script-based Languages. Association for Computational Linguistics, 2004. [DOI:10.3115/1621804.1621826]
26. [21] Huang, Yan. "Support vector machines for text categorization based on latent semantic indexing", Electrical and Computer Engineering Department, The Johns Hopkins University, Tech. Rep, 2003.
27. [22] Kessler, Brett, Numberg, Geoffrey, and Schütze, Hinrich, Automatic detection of text genre. In Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics, pp. 32-38. Association for Computational Linguistics, 1997. https://doi.org/10.3115/979617.979622 [DOI:10.3115/976909.979622]
28. [23] Knight, Kevin, Mining online text. Communica-tions of the ACM 42, no. 11: 58-61, 1999. [DOI:10.1145/319382.319394]
29. [24] Larkey, S, Leah, "Automatic essay grading using text categorization techniques", In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, pp. 90-95. ACM, 1998.
30. [25] Liu, Luying, Kang, Jianchu, Yu, Jing and Wang. Zhongliang, "A comparative study on unsupervised feature selection methods for text clustering. In Natural Language Processing and Knowledge Engineering", 2005. IEEE NLP-KE'05. Proceedings of 2005 IEEE International Conference on, pp. 597-601. IEEE, 2005.
31. [26] H. P, Luhn, "11 Keyword-in-Context Index for Technical Literature (KWIC Index)", Readings in automatic language processing 1: 159, 1996.
32. [27] Manning, D. Christopher, "Foundations of statistical natural language processing", Edited by Hinrich Schütze. MIT press, 1999.
33. [28] Maron, Melvin Earl., "Automatic indexing: an experimental inquiry", Journal of the ACM (JACM) 8, no. 3: 404-417, 1961. [DOI:10.1145/321075.321084]
34. [29] Myers, Kary, Kearns, Michael, Singh, Satinder, and Walker, A. Marilyn, "A boosting approach to topic spotting on subdialogues", Family Life 27, no. 3: 1, 2000.
35. [30] Moschitti, Alessandro, "Answer filtering via text categorization in question answering systems", In Tools with Artificial Intelligence, Proceed-ings. 15th IEEE International Conference on, pp. 241-248. IEEE, 2003. [DOI:10.1109/TAI.2003.1250197]
36. [31] H. Parvin, B. Minaei-Bidgoli, and A. Dahbashi, "Improving persian text classification using persian thesaurus", In Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications, pp. 391-398. Springer Berlin Heidelberg, 2011.
37. [32] Sable, L. Carl, and Hatzivassiloglou, Vasileios. "Text-based approaches for non-topical image categorization", International Journal on Digital Libraries 3, no. 3: 261-275, 2000. [DOI:10.1007/s007990000038]
38. [33] Salton, Gerard, and Yang, Chung-Shu, "On the specification of term values in automatic indexing", Journal of documentation 29, no. 4: 351-372, 1973. [DOI:10.1108/eb026562]
39. [34] Schapire, E. Robert, and Singer, Yoram, "BoosTexter: A boosting-based system for text categorization", Machine learning 39, no. 2-3: 135-168, 2000. [DOI:10.1023/A:1007649029923]
40. [35] G. Tangil, J. E. Tapiador, P. Peris-Lopez, J. Blasco, Dendroid: A text mining approach to analyzing and classifying code structures in Android malware families, Journal of Expert Systems with Applications, Vol. 41, No. 4, March 2014, pp. 1104-1117, 2014.
41. [36] G. Tsatsaronis, I. Varlamis, M. Vazirgiannis, "Text Relatedness Based on a Word Thesaurus", Journal of Artificial Intelligence Research, Vol. 37 pp.1-39, 2010.
42. [37] A. Zamanifar, B. Minaei-Bidgoli, and Sharifi, Mohsen. "A new hybrid farsi text summariza-tion technique based on term co-occurrence and conceptual property of the text. Software Engineering, Artificial Intelligence", Network-ing, and Parallel/Distributed Comput-ing, SNPD'08. Ninth ACIS International Conference on. IEEE, 2008.
43. [38] W. Witten, I.H. Medley, Thesaurus based automatic keyphrase indexing, ACM/IEEE-CS JCDL '06 (Joint Conference on Digital Libraries), 2006.
44. [39] Y. Zhang, N. Z. Heywood and E. Milios, "World Wide Web Site Summarization Web Intelligence and Agent Systems", Technical Report, 2006.

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.