دوره 17، شماره 1 - ( 4-1399 )                   جلد 17 شماره 1 صفحات 130-117 | برگشت به فهرست نسخه ها


XML English Abstract Print


گروه مهندسی کامپیوتر، واحد ارومیه، دانشگاه آزاد اسلامی، ارومیه، ایران
چکیده:   (3511 مشاهده)
با توجه به رشد نمایی متون الکترونیکی، سازماندهی و مدیریت متون، مستلزم ابزاری است که اطلاعات و داده‏‌های مورد جستجوی کاربران را در کمترین زمان ارائه دهد؛ از‌این‌رو در سال‌های اخیر روش‌های دسته‌بندی اهمیت ویژه‎ای پیدا کرده است. هدف دسته‌بندی متون دست‌یابی به اطلاعات و داده‌ها در کسری از ثانیه است. یکی از مشکلات اصلی در دسته‏‌بندی متون، ابعاد بالای ویژگی‎هاست. برای کاهش ویژگی‎های متون، انتخاب ویژگی‎ها یکی از مؤثرترین راه‎حل‎هاست. چراکه هزینه محاسباتی که تابعی از طول بردار ویژگی‎هاست، بدون انتخاب ویژگی‌ها افزایش می‏‌یابد. در این مقاله روشی براساس بهبود الگوریتم ماشین بردار پشتیبان با الگوریتم رقابت استعماری برای دسته‌بندی اسناد متنی ارائه شده است. در روش پیشنهادی، از الگوریتم رقابت استعماری برای انتخاب ویژگی‎های و از الگوریتم ماشین بردار پشتیبان برای دسته‎بندی متون استفاده شده است. آزمایش و ارزیابی روش پیشنهادی بر روی مجموعه داده‌های Reuters21578, WebKB و Cade 12 انجام شده است. نتایج شبیه‎سازی حاکی از آن است که روش پیشنهادی در معیارهای دقت، بازخوانی و F Measure از روش‌ ماشین بردار پشتیبان بدون انتخاب ویژگی عملکرد بهینه‎تری دارد.
متن کامل [PDF 4403 kb]   (885 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1397/3/13 | پذیرش: 1398/4/19 | انتشار: 1399/4/1 | انتشار الکترونیک: 1399/4/1

فهرست منابع
1. [1] R. Feldman, and J. Sanger, The Text Mining Handbook, "Advanced Approach in Analyzing Unstructured Data", Cambridge University Press, 2007. [DOI:10.1017/CBO9780511546914]
2. [2] D. Chiang, H. Keh, H. Huang, and D. Chyr, "The Chinese text categorization system with association rule and category priority", Expert System with Applications, vol. 35, no. 1-2, pp. 102-110, 2008. [DOI:10.1016/j.eswa.2007.06.019]
3. [3] L. Khreisat , "A machine learning approach for Arabic text classification using N-gram frequency statistics", Proceeding of the 3nd Journal of Informetrics, vol.3(1), pp 72-77, 2009. [DOI:10.1016/j.joi.2008.11.005]
4. [4] A. An, B. Dauletbakov and E. Levner, "Multi-attribute Classification of Text Documents as a Tool for Ranking and Categorization of Educational Innovation Projects", Lecture Notes in Computer Science, vol. 8404, pp 404-416, 2014. [DOI:10.1007/978-3-642-54903-8_34]
5. [5] A. K. Uysal, "An improved global feature selection scheme for text classification", Expert systems with Applications, vol. 43, pp.82-92, 2016. [DOI:10.1016/j.eswa.2015.08.050]
6. [6] C. H. Wan, L. H. Lee, R. Rajkumar and D. Isa, "A hybrid text classification approach with low dependency on parameter by integrating K-nearest neighbor and support vector machine", Expert Systems with Applications, vol. 39(15), pp.11880-11888, 2013. [DOI:10.1016/j.eswa.2012.02.068]
7. [7] B. Ramesh and J. G. R. Sathiaseelan, "An advanced Multi Class instance selection based Support Vector Machine for Text Classification", Procedia Computer Science, vol. 57, pp. 1124-1130, 2015. [DOI:10.1016/j.procs.2015.07.400]
8. [8] Y. Ko and J. Seo, "Text classification from unlabeled documents with bootstrapping and feature projection techniques", Information Processing & Management, vol. 45(1), pp. 70-83, 2009. [DOI:10.1016/j.ipm.2008.07.004]
9. [9] N. Shafiabady, L. H. Lee, R. Rajkumar,, V. P. Kallimani, , N. A. Akram and D. Isa, "Using unsupervised clustering approach to train the Support Vector Machine for text classification", Neurocomputing, vol. 211, pp. 4-10, 2016. [DOI:10.1016/j.neucom.2015.10.137]
10. [10] L. H. Lee, D. Isa, W. O. Choo and W. Y. Chue, "High Relevance Keyword Extraction facility for Bayesian text classification on different domains of varying characteristic", Expert Systems with Applications, vol. 39(1), pp. 1147-115, 2013. [DOI:10.1016/j.eswa.2011.07.116]
11. [11] J. He, A. H. Tan and C. L. Tan, "On Machine Learning methods for Chinese document categorization", Applied Intelligence, vol. 18(3), pp. 311-322, 2003. [DOI:10.1023/A:1023202221875]
12. [12] D. Isa, L. H. Lee, V. P. Kallimani and R. Rajkumar, "Text document pre-processing with the bayes Formula for classification using the support vector machine", IEEE Transaction on Knowledge and Data Engineering, vol. 20(9), pp. 1264-1272, 2008. [DOI:10.1109/TKDE.2008.76]
13. [13] D. S. Guru and M. Suhil, "A Novel Term_Class Relevance Measure for Text Categorization", Procedia Computer Science, Vol. 45, pp. 13-22, 2015. [DOI:10.1016/j.procs.2015.03.074]
14. [14] A. Onan, S. Korukoğlu and H. Bulut, "Ensemble of keyword extraction methods and classifiers in text classification", Expert Systems with Applications, vol. 57, pp. 232-247, 2016. [DOI:10.1016/j.eswa.2016.03.045]
15. [15] Y. Ko, J. Park and J. Seo, "Automatic Text Categorization using the Importance of Sentences", 19th international linguistics- Association for Computational Linguistics, vol. 1, PP.1-7, 2002. [DOI:10.3115/1072228.1072331]
16. [16] M. Sivakumar, C. Karthika and P. Renuga, "A Hybrid Text Classification Approach Using KNN And SVM ", Intenational Journal of Innovative Research In Science Engineering And Technology,Special Issue 3, vol. 3, pp.1987-1991, 2014.
17. [17] G. Feng, J. Guo, B. Y. Jing and T. Sun, "Feature Subset Selection Using Naive Bayes for Text Classification", Pattern Recognition Letters, vol. 65, pp. 109-115, 2015. [DOI:10.1016/j.patrec.2015.07.028]
18. [18] H. Uguz, "A two-stage feature selection method for text categorization by using information gain", principal component analysis and genetic algorithm. Knowledge-Based Systems, vol. 24(7), pp. 1024-1032, 2011.‌ [DOI:10.1016/j.knosys.2011.04.014]
19. [19] E. H. S. Han, G. Karypis and V. Kumar, "Text Categor ization Using Weight Adjusted k-Nearest Neighbor Classification", In Pacific-asia conference on knowledge discovery and data mining, PP: 53-65. Springer Berlin Heidelberg, 2001. [DOI:10.1007/3-540-45357-1_9]
20. [20] K. Nigam, A. K. McCallum, S. Thrun and T. Mitchell, "Text Classification from Labeled and Unlabeled Documents using EM", Kluwer Academic Publishers, Printed in The Netherlands. Machine Learning, vol.39 (2), pp. 103-134, 2000.
21. [21] R. Habibpour and K. Khalilpour, "A New Hybrid K-means and K-Nearest-Neighbor Algorithms for Text Document Clustering", International Journal of Academic Research, vol.6(3), pp. 7984, 2004. [DOI:10.7813/2075-4124.2014/6-3/A.12]
22. [22] S. Kashef and H. Nezamabadi-pour, "An advanced ACO algorithm for feature subset selection", Neurocomputing, vol.147, pp. 271-279, 2015. [DOI:10.1016/j.neucom.2014.06.067]
23. [23] A. S. Ghareb, A. A. Bakar and A. R. Hamdan, "Hybrid feature selection based on enhanced genetic algorithm for text categorization", Expert SystemsWith Applications, vol.49, pp.31-47, 2016. [DOI:10.1016/j.eswa.2015.12.004]
24. [24] Y. Lu, M. Liang, Z. Ye and L. Cao, "Improved particle swarm optimization algorithm and its applicationin text feature selection", Applied Soft Computing, vol. 35, pp. 629-636, 2015. [DOI:10.1016/j.asoc.2015.07.005]
25. [25] H. Wang and B. Niu, "A novel bacterial algorithm with randomness control for feature selection in classification", Neurocomputing, vol. 228, pp. 176-186, 2017. [DOI:10.1016/j.neucom.2016.09.078]
26. [26] رضایی، وحیده.، محمدپور، مجید.، پروین، حمید.، نجاتیان، صمد.، 1396. ارائه روشی برای استخراج کلمات کلیدی و وزن‎دهی کلمات برای بهبود طبقه‌بندی متون فارسی. فصل‎نامه‎ی پردازش علائم و داده‎ها، شماره 4 پیاپی 34.
27. [26] V. Rezaie, M. Mohammadpour, H. parvin, S. Nejatian, "An Approach for Extraction of Keywords and Weighting Words for Improvement Farsi Documents Classification", JSDP, vol. 14 (4), pp.55-78. 2018. [DOI:10.29252/jsdp.14.4.55]
28. [27] راد، فرهاد.، پروین، حمید.، دهباشی، آتوسا.، مینایی، بهروز.، 1395. ارائه روشی جدید برای شاخص‎گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‎بندی متون. فصل‎نامه‎ی پردازش و علائم داده‎ها، شماره 1 پیاپی 27.
29. [27] F. Rad, H. Parvin, A. Dehbashi, B. Minaee, "Improved Clustering Persian Text Based on Keyword Using Linguistic and Thesaurus Knowledge", JSDP, vol. 13 (1), pp.87-100, 2016.
30. [28] حسین‎خانی، فاطمه.، ناصرشریف، بابک.، دو روش تبدیل ویژگی مبتنی بر الگوریتم‎های ژنتیک برای کاهش خطای دسته‎بندی ماشین بردار پشتیبان. فصل‎نامه‎ی پردازش علائم و داده‎ها، شماره 2 پیاپی 24.
31. [28] F. Hoseinkhani, B. Nasersharif, "Two Featuer Transformation Methods Based on Genetic Algorithm for Reducing Support Vector Machine Classification Error", JSDP. Vol. 12 (2), pp. 23-39, 2015 [DOI:10.1109/PRIA.2015.7161625]
32. [29] E. Atashpaz-Gargari and C. Lucas, "Imperialist competitive algorithm: An algorithm for optimization inspired by imperialistic competition", IEEE Congress on Evolutionary Computation, pp. 4661-4667, 2007. [DOI:10.1109/CEC.2007.4425083]
33. [30] C. Lucas, Z. Nasiri-Gheidari and F. Tootoonchian, "Application of an imperialist competitive algorithm to the design of a linear induction motor", Energy Conversion and Management, Elsevier, vol. 51(7).‌ pp. 1407-1411, 2010. [DOI:10.1016/j.enconman.2010.01.014]
34. [31] E. Atashpaz-Gargari, F. Hashemzadeh, R. Rajabioun, and C. Lucas, "Colonial Competitive Algorithm, a novel approach for PID controller design in MIMO distillation column process", International Journal of Intelligent Computing and Cybernetics, vol. 1(3). pp. 337-355, 2008. [DOI:10.1108/17563780810893446]
35. [32] T.Mitchell, K.Nigam, D.Freitag, M,Craven, "Learning to extract symbolic knowledge from the world wide web", In: DTIC Document, 1998.
36. [33] A. Asuncion and D.J. Newmen, UCI Machine Learning Repository, Irvine, CA: Uni-versity of California, Department of information and Computer Science, 2007.
37. [34]http://archive.ics.uci.edu/ml/datasets/Reuters21778+Text+Categorization+Collection [Last Access: 12-19-2112.
38. [35] http://ana.cachopo.org/datasets-for-single-label-text-categorization [Lase Access: 12-19-2112].
39. [36] J. J. Rocchio, "Document Retrieval Systems - Optimization and Evaluation", PhD thesis, Harvard, 1966.
40. [37] K. M. Elhadad, Kh. M. Badran, and G. I. Salama, "A Novel Approach for Ontology-based Dimensionality Reduction for Web Text Document Classification", Computer society, pp.373-378, 2017. [DOI:10.1109/ICIS.2017.7960021]

بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.