دوره 16، شماره 1 - ( 3-1398 )                   جلد 16 شماره 1 صفحات 143-157 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Sajedi H, Taslimi M. Author gender identification from text using Bayesian Random Forest . JSDP. 2019; 16 (1) :143-157
URL: http://jsdp.rcisp.ac.ir/article-1-429-fa.html
ساجدی هدیه، تسلیمی مهناز. تشخیص جنسیت نویسندگان از روی متون با استفاده از جنگل تصادفی بیز. پردازش علائم و داده‌ها. 1398; 16 (1) :143-157

URL: http://jsdp.rcisp.ac.ir/article-1-429-fa.html


دانشگاه تهران
چکیده:   (391 مشاهده)

امروزه استفاده زیاد کاربران از محیط‌های مجازی و ارتباط آنها از طریق شبکه‌های اجتماعی مانند فیسبوک و توییتر لزوم بررسی مطالب موجود را در فضای مجازی بیشتر از گذشته کرده است. از آنجا که بالاترین میزان تبادل اطلاعات در فضای مجازی از طریق متن صورت می‌گیرد؛ لذا تشخیص هویت کاربران از نظر سن، جنس، عقاید مذهبی و سیاسی از روی متن‌های اینترنت، پراهمیت خواهد بود. مسأله تشخیص جنسیت در حوزه‌های امنیت و بازاریابی، می‌تواند مؤثر واقع شود. در مقاله حاضر به تشخیص جنسیت نویسندگان مطالب بلاگ‌ها پرداخته می‌شود و جهت تشخیص جنسیت نویسنده، ویژگی‌های نحوی، مبتنی بر واژه، مبتنی بر حروف و واژگان گرامری مورد استفاده قرار می‌گیرند. به‌علاوه نتایج نشان می‌دهد که استفاده از ویژگی‌های -nگرمی حروف در بهبود عملکرد، بسیار مؤثر است. جهت انجام عمل دسته‌بندی روش جدیدی با عنوان جنگل تصادفی بیز ارائه می‌شود. نتایج آزمایش‌ها نشان می­دهد که این روش در مقایسه با الگوریتم‌هایی مانند الگوریتم بیز ساده، درخت بیز ساده و جنگل تصادفی، نتایج بهتری ارائه داده و دقت دسته‌بندی را تا 5/89 % افزایش داده است.
 

متن کامل [PDF 3681 kb]   (132 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: ۱۳۹۶/۷/۵ | پذیرش: ۱۳۹۷/۱۱/۶ | انتشار: ۱۳۹۸/۳/۲۰ | انتشار الکترونیک: ۱۳۹۸/۳/۲۰

فهرست منابع
1. [1] N. Cheng, R. Chandramouli , and K.P. Subbalakshmi, "Author gender identification from text," Elsevier. Digital investigation, vol. 8, pp. 78-88, 2011. [DOI:10.1016/j.diin.2011.04.002]
2. [2] Z. Miller, B. Dickinson, and W. Hu, "Gender Prediction on Twitter Using Stream Algorithms with N-Gram Character Features," International Journal of Intelligence Science, 2012. [DOI:10.4236/ijis.2012.224019]
3. [3] K. Mita, A. Mukesh, "Automatic Classification of Unstructured Blog Text," Journal of Intelligent Learning Systems and Applications, vol. 5, pp. 108-114, 2013. [DOI:10.4236/jilsa.2013.52012]
4. [4] S. Argamon, M. Koppel, J. Fine, and A. Shimoni, "Gender, Genre and Writing Style in Formal Written Texts," Dept of Computer Science. Illinois Institute of Technology, pp. 321-346, 2003. [DOI:10.1515/text.2003.014]
5. [5] G. Murugaboopathy, S. Hariharasitaraman, and N. Sankarram, "Appropriate Gender Identification from the Text," International Journal of Emerg-ing Research in Management &Technology, 2013.
6. [6] A. Narayanan, H. Paskov and N. Z. Gong, "On the Feasibility of Internet-Scale Author Identi-fication," IEEE Symposium on Security and Privacy, vol. 46, 2012. [DOI:10.1109/SP.2012.46]
7. [7] Y. Zhang, Y. Dang and H. Chen, "Gender classification for Web Forums," IEEE Trans. On Systems, vol. 41, no. 4, 2011. [DOI:10.1109/TSMCA.2010.2093886]
8. [8] A. Mukherjee and B. Liu, "Improving Gender Classification of Blog Authors," Conference on Empirical Methods in Natural Language Processing, 2010, pp. 207-217.
9. [9] S. Nowson and J. Oberlander, "The identity of bloggers: Openness and gender in personal weblogs," in proc. AAAI Spring Symposia Com-put. Approaches Analyzing Weblogs, Stan-ford,CA, 2006.
10. [10] S. Hota, S. Argoman, M. Koppel, "performing gender Automatic stylistic analysis of shake-speare's characters," in Proc. Digital Humanit. Conf, 2006, pp. 100-106.
11. [11] R.S. Forsyth and D.I. Holmes, "Feature finding for text classification," Literary Linguistic Com-pute., vol. 11, No. 4, pp. 163-174, 1996. [DOI:10.1093/llc/11.4.163]
12. [12] M. Koppel, "Automatically categorizing written texts by author gender," Literary and Linguistic Computing, 2002. [DOI:10.1093/llc/17.4.401]
13. [13] N. Cheng, X. Chen, R. Chandramouli and K.P. Subbalakshmi, "Gender Identification from E-mails," computational intelligence and data min-ing, pp. 154-158, 2009. [DOI:10.1109/CIDM.2009.4938643]
14. [14] M. Corney, "Gender-preferential text mining of e-mail discourse," 18th Annual Computer Security applications Conference, 2002.
15. [15] R. Kohavi, "Scaling Up the Accuracy of NaiveBayes Classifers a Decision Tree Hybrid," Second International Conference on Knoledge Discovery and Data Mining, 1996, pp. 202-207.

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.