دوره 16، شماره 1 - ( 3-1398 )                   جلد 16 شماره 1 صفحات 157-143 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Sajedi H, Taslimi M. Author gender identification from text using Bayesian Random Forest . JSDP 2019; 16 (1) :143-157
URL: http://jsdp.rcisp.ac.ir/article-1-429-fa.html
ساجدی هدیه، تسلیمی مهناز. تشخیص جنسیت نویسندگان از روی متون با استفاده از جنگل تصادفی بیز. پردازش علائم و داده‌ها. 1398; 16 (1) :143-157

URL: http://jsdp.rcisp.ac.ir/article-1-429-fa.html


دانشگاه تهران
چکیده:   (3572 مشاهده)

امروزه استفاده زیاد کاربران از محیط‌های مجازی و ارتباط آنها از طریق شبکه‌های اجتماعی مانند فیسبوک و توییتر لزوم بررسی مطالب موجود را در فضای مجازی بیشتر از گذشته کرده است. از آنجا که بالاترین میزان تبادل اطلاعات در فضای مجازی از طریق متن صورت می‌گیرد؛ لذا تشخیص هویت کاربران از نظر سن، جنس، عقاید مذهبی و سیاسی از روی متن‌های اینترنت، پراهمیت خواهد بود. مسأله تشخیص جنسیت در حوزه‌های امنیت و بازاریابی، می‌تواند مؤثر واقع شود. در مقاله حاضر به تشخیص جنسیت نویسندگان مطالب بلاگ‌ها پرداخته می‌شود و جهت تشخیص جنسیت نویسنده، ویژگی‌های نحوی، مبتنی بر واژه، مبتنی بر حروف و واژگان گرامری مورد استفاده قرار می‌گیرند. به‌علاوه نتایج نشان می‌دهد که استفاده از ویژگی‌های -nگرمی حروف در بهبود عملکرد، بسیار مؤثر است. جهت انجام عمل دسته‌بندی روش جدیدی با عنوان جنگل تصادفی بیز ارائه می‌شود. نتایج آزمایش‌ها نشان می­دهد که این روش در مقایسه با الگوریتم‌هایی مانند الگوریتم بیز ساده، درخت بیز ساده و جنگل تصادفی، نتایج بهتری ارائه داده و دقت دسته‌بندی را تا 5/89 % افزایش داده است.
 

متن کامل [PDF 3681 kb]   (1539 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1396/7/5 | پذیرش: 1397/11/6 | انتشار: 1398/3/20 | انتشار الکترونیک: 1398/3/20

فهرست منابع
1. [1] N. Cheng, R. Chandramouli , and K.P. Subbalakshmi, "Author gender identification from text," Elsevier. Digital investigation, vol. 8, pp. 78-88, 2011. [DOI:10.1016/j.diin.2011.04.002]
2. [2] Z. Miller, B. Dickinson, and W. Hu, "Gender Prediction on Twitter Using Stream Algorithms with N-Gram Character Features," International Journal of Intelligence Science, 2012. [DOI:10.4236/ijis.2012.224019]
3. [3] K. Mita, A. Mukesh, "Automatic Classification of Unstructured Blog Text," Journal of Intelligent Learning Systems and Applications, vol. 5, pp. 108-114, 2013. [DOI:10.4236/jilsa.2013.52012]
4. [4] S. Argamon, M. Koppel, J. Fine, and A. Shimoni, "Gender, Genre and Writing Style in Formal Written Texts," Dept of Computer Science. Illinois Institute of Technology, pp. 321-346, 2003. [DOI:10.1515/text.2003.014]
5. [5] G. Murugaboopathy, S. Hariharasitaraman, and N. Sankarram, "Appropriate Gender Identification from the Text," International Journal of Emerg-ing Research in Management &Technology, 2013.
6. [6] A. Narayanan, H. Paskov and N. Z. Gong, "On the Feasibility of Internet-Scale Author Identi-fication," IEEE Symposium on Security and Privacy, vol. 46, 2012. [DOI:10.1109/SP.2012.46]
7. [7] Y. Zhang, Y. Dang and H. Chen, "Gender classification for Web Forums," IEEE Trans. On Systems, vol. 41, no. 4, 2011. [DOI:10.1109/TSMCA.2010.2093886]
8. [8] A. Mukherjee and B. Liu, "Improving Gender Classification of Blog Authors," Conference on Empirical Methods in Natural Language Processing, 2010, pp. 207-217.
9. [9] S. Nowson and J. Oberlander, "The identity of bloggers: Openness and gender in personal weblogs," in proc. AAAI Spring Symposia Com-put. Approaches Analyzing Weblogs, Stan-ford,CA, 2006.
10. [10] S. Hota, S. Argoman, M. Koppel, "performing gender Automatic stylistic analysis of shake-speare's characters," in Proc. Digital Humanit. Conf, 2006, pp. 100-106.
11. [11] R.S. Forsyth and D.I. Holmes, "Feature finding for text classification," Literary Linguistic Com-pute., vol. 11, No. 4, pp. 163-174, 1996. [DOI:10.1093/llc/11.4.163]
12. [12] M. Koppel, "Automatically categorizing written texts by author gender," Literary and Linguistic Computing, 2002. [DOI:10.1093/llc/17.4.401]
13. [13] N. Cheng, X. Chen, R. Chandramouli and K.P. Subbalakshmi, "Gender Identification from E-mails," computational intelligence and data min-ing, pp. 154-158, 2009. [DOI:10.1109/CIDM.2009.4938643]
14. [14] M. Corney, "Gender-preferential text mining of e-mail discourse," 18th Annual Computer Security applications Conference, 2002.
15. [15] R. Kohavi, "Scaling Up the Accuracy of NaiveBayes Classifers a Decision Tree Hybrid," Second International Conference on Knoledge Discovery and Data Mining, 1996, pp. 202-207.

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.