RT - Journal Article T1 - automatic gender identification in persian text JF - jsdp YR - 2016 JO - jsdp VO - 12 IS - 4 UR - http://jsdp.rcisp.ac.ir/article-1-104-fa.html SP - 83 EP - 94 K1 - gender identification K1 - author identification K1 - text mining AB - با گسترش روز افزون استفاده از اینترنت، شاهد تبادل هزاران گیگابایت اطلاعات متنی در فضای مجازی هستیم. فضای سایبر این امکان را به اشخاص می‌دهد که هویت حقیقی خود را مخفی کنند و با هویت ساختگی جدیدی وارد آن شوند. از این‌رو اهمیت حفظ امنیت این فضا، کنترل بر محتوای تولید شده توسط کاربران و شناسایی مشخصات تولیدکنندگان محتوا هر روز پررنگتر می‌شود. موضوع مورد بررسی در این تحقیق که مربوط به حوزه‌ شناسایی نویسنده می‌باشد، شناسایی خودکار جنسیت نویسنده متن فارسی است. به منظور شناسایی جنسیت، با توجه به مطالعات زبان-روانشناختی صورت گرفته، 48 ویژگی روان‌شناختی و سبک شناسی تعریف شد. دو پیکره متنی جهت آموزش طبقه بندها تهیه شد و سپس برای شناسایی جنسیت، سه الگوریتم یادگیری ماشینی مختلف (ماشین بردار پشتیبان، بیز ساده و درخت تصمیم) طراحی شد. نتایج اعتبارسنجی متقابل10تایی نشان داد که بیشترین دقت مربوط به طبقهبند درخت تصمیم با دقت %73.8 است. LA eng UL http://jsdp.rcisp.ac.ir/article-1-104-fa.html M3 ER -