دانشگاه تربیت مدرس
چکیده: (5760 مشاهده)
در حال حاضر، افراد به راحتی میتوانند سند جدیدی را با رونوشتبرداری از منابع وسیع اینترنتی درست و به نام خود ثبت کنند که مصداقی از دستبرد ادبی است. سامانههای دستبرد ادبی موجود قابلیت شناسایی کامل انواع دستبرد را ندارند. چالش اساسی در این زمینه یافتن الگوریتمی مناسب برای بهبود میزان یافتههای مشابه و زمان بررسی آنهاست. تاکنون سنجههای مختلفی برای ارزیابی مشابهت دو سند ارائه شده که کارایی آنها به محتوای متن و منابع مورد استفاده برای مقایسۀ بین واژههای دو سند محدود است. در این مقاله روشی ارائه شده است که با توجه به کیفی و ناکامل بودن عوامل اثرگذار بر سنجش شباهت بین دو متن، از نظریۀ گواه برای همجوشی اطلاعات به منظور ارزیابی تشابه دو سند فارسی و کشف دستبرد ادبی استفاده میکند. سامانۀ طراحیشده در مرحلۀ اول جملههای موجود در سند را به دو بخش عمومی و تخصصی تقسیم کرده و سپس با استفاده از سنجههای متفاوت و استفاده از منابعی همانند «هستاننگار تخصصی» امتیاز تشابه برای هر بخش را محاسبه و در نهایت در دو سطح، میزان شباهت بین دو سند را استنتاج میکند؛ به طوریکه در سطح اول نتایج سنجههای شباهتسنجی به عنوان گواه (با باور پایۀ مشخص) با قاعدۀ دمپستر-شفر با هم ترکیب شده و به عنوان گواهی جدید به سطح دوم منتقل میشوند. در سطح دوم نتیجۀ سطح اول وگواه جدید از طریق قاعدۀ میانگینگیری ترکیب شده و توابع باور و مقبولیت نهایی محاسبه و شباهت بین دو جمله(سند) ارزیابی میشود.
سامانۀ مذکور بر دادههای واقعی در محیط زبان فارسی مورد ارزیابی قرار گرفته که با دقت بیش از 90% امکان شناسایی اسناد مشابه را داراست و به همین دلیل توانمندی لازم برای استفاده در حوزۀ شناسایی دستبرد ادبی را داراست.
نوع مطالعه:
پژوهشي |
موضوع مقاله:
مقالات پردازش متن دریافت: 1393/7/24 | پذیرش: 1394/7/5 | انتشار: 1395/4/2 | انتشار الکترونیک: 1395/4/2