جواد فروتن راد، مریم حورعلی، محمدعلی کیوان راد،
دوره ۲۰، شماره ۴ - ( ۱۲-۱۴۰۲ )
چکیده
پاسخ سریع و دقیق به سؤالات مطرحشده به زبان طبیعی یکی از اهداف مهم در توسعه سامانههای پرسشوپاسخ است که در آن رایانه یک متن و سؤال را درک و پاسخ دقیق را برای کاربر ارائه میکند. با اینکه پیشرفتهای زیادی در این حوزه صورتگرفتهاست، اما همچنان جزء مسائلی است که نیاز به ارتقا، بهخصوص برای زبانهای غیر انگلیسی مثل زبان فارسی است. در این مقاله دادگان پرسشوپاسخ زبان فارسی (FarsiQuAD) [۱] که توسط انسان از مقالات ویکیپدیای فارسی تهیه شده، در دو نسخه منتشر شدهاست. نسخه یک شامل ۱۰۰۰۰+ پرسشوپاسخ و نسخه دوم این مجموعه شامل بیش از ۱۴۵۰۰۰+ جفت پرسشوپاسخ است. این دادگان قابلیت تجمیع با نسخه انگلیسی SQuAD و سایر دادگان زبانهای دیگر را دارد که از این استاندارد استفاده کرده باشند و برای عموم منتشر شدهاست[۲]. این دادگان جهت ساخت مدلهای هوش مصنوعی مبتنی بر یادگیری عمیق و برای استفاده در سامانههای پرسش و پاسخ زبان فارسیاست. نتایج این پژوهش نشان میدهد دادگان پرسشوپاسخ زبان فارسی ایجادشده میتواند پاسخ به سؤالات مطرحشده به زبان طبیعی فارسی را با معیار تطابق دقیق[۳] ۷۸ درصد و معیار F۱ ۸۷ درصد برساند که هنوز نیازمند ارتقا است.
https://github.com/Forutanrad/FarsiQuAD