دوره 20، شماره 4 - ( 12-1402 )                   جلد 20 شماره 4 صفحات 120-107 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

ForutanRad J, HourAli M, KeyvanRad M. Farsi Question and Answer Dataset (FarsiQuAD). JSDP 2024; 20 (4) : 7
URL: http://jsdp.rcisp.ac.ir/article-1-1337-fa.html
فروتن راد جواد، حورعلی مریم، کیوان راد محمدعلی. دادگان پرسش و پاسخ زبان فارسی. پردازش علائم و داده‌ها. 1402; 20 (4) :107-120

URL: http://jsdp.rcisp.ac.ir/article-1-1337-fa.html


دانشگاه صنعتی مالک اشتر
چکیده:   (484 مشاهده)
پاسخ سریع و دقیق به سؤالات مطرح­شده به زبان طبیعی یکی از اهداف مهم در توسعه سامانه‌های پرسش‌وپاسخ است که در آن رایانه یک متن و سؤال را درک و پاسخ دقیق را برای کاربر ارائه می‌کند. با اینکه پیشرفت‌های زیادی در این حوزه صورت‌گرفته­است، اما همچنان جزء مسائلی است که نیاز به ارتقا، به­خصوص برای زبان‌های غیر انگلیسی مثل زبان فارسی‌ است. در این مقاله دادگان پرسش‌وپاسخ زبان فارسی (FarsiQuAD) [1]  که توسط انسان از مقالات ویکی‌پدیای فارسی تهیه شده، در دو نسخه منتشر شده‌است. نسخه یک شامل  10000+ پرسش‌وپاسخ و نسخه دوم این مجموعه شامل بیش از 145000+ جفت پرسش­وپاسخ ‌است. این دادگان قابلیت تجمیع با نسخه انگلیسی SQuAD و سایر دادگان زبان‌های دیگر را دارد که از این استاندارد استفاده کرده باشند و برای عموم منتشر شده‌است[2]. این دادگان جهت ساخت مدل‌های هوش مصنوعی مبتنی بر یادگیری عمیق و برای استفاده در سامانه‌های پرسش و پاسخ زبان فارسی‌است. نتایج این پژوهش نشان می‌دهد دادگان پرسش‌وپاسخ زبان فارسی ایجادشده می‌تواند پاسخ به سؤالات مطرح­شده به زبان طبیعی فارسی را با معیار تطابق دقیق[3] 78 درصد و معیار F1 87 درصد برساند که هنوز نیازمند ارتقا ‌است.   

[1] Exact match
[2] https://github.com/Forutanrad/FarsiQuAD
[3] Exact match
شماره‌ی مقاله: 7
متن کامل [PDF 1290 kb]   (155 دریافت)    
نوع مطالعه: بنیادی | موضوع مقاله: مقالات پردازش متن
دریافت: 1401/6/10 | پذیرش: 1402/9/20 | انتشار: 1403/2/6 | انتشار الکترونیک: 1403/2/6

فهرست منابع
1. [1]. Rajpurkar, P., Zhang, J., Lopyrev, K., & Liang, P. Squad: 100,000+ questions for machine comprehension of text. arXiv preprint arXiv:1606.05250, 2016.‏ [DOI:10.18653/v1/D16-1264]
2. [2]. Yuanjun Li, Yuzhu Zhang, Question Answering on SQuAD 2.0 Dataset, s. University, Editor, 2018.
3. [3]. d'Hoffschmidt, M., Belblidia, W., Brendlé, T., Heinrich, Q., & Vidal, M. FQuAD: French question answering dataset. arXiv preprint arXiv:2002.06071, 2020. [DOI:10.18653/v1/2020.findings-emnlp.107]
4. [4]. Möller, T., Risch, J., & Pietsch, M. Germanquad and germandpr: Improving non-english question answering and passage retrieval. arXiv preprint arXiv:2104.12741, 2021. [DOI:10.18653/v1/2021.mrqa-1.4]
5. [5].임승영, 김명지, & 이주열. KorQuAD: 기계독해를 위한 한국어 질의응답 데이터셋. 한국정보과학회 학술발표논문집, 539-541, 2018.
6. [6].김영민, 임승영, 이현정, 박소윤, & 김명지. KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋. 정보과학회논문지, 47(6), 577-586, 2020. [DOI:10.5626/JOK.2020.47.6.577]
7. [7]. So, B., Byun, K., Kang, K., & Cho, S. Jaquad: Japanese question answering dataset for machine reading comprehension. arXiv preprint arXiv:2202.01764, 2022.
8. [8]. Ayoubi MY Sajjad & Davoodeh Persianqa: a dataset for persian question answering. https://github.com/SajjjadAyobi/PersianQA, 2021.
9. [9]. Mozafari, J., Fatemi, A., & Nematbakhsh, M. A. BAS: an answer selection method using BERT language model. arXiv preprint arXiv:1911.01528, 2019.
10. [10]. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. Attention is all you need. Advances in neural information processing systems, 30, 2017.
11. [11]. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
12. [12]. Farahani, M., Gharachorloo, M., Farahani, M., & Manthouri, M. Parsbert: Transformer-based model for persian language understanding. Neural Processing Letters, 53(6), 3831-3847, 2021. [DOI:10.1007/s11063-021-10528-4]
13. [13]. Sanh, V., Debut, L., Chaumond, J., & Wolf, T. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108, 2019.
14. [14]. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., ... & Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.‏
15. [15]. Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.‏
16. [16]. Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., ... & Stoyanov, V. (2019). Unsupervised cross-lingual representation learning at scale. arXiv preprint arXiv:1911.02116.‏ [DOI:10.18653/v1/2020.acl-main.747]
17. [17]. Persian Wikipedia. Available from: https://github.com/miladfa7/Persian-Wikipedia-Dataset

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.