دادگان پرسش و پاسخ زبان فارسی

فروتن راد, جواد; حورعلی, مریم; کیوان راد, محمدعلی

doi:10.61186/jsdp.20.4.107

دوره 20، شماره 4 - ( 12-1402 ) جلد 20 شماره 4 صفحات 120-107 | برگشت به فهرست نسخه ها

‎ 10.61186/jsdp.20.4.107

Mendeley

Zotero

RefWorks

ForutanRad J, HourAli M, KeyvanRad M. Farsi Question and Answer Dataset (FarsiQuAD). JSDP 2024; 20 (4) : 7
URL: http://jsdp.rcisp.ac.ir/article-1-1337-fa.html

فروتن راد جواد، حورعلی مریم، کیوان راد محمدعلی. دادگان پرسش و پاسخ زبان فارسی. پردازش علائم و داده‌ها. 1402; 20 (4) :107-120

URL: http://jsdp.rcisp.ac.ir/article-1-1337-fa.html

دادگان پرسش و پاسخ زبان فارسی

جواد فروتن راد^*

، مریم حورعلی

، محمدعلی کیوان راد

دانشگاه صنعتی مالک اشتر

چکیده: (2097 مشاهده)

پاسخ سریع و دقیق به سؤالات مطرحشده به زبان طبیعی یکی از اهداف مهم در توسعه سامانه‌های پرسش‌وپاسخ است که در آن رایانه یک متن و سؤال را درک و پاسخ دقیق را برای کاربر ارائه می‌کند. با اینکه پیشرفت‌های زیادی در این حوزه صورت‌گرفتهاست، اما همچنان جزء مسائلی است که نیاز به ارتقا، بهخصوص برای زبان‌های غیر انگلیسی مثل زبان فارسی‌ است. در این مقاله دادگان پرسش‌وپاسخ زبان فارسی (FarsiQuAD)^{^[1]} که توسط انسان از مقالات ویکی‌پدیای فارسی تهیه شده، در دو نسخه منتشر شده‌است. نسخه یک شامل 10000+ پرسش‌وپاسخ و نسخه دوم این مجموعه شامل بیش از 145000+ جفت پرسشوپاسخ ‌است. این دادگان قابلیت تجمیع با نسخه انگلیسی SQuAD و سایر دادگان زبان‌های دیگر را دارد که از این استاندارد استفاده کرده باشند و برای عموم منتشر شده‌است^{^[2]}. این دادگان جهت ساخت مدل‌های هوش مصنوعی مبتنی بر یادگیری عمیق و برای استفاده در سامانه‌های پرسش و پاسخ زبان فارسی‌است. نتایج این پژوهش نشان می‌دهد دادگان پرسش‌وپاسخ زبان فارسی ایجادشده می‌تواند پاسخ به سؤالات مطرحشده به زبان طبیعی فارسی را با معیار تطابق دقیق^{^[3]} 78 درصد و معیار F1 87 درصد برساند که هنوز نیازمند ارتقا ‌است.

[1] Exact match

[2] https://github.com/Forutanrad/FarsiQuAD

[3] Exact match

شماره‌ی مقاله: 7

واژه‌های کلیدی: دادگان پرسش‌وپاسخ زبان فارسی، سیستم‌های پرسش‌وپاسخ، درک مطلب، یادگیری عمیق، پردازش زبان طبیعی

متن کامل [PDF 1290 kb] (915 دریافت)

نوع مطالعه: بنیادی | موضوع مقاله: مقالات پردازش متن
دریافت: 1401/6/10 | پذیرش: 1402/9/20 | انتشار: 1403/2/6 | انتشار الکترونیک: 1403/2/6

فهرست منابع

1. [1]. Rajpurkar, P., Zhang, J., Lopyrev, K., & Liang, P. Squad: 100,000+ questions for machine comprehension of text. arXiv preprint arXiv:1606.05250, 2016.‏ [DOI:10.18653/v1/D16-1264]

2. [2]. Yuanjun Li, Yuzhu Zhang, Question Answering on SQuAD 2.0 Dataset, s. University, Editor, 2018.

3. [3]. d'Hoffschmidt, M., Belblidia, W., Brendlé, T., Heinrich, Q., & Vidal, M. FQuAD: French question answering dataset. arXiv preprint arXiv:2002.06071, 2020. [DOI:10.18653/v1/2020.findings-emnlp.107]

4. [4]. Möller, T., Risch, J., & Pietsch, M. Germanquad and germandpr: Improving non-english question answering and passage retrieval. arXiv preprint arXiv:2104.12741, 2021. [DOI:10.18653/v1/2021.mrqa-1.4]

5. [5].임승영, 김명지, & 이주열. KorQuAD: 기계독해를 위한 한국어 질의응답 데이터셋. 한국정보과학회 학술발표논문집, 539-541, 2018.

6. [6].김영민, 임승영, 이현정, 박소윤, & 김명지. KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋. 정보과학회논문지, 47(6), 577-586, 2020. [DOI:10.5626/JOK.2020.47.6.577]

7. [7]. So, B., Byun, K., Kang, K., & Cho, S. Jaquad: Japanese question answering dataset for machine reading comprehension. arXiv preprint arXiv:2202.01764, 2022.

8. [8]. Ayoubi MY Sajjad & Davoodeh Persianqa: a dataset for persian question answering. https://github.com/SajjjadAyobi/PersianQA, 2021.

9. [9]. Mozafari, J., Fatemi, A., & Nematbakhsh, M. A. BAS: an answer selection method using BERT language model. arXiv preprint arXiv:1911.01528, 2019.

10. [10]. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. Attention is all you need. Advances in neural information processing systems, 30, 2017.

11. [11]. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

12. [12]. Farahani, M., Gharachorloo, M., Farahani, M., & Manthouri, M. Parsbert: Transformer-based model for persian language understanding. Neural Processing Letters, 53(6), 3831-3847, 2021. [DOI:10.1007/s11063-021-10528-4]

13. [13]. Sanh, V., Debut, L., Chaumond, J., & Wolf, T. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108, 2019.

14. [14]. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., ... & Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.‏

15. [15]. Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.‏

16. [16]. Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., ... & Stoyanov, V. (2019). Unsupervised cross-lingual representation learning at scale. arXiv preprint arXiv:1911.02116.‏ [DOI:10.18653/v1/2020.acl-main.747]

17. [17]. Persian Wikipedia. Available from: https://github.com/miladfa7/Persian-Wikipedia-Dataset

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.

نظر شما در مورد قالب جدید چیست؟
	خوب
	متوسط
	ضعیف

پایگاه‌های مرتبط

واژگان کلیدی

نظرسنجی