<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Signal and Data Processing</title>
<title_fa>پردازش علائم و داده‌ها</title_fa>
<short_title>JSDP</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://jsdp.rcisp.ac.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2538-4201</journal_id_issn>
<journal_id_issn_online>2538-421X</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.66224/jsdp</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid>1</journal_id_sid>
<journal_id_nlai>8888</journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1402</year>
	<month>12</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2024</year>
	<month>3</month>
	<day>1</day>
</pubdate>
<volume>20</volume>
<number>4</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>دادگان پرسش و پاسخ زبان فارسی</title_fa>
	<title>Farsi Question and Answer Dataset (FarsiQuAD)</title>
	<subject_fa>مقالات پردازش متن </subject_fa>
	<subject>Paper</subject>
	<content_type_fa>بنیادی</content_type_fa>
	<content_type>بنیادی</content_type>
	<abstract_fa>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;پاسخ سریع و دقیق به سؤالات مطرح&amp;shy;شده به زبان طبیعی یکی از اهداف مهم در توسعه سامانه&#8204;های پرسش&#8204;وپاسخ است که در آن رایانه یک متن و سؤال را درک و پاسخ دقیق را برای کاربر ارائه می&#8204;کند. با اینکه پیشرفت&#8204;های زیادی در این حوزه صورت&#8204;گرفته&amp;shy;است، اما همچنان جزء مسائلی است که نیاز به ارتقا، به&amp;shy;خصوص برای زبان&#8204;های غیر انگلیسی مثل زبان فارسی&#8204; است. در این مقاله &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;دادگان پرسش&#8204;وپاسخ زبان فارسی (&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;FarsiQuAD&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;sup&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; &lt;a href=&quot;#_ftn1&quot; name=&quot;_ftnref1&quot; title=&quot;&quot;&gt;&lt;b&gt;&lt;sup&gt;&lt;span style=&quot;font-size:11.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;[1]&lt;/span&gt;&lt;/span&gt;&lt;/sup&gt;&lt;/b&gt;&lt;/a&gt;&lt;/span&gt;&lt;/span&gt;&lt;/sup&gt;&lt;/b&gt;&lt;b&gt; &lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;&amp;nbsp;که توسط انسان از مقالات ویکی&#8204;پدیای فارسی تهیه شده، در دو نسخه منتشر شده&#8204;است. نسخه یک شامل&amp;nbsp; 10000+ پرسش&#8204;وپاسخ و نسخه دوم این مجموعه شامل بیش از 145000+ جفت پرسش&amp;shy;وپاسخ &#8204;است. این دادگان قابلیت تجمیع با نسخه انگلیسی &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:9.0pt&quot;&gt;SQuAD&lt;/span&gt;&lt;/b&gt;&lt;b&gt; &lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;و سایر دادگان زبان&#8204;های دیگر را دارد که از این استاندارد استفاده کرده باشند و برای عموم منتشر شده&#8204;است&lt;a href=&quot;#_ftn2&quot; name=&quot;_ftnref2&quot; title=&quot;&quot;&gt;&lt;sup&gt;&lt;b&gt;&lt;sup&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;[2]&lt;/span&gt;&lt;/span&gt;&lt;/sup&gt;&lt;/b&gt;&lt;/sup&gt;&lt;/a&gt;. این دادگان جهت ساخت مدل&#8204;های هوش مصنوعی مبتنی بر یادگیری عمیق و برای استفاده در سامانه&#8204;های پرسش و پاسخ زبان فارسی&#8204;است. &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;نتایج این پژوهش نشان می&#8204;دهد دادگان پرسش&#8204;وپاسخ زبان فارسی ایجادشده می&#8204;تواند پاسخ به سؤالات مطرح&amp;shy;شده به زبان طبیعی فارسی را با معیار تطابق دقیق&lt;a href=&quot;#_ftn3&quot; name=&quot;_ftnref3&quot; title=&quot;&quot;&gt;&lt;sup&gt;&lt;b&gt;&lt;sup&gt;&lt;span style=&quot;font-size:11.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;[3]&lt;/span&gt;&lt;/span&gt;&lt;/sup&gt;&lt;/b&gt;&lt;/sup&gt;&lt;/a&gt; 78 درصد و معیار &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:9.0pt&quot;&gt;F1&lt;/span&gt;&lt;/b&gt;&lt;b&gt; &lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;87 درصد برساند که هنوز نیازمند ارتقا &#8204;است.&amp;nbsp; &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&amp;nbsp;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/div&gt;

&lt;div&gt;
&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;/div&gt;

&lt;hr align=&quot;left&quot; size=&quot;1&quot; width=&quot;33%&quot; &gt;
&lt;div id=&quot;ftn1&quot; style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:10pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;a href=&quot;#_ftnref1&quot; name=&quot;_ftn1&quot; title=&quot;&quot;&gt;&lt;span class=&quot;MsoFootnoteReference&quot; style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;&lt;span style=&quot;vertical-align:super&quot;&gt;&lt;span style=&quot;font-size:8.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;span class=&quot;MsoFootnoteReference&quot; style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;&lt;span style=&quot;vertical-align:super&quot;&gt;&lt;span style=&quot;font-size:8.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;[1]&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/a&gt;&lt;span style=&quot;font-size:8.0pt&quot;&gt; Exact match&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/div&gt;

&lt;div id=&quot;ftn2&quot; style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:10pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;a href=&quot;#_ftnref2&quot; name=&quot;_ftn2&quot; title=&quot;&quot;&gt;&lt;span class=&quot;MsoFootnoteReference&quot; style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;&lt;span style=&quot;vertical-align:super&quot;&gt;&lt;span style=&quot;font-size:8.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;span class=&quot;MsoFootnoteReference&quot; style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;&lt;span style=&quot;vertical-align:super&quot;&gt;&lt;span style=&quot;font-size:8.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;[2]&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/a&gt; &lt;span style=&quot;font-size:8.0pt&quot;&gt;https://github.com/Forutanrad/FarsiQuAD&lt;/span&gt;&lt;span lang=&quot;FA&quot; dir=&quot;RTL&quot; style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/div&gt;

&lt;div id=&quot;ftn3&quot; style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:10pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;a href=&quot;#_ftnref3&quot; name=&quot;_ftn3&quot; title=&quot;&quot;&gt;&lt;span class=&quot;MsoFootnoteReference&quot; style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;&lt;span style=&quot;vertical-align:super&quot;&gt;&lt;span style=&quot;font-size:8.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;span class=&quot;MsoFootnoteReference&quot; style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;&lt;span style=&quot;vertical-align:super&quot;&gt;&lt;span style=&quot;font-size:8.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;[3]&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/a&gt;&lt;span style=&quot;font-size:8.0pt&quot;&gt; Exact match&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/div&gt;
&lt;/div&gt;

&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;/div&gt;</abstract_fa>
	<abstract>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span lang=&quot;EN&quot; style=&quot;font-size:10.0pt&quot;&gt;A fast and accurate response to questions posed in natural language is a fundamental objective in the advancement of question and answer systems. These systems involve computers comprehending textual content and questions, and subsequently, delivering precise answers to users. Despite significant advancements in this field, there remains room for improvement, particularly when dealing with languages other than English, such as Persian.&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span lang=&quot;EN&quot; style=&quot;font-size:10.0pt&quot;&gt;In this article, we present the Persian language question and answer dataset, known as FarsiQuAD. This dataset was meticulously crafted by human annotators, drawing from Persian Wikipedia articles. FarsiQuAD is made available in two versions: Version 1 comprises over 10,000 questions and answers, while Version 2 offers an extensive collection of over 145,000 rows. This dataset is designed to seamlessly integrate with the English version of SQuAD and other databases in various languages adhering to this standard, and it is open to the public. These data serve as valuable resources for the development of artificial intelligence models based on deep learning and for the enhancement of Persian language question and answer systems.&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span lang=&quot;EN&quot; style=&quot;font-size:10.0pt&quot;&gt;The research findings reveal that the FarsiQuAD dataset is capable of providing answers to questions posed in the natural Persian language with an exact matching accuracy of 78% and an F1 score of 87%. However, there is still room for improvement in achieving even higher accuracy levels.&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span lang=&quot;EN&quot; style=&quot;font-size:10.0pt&quot;&gt;This project arises from the critical need for non-English languages to have access to more data for training deep learning models, especially in the domain of factoid questions. Hence, the primary objective of this article is to introduce the newly created dataset. Prior to this effort, well-known datasets like SQuAD predominantly focused on English, and similar datasets has been developed in other languages, including French, German, Korean, and Japanese. Nevertheless, the dearth of question datasets in the Persian language was evident. The quality and diversity of questions are pivotal aspects, and as this dataset continues to grow, it will contribute to the broader landscape of research in this domain, allowing for valuable cross-linguistic comparisons and integration with research conducted in other languages.&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&amp;nbsp;&lt;/div&gt;</abstract>
	<keyword_fa>دادگان پرسش‌وپاسخ زبان فارسی, سیستم‌های پرسش‌وپاسخ, درک مطلب , یادگیری عمیق, پردازش زبان طبیعی</keyword_fa>
	<keyword>Question And Answer Dataset, Question And Answer systems, Reading comprehension, Deep Learning, Natural Language Processing</keyword>
	<start_page>107</start_page>
	<end_page>120</end_page>
	<web_url>http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-2352-1&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Javad</first_name>
	<middle_name></middle_name>
	<last_name>ForutanRad</last_name>
	<suffix></suffix>
	<first_name_fa>جواد</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>فروتن راد</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>Forutanrad@gmail.com</email>
	<code>100319475328460012581</code>
	<orcid>100319475328460012581</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation></affiliation>
	<affiliation_fa>دانشگاه صنعتی مالک اشتر</affiliation_fa>
	 </author>


	<author>
	<first_name>Maryam</first_name>
	<middle_name></middle_name>
	<last_name>HourAli</last_name>
	<suffix></suffix>
	<first_name_fa>مریم</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>حورعلی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>mhourali@mut.ac.it</email>
	<code>100319475328460012582</code>
	<orcid>100319475328460012582</orcid>
	<coreauthor>No</coreauthor>
	<affiliation></affiliation>
	<affiliation_fa>دانشگاه صنعتی مالک اشتر</affiliation_fa>
	 </author>


	<author>
	<first_name>MohammadAli</first_name>
	<middle_name></middle_name>
	<last_name>KeyvanRad</last_name>
	<suffix></suffix>
	<first_name_fa>محمدعلی</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>کیوان راد</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>keyvanrad@aut.ac.ir</email>
	<code>100319475328460012583</code>
	<orcid>100319475328460012583</orcid>
	<coreauthor>No</coreauthor>
	<affiliation></affiliation>
	<affiliation_fa>دانشگاه صنعتی مالک اشتر</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
