<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Signal and Data Processing</title>
<title_fa>پردازش علائم و داده‌ها</title_fa>
<short_title>JSDP</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://jsdp.rcisp.ac.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2538-4201</journal_id_issn>
<journal_id_issn_online>2538-421X</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.61882/jsdp</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid>1</journal_id_sid>
<journal_id_nlai>8888</journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1403</year>
	<month>3</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2024</year>
	<month>6</month>
	<day>1</day>
</pubdate>
<volume>21</volume>
<number>1</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>نور-استم نسخه 1. یک مجموعه داده معیار برای ارزیابی ریشه‌یاب‌های عربی</title_fa>
	<title>Noor-stem v.1 A Benchmark Dataset for Evaluating the Arabic Stemmers</title>
	<subject_fa>مقالات پردازش متن </subject_fa>
	<subject>Paper</subject>
	<content_type_fa>پژوهشي</content_type_fa>
	<content_type>Research</content_type>
	<abstract_fa>&lt;span style=&quot;font-size:11pt&quot;&gt;&lt;span style=&quot;line-height:normal&quot;&gt;&lt;span style=&quot;text-autospace:none&quot;&gt;&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;span calibri=&quot;&quot; style=&quot;font-family:&quot;&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;ریشه&#8204;یابی مرحله اصلی چندین فرایند پردازشی مانند متن&#8204;کاوی، بازیابی اطلاعات و پردازش زبان طبیعی است. ابزارهای تشخیص میانوند کلمات عربی با چالش&#8204;های زیادی روبرو هستند که بیشتر ناشی از ماهیت پیچیده کلمات این زبان و سبک&amp;shy;های نوشتاری متفاوت آن&amp;shy;ها است. تا جایی که ما می&amp;shy;دانیم، هیچ مجموعه داده&amp;shy;ی ریشه&amp;shy;یابیِ معیاری وجود ندارد که طیف گسترده&amp;shy;ای از چالش&amp;shy;های ریشه&amp;shy;یابی را پوشش دهد. بنابراین، ما توسعه یک مجموعه داده برای ارزیابی پایداری ریشه&#8204;یاب&#8204;ها را در چنین موقعیت&amp;shy;های چالش برانگیزی ارزشمند می&amp;shy;دانیم. این مقاله، &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;نور-استم&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;، یک مجموعه داده معیار با سبک&#8204;های نوشتاری مختلف را برای ارزیابی ابزارهای تشخیص میانوند (استم) عربی معرفی &#8204;می&#8204;کند. جهت تایید عملکرد این دادگان، عملکرد سه ریشه&#8204;یاب&#8204; عربی (نور ۱۰، &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;NLTK&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt; &lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;و تاشفین) مورد ارزیابی قرار گرفته است. نتایج نشان می&amp;shy;دهد که سنجه&amp;shy;ی &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;اف در ریشه&amp;shy;یاب&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt; تاشفین بهتر از سایر ریشه&#8204;یاب&#8204;ها است که این موضوع در تحقیقات مرتبط نیز مشاهده شده است.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;</abstract_fa>
	<abstract>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:11pt&quot;&gt;&lt;span style=&quot;line-height:normal&quot;&gt;&lt;span style=&quot;text-autospace:none&quot;&gt;&lt;span calibri=&quot;&quot; style=&quot;font-family:&quot;&gt;&lt;b&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;The main task of the tokenization is to divide the sentences of the text into its constituent units and remove punctuation marks (dots, commas, etc.). Each unit is a continuous lexical or grammatical writing chain that is an independent semantic unit. Tokenization occurs at the word level and the extracted units can be used as input to other components such as stemmer. &lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;Stemming is the main step of several processing tasks such as text mining, information retrieval, and natural language processing.Arabic stemmers face many challenges, mostly caused by the complex nature of Arabic words and their different writing styles. To our knowledge, there is no gold stemming dataset, which contains a wide variety of different possible stemming challenges, so that, stemmers face numerous and different possible real-world challenges to stem the words. Thus, we find it valuable to develop a dataset for evaluating the sustainability of stemmers in such a variety of challenging situations. In this paper, we introduce Noor-Stem, a benchmark dataset with various writing styles for the evaluation of Arabic stemmers. &lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;We use two thousand Arabic words in this dataset. We choose the words from different &lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;EN&quot; new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;sources such as&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt; holy Quran as well as the Arabic &lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;EN&quot; new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;websites and assign them to two groups of human experts to determine the correct stem for each word&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;. The first chosen collection of words includes non-repetitive words of the Quran according to their morphological structure. This collection, with more than 16,000 words, is completely by its Quranic usage, labeling only the words stems. The necessity of morphological analysis in Quranic texts as an example of the index of classical Arabic texts has given rise to this evaluation. The second word collection includes 10 thousand words from the non-repetitive words of the text data in general classic Arabic texts. Out of more than 2,600,000 non-repetitive words, considering that the dataset is going to be gold and each stem must be labeled/ensured by a couple of experts, 10,000 words are chosen, regarding the comprehensive and unique patterns to fully measure the length. The variety of patterns can face each stemmer with a serious challenge to demonstrate its performance in various processes.&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt; We evaluate the performance of three Arabic stemmers (Light 10, NLTK and Tashaphyne) on this dataset. The results show that the F-measure of Tashaphyne is better than the other stemmers, which re-proves the superiority of this stemmer in this type of problem, as well.&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;RTL&quot; lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&quot;B Nazanin&quot;&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/div&gt;</abstract>
	<keyword_fa>دادگان معیار, ریشه‌یاب, نور-استم, میانوند, استخراج اطلاعات</keyword_fa>
	<keyword>Benchmark Dataset, Stemmer, Noor-Stem, Infix, Information Retrieval</keyword>
	<start_page>101</start_page>
	<end_page>112</end_page>
	<web_url>http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-92-1&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Azal</first_name>
	<middle_name></middle_name>
	<last_name>Al-Aswad</last_name>
	<suffix></suffix>
	<first_name_fa>ازل</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>العصواد</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>azal.alamery2@gmail.com</email>
	<code>100319475328460012808</code>
	<orcid>100319475328460012808</orcid>
	<coreauthor>No</coreauthor>
	<affiliation></affiliation>
	<affiliation_fa>دانشگاه علم و صنعت ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>Behrouz</first_name>
	<middle_name></middle_name>
	<last_name>Minaei-Bidgoli</last_name>
	<suffix></suffix>
	<first_name_fa>بهروز</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>مینایی بیدگلی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>b_minaei@iust.ac.ir</email>
	<code>100319475328460012809</code>
	<orcid>100319475328460012809</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation></affiliation>
	<affiliation_fa>دانشگاه علم و صنعت ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>Mohammad-Ebrahim</first_name>
	<middle_name></middle_name>
	<last_name>Shenassa</last_name>
	<suffix></suffix>
	<first_name_fa>محمدابراهیم</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>شناسا</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>me.shenasa@iau-tnb.ac.ir</email>
	<code>100319475328460012810</code>
	<orcid>100319475328460012810</orcid>
	<coreauthor>No</coreauthor>
	<affiliation></affiliation>
	<affiliation_fa>دانشگاه آزاد واحد تهران-شمال</affiliation_fa>
	 </author>


	<author>
	<first_name>Sayyed-Ali</first_name>
	<middle_name></middle_name>
	<last_name>Hossayni</last_name>
	<suffix></suffix>
	<first_name_fa>سیدعلی</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>حسینی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>sayyed.hossayni@yandex.com</email>
	<code>100319475328460012811</code>
	<orcid>100319475328460012811</orcid>
	<coreauthor>No</coreauthor>
	<affiliation></affiliation>
	<affiliation_fa>دانشگاه علم و صنعت ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>Habib</first_name>
	<middle_name></middle_name>
	<last_name>Seryani</last_name>
	<suffix></suffix>
	<first_name_fa>حبیب</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>سریانی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>hseryani@noornet.net</email>
	<code>100319475328460012812</code>
	<orcid>100319475328460012812</orcid>
	<coreauthor>No</coreauthor>
	<affiliation></affiliation>
	<affiliation_fa>دانشگاه رازی کرمانشاه</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
