<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Signal and Data Processing</title>
<title_fa>پردازش علائم و داده‌ها</title_fa>
<short_title>JSDP</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://jsdp.rcisp.ac.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2538-4201</journal_id_issn>
<journal_id_issn_online>2538-421X</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.66224/jsdp</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid>1</journal_id_sid>
<journal_id_nlai>8888</journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1398</year>
	<month>2</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2019</year>
	<month>5</month>
	<day>1</day>
</pubdate>
<volume>16</volume>
<number>1</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>پیما: پیکره برچسب‌خورده موجودیت‌های اسمی زبان فارسی</title_fa>
	<title>PAYMA: A Tagged Corpus of Persian Named Entities</title>
	<subject_fa>مقالات پردازش متن </subject_fa>
	<subject>Paper</subject>
	<content_type_fa>كاربردي</content_type_fa>
	<content_type>Applicable</content_type>
	<abstract_fa>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;هدف در مسأله تشخیص موجودیت&#8204;های اسمی، رده&amp;shy;بندی اسامی خاص متن با برچسب&#8204;هایی همچون شخص، مکان، و سازمان است. این مسأله به&#8204;عنوان یکی از گام&#8204;های پیش&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;&#8204;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;پردازشی بسیاری از مسائل پردازش زبان طبیعی مطرح است. اگر چه در زبان انگلیسی پژوهش&#8204;های زیادی در این حوزه انجام شده و سامانه&#8204;ها به کیفیت &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:times new roman,serif;&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;F&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:times new roman,serif;&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;بالای نود درصد دست یافته&#8204;اند، در زبان فارسی به&#8204;دلیل نبود یک مجموعه داده استاندارد، پژوهش&#8204;های کمی در این زمینه انجام شده است. در این پژوهش &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span style=&quot;color:#00000A;&quot;&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;به ساخت چنین مجموعه&#8204;داده&#8204;ای می&#8204;پردازیم و آن را به&#8204;صورت آزاد در اختیار پژوهش&#8204;گران قرار می&#8204;دهیم؛ سپس با استفاده از این مجموعه&#8204;داده&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt; به طراحی سامانه آماری با استفاده از مدل میدان&#8204;های تصادفی شرطی و نیز سامانه&#8204;ای مبتنی بر شبکه&#8204;های عصبی بازگشتی از نوع &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:times new roman,serif;&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;LSTM&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt; برای تشخیص موجودیت&amp;shy;های اسمی &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;می&#8204;پردازیم. در پیکره ایجاد&#8204;شده هفت نوع موجودیت شخص، مکان، سازمان، زمان، تاریخ، درصد، و مقادیر پولی برچسب خورده&amp;shy;اند و در&#8204;نتیجه تمام ارزیابی&#8204;های سامانه&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;طراحی&#8204;شده بر روی این هفت&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;برچسب انجام می&#8204;گیرد. برای طراحی این سامانه، پس از آموزش یک سامانه آماری مبتنی بر الگوریتم &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:times new roman,serif;&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;CRF&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;، &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&amp;nbsp;&lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;از خروجی این سامانه به&#8204;عنوان یک ویژگی برای آموزش یک شبکه عصبی بازگشتی &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:times new roman,serif;&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;LSTM&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;دوطرفه استفاده می&#8204;کنیم. علاوه&#8204;بر این ویژگی، از خوشه&#8204;بندی&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;واژگان به روش &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:times new roman,serif;&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;k- means&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;نیز بهره می&#8204;بریم. برای این کار، شماره خوشه واژگان را به&#8204;عنوان یک ویژگی در اختیار شبکه&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;عصبی &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:times new roman,serif;&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;LSTM&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;قرار می&#8204;دهیم و به این ترتیب سامانه ترکیبی نهایی ساخته می&#8204;شود. این شیوه ترکیب مدل &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:times new roman,serif;&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;CRF&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;با مدل&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;شبکه عصبی و نیز استفاده از شماره خوشه برای هر واژه در روش خوشه&#8204;بندی &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:times new roman,serif;&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;k-means&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;نوآوری این پژوهش محسوب&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;می&#8204;شود. نتایج آزمایش&#8204;ها نشان می&#8204;دهد که با استفاده از مدل نهایی به &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:times new roman,serif;&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;F&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:times new roman,serif;&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;برابر با ۸۷ درصد در سطح واژه و هشتاد درصد در سطح عبارت موجودیت اسمی می&#8204;رسیم. همچنین آزمایش&#8204;ها نشان می&#8204;دهد که روش پیشنهادی برای استفاده از خروجی مدل &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:times new roman,serif;&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;CRF&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;به&#8204;عنوان یک ویژگی در ورودی مدل شبکه عصبی باعث می&#8204;شود که با در&#8204;اختیار&#8204;داشتن حجم کمتری از داده برچسب&#8204;خورده به کیفیت قابل قبولی در تشخیص موجودیت&#8204;های اسمی برسیم که این مسأله می&#8204;تواند در زبان&#8204;هایی که حجم داده برچسب&#8204;خورده آن&#8204;ها محدود است، مفید باشد.&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-family:times new roman,serif;&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;/div&gt;
</abstract_fa>
	<abstract>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;strong&gt;The goal in the named entity recognition task is to classify proper nouns of a piece of text into classes such as person, location, and organization. Named entity recognition is an important preprocessing step in many natural language processing tasks such as question-answering and summarization. Although many research studies have been conducted in this area in English and the state-of-the-art NER systems have reached performances of higher than 90 percent in terms of F1 measure, there are very few research studies on this task in Persian. One of the main important reasons for this may be the lack of a standard Persian NER dataset to train and test the NER systems. In this research we create a standard tagged Persian NER dataset which will be distributed freely for research purposes. In order to construct this standard dataset, we studied the existing standard NER datasets in English and came to the conclusion that almost all of these datasets are constructed using news data. Thus we collected documents from ten news websites in Persian. In the next step, in order to provide the annotators with guidelines to tag these documents, we studied the guidelines used for constructing CoNLL and MUC English datasets and created our own guidelines considering the Persian linguistic rules. Using these guidelines, all words in documents can be labeled as person, location, organization, time, date, percent, currency, or other (words that are not in any of these 7 classes). We use IOB encoding for annotating named entities in documents, like most of the existing English NER datasets. Using this encoding, the first token of a named entity is labeled with B, and the next tokens (if exist) are labeled with I. The words that are not part of any named entity are labeled with O. The constructed corpus, named PAYMA, consists of 709 documents and includes 302530 tokens. 41148 tokens out of these tokens are labeled as named entities and the others are labeled as O. In order to determine the inter-annotator agreement, 160 documents were labeled by a second annotator. Kappa statistic was estimated as 95% using words that are labeled as named entities. After creating the dataset, we used the dataset to design a hybrid system for named entity recognition.&lt;/strong&gt; &lt;strong&gt;We trained a statistical system based on the CRF algorithm, and used its output as a feature to train a bidirectional LSTM recurrent neural network. Moreover, we used the k-means word clustering method to cluster the words and fed the cluster number of each word to the LSTM neural network. This form of combining CRF with neural networks and using the cluster number for each word is the novelty of this research work. Experimental results show that the final model can reach an &lt;/strong&gt;&lt;strong&gt;F&lt;/strong&gt;&lt;strong&gt;1 &lt;/strong&gt;&lt;strong&gt;score of 87% at word-level and 80% at phrase level. &lt;/strong&gt;&lt;/div&gt;
</abstract>
	<keyword_fa>پیکره موجودیت‌های اسمی, تشخیص موجودیت‌های اسمی, روش قاعده‌محور, روش مبتنی بر یادگیری عمیق, روش میدان‌های تصادفی شرطی</keyword_fa>
	<keyword>Persian named entity corpus, named entity recognition, rule-based model, deep-learning based model, conditional random field’s method</keyword>
	<start_page>91</start_page>
	<end_page>110</end_page>
	<web_url>http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-212-1&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Mahsa Sadat</first_name>
	<middle_name></middle_name>
	<last_name>Shahshahani</last_name>
	<suffix></suffix>
	<first_name_fa>مهسا‌سادات</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>شهشهانی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>ms.shahshahani@ut.ac.ir</email>
	<code>10031947532846007505</code>
	<orcid>10031947532846007505</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>College of Engineering, University of Tehran</affiliation>
	<affiliation_fa>دانشگاه تهران</affiliation_fa>
	 </author>


	<author>
	<first_name>Mahdi</first_name>
	<middle_name></middle_name>
	<last_name>Mohseni</last_name>
	<suffix></suffix>
	<first_name_fa>مهدی</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>محسنی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>mahdi.mohseni@ut.ac.ir</email>
	<code>10031947532846007506</code>
	<orcid>10031947532846007506</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>College of Engineering, University of Tehran</affiliation>
	<affiliation_fa>دانشگاه تهران</affiliation_fa>
	 </author>


	<author>
	<first_name>Azadeh</first_name>
	<middle_name></middle_name>
	<last_name>Shakery</last_name>
	<suffix></suffix>
	<first_name_fa>آزاده</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>شاکری</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>shakery@ut.ac.ir</email>
	<code>10031947532846007507</code>
	<orcid>10031947532846007507</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>College of Engineering, University of Tehran</affiliation>
	<affiliation_fa>دانشگاه تهران</affiliation_fa>
	 </author>


	<author>
	<first_name>Heshaam</first_name>
	<middle_name></middle_name>
	<last_name>Faili</last_name>
	<suffix></suffix>
	<first_name_fa>هشام</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>فیلی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>hfaili@ut.ac.ir</email>
	<code>10031947532846007508</code>
	<orcid>10031947532846007508</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>College of Engineering, University of Tehran</affiliation>
	<affiliation_fa>دانشگاه تهران</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
