<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Signal and Data Processing</title>
<title_fa>پردازش علائم و داده‌ها</title_fa>
<short_title>JSDP</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://jsdp.rcisp.ac.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2538-4201</journal_id_issn>
<journal_id_issn_online>2538-421X</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.61882/jsdp</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid>1</journal_id_sid>
<journal_id_nlai>8888</journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1401</year>
	<month>6</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2022</year>
	<month>9</month>
	<day>1</day>
</pubdate>
<volume>19</volume>
<number>2</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>ارائه روشی برای استخراج اطلاعات ساختاریافته محدود به دامنه از صفحات وب فارسی</title_fa>
	<title>Presenting a method for extracting structured domain-dependent information from Farsi Web pages</title>
	<subject_fa>مقالات پردازش متن </subject_fa>
	<subject>Paper</subject>
	<content_type_fa>پژوهشي</content_type_fa>
	<content_type>Research</content_type>
	<abstract_fa>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;استخراج اطلاعات ساختاریافته از متون وب یکی از وظایف اصلی در حوزه وب&#8204;کاوی، پردازش زبان طبیعی و استخراج اطلاعات است. در سال&#8204;های اخیر، روش&#8204;های مختلفی برای استخراج اطلاعات ساختاریافته از متون انگلیسی وب ارائه شده است. اغلب روش&#8204;های موجود برای استخراج اطلاعات در مورد انواع موجودیت&#8204;ها، به یک آنتولوژی از پیش تعریف&#8204;شده نیاز دارند که شامل دانش کامل در مورد موجودیت&#8204;ها و خصلت&#8204;های آن&#8204;ها است. مشکل اصلی این روش&#8204;ها عدم توانایی آن&#8204;ها در استخراج اطلاعات موجودیت&#8204;هایی است که مشخصات آن&#8204;ها از قبل در آنتولوژی تعریف نشده&#8204;اند. در این پژوهش، روش جدیدی برای استخراج خودکار اطلاعات ساختاریافته محدود به دامنه از متون فارسی صفحات وب ارائه شده است که نیازی به دانش پیش&#8204;زمینه در مورد موجودیت&#8204;ها و خصلت&#8204;های آن&#8204;ها ندارد. روش پیشنهادی شامل سه مؤلفه پیش&#8204;پردازش، تحلیل معنایی و نگاشت قاب است. تمرکز اصلی روش پیشنهادی به افزودن اطلاعات معنایی به گزاره&#8204;های مسند&#8204;آرگومان و استخراج اطلاعات معنادار و محدود به دامنه از گزاره&#8204;ها معطوف شده است. اطلاعات استخراج&#8204;شده در این روش، هم ساختاریافته بوده و هم به مدخل&#8204;های آنتولوژی عمومی &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;&lt;span bold=&quot;&quot; new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;DBPedia&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt; نگاشت شده&#8204;اند، به&#8204;نحوی&#8204;که پردازش آن&#8204;ها به&#8204;وسیله ماشین به سهولت انجام می&#8204;شود. برای ارزیابی روش پیشنهادی، یک مجموعه&#8204;داده کوچک در زبان فارسی ایجاد شده است و روش پیشنهادی و سایر روش&#8204;ها بر روی این مجموعه&#8204;داده مورد ارزیابی قرار گرفته&#8204;اند. نتایج آزمایش&#8204;ها برتری روش پیشنهادی را در مقایسه با سایر روش&#8204;ها برحسب برخی از معیارهای کارایی نشان می&#8204;دهد.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/div&gt;</abstract_fa>
	<abstract>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;text-justify:kashida&quot;&gt;&lt;span style=&quot;text-kashida:0%&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;Extracting structured information about entities from web texts is an important task in web mining, natural language processing, and information extraction. Information extraction is useful in many applications including search engines, question-answering systems, recommender systems, machine translation, and etc. An information extraction system aims to identify the entities from the text and extract their related information to form a profile of the target entity.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;text-justify:kashida&quot;&gt;&lt;span style=&quot;text-kashida:0%&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;In recent years, several methods have been proposed for extracting structured information from web text. The majority of existing methods for extracting entity-centric information require a predefined ontology. The ontology includes the complete knowledge of the entities and their attributes. The main challenge of these methods is their inability to extract information about entities that are not already defined in the ontology. Besides, the existing methods have ignored semantic information extraction and have not linked the extracted information to the general ontology entries. This highlights that introducing new methods for semantic information extraction is an open problem and there is room for more efforts in this field.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;text-justify:kashida&quot;&gt;&lt;span style=&quot;text-kashida:0%&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;As an element of research, we proposed a new method for the automatic extraction of semantically structured information from Farsi web text. The proposed method does not require background knowledge about the entities and their properties. The proposed method consists of three main phases including pre-processing, semantic analysis and frame extraction. To fulfill these phases, we use a combination of language resources, text processing tools, and distant ontologies. The main focuses of the proposed method are to enrich the predicate-argument frames with the semantic information extracted from distant ontologies, extract the entity-related information from predicate-argument frames, and link the extracted information with their corresponding sense in DBPedia ontology. The issue facilitates the processing of Farsi texts by computers. &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;To evaluate the proposed method, we created a small Farsi dataset containing 100 complete sentences. Then, the proposed method is compared with three information extraction methods on this dataset. The results of experiments show the superiority of the proposed method compared to counterpart methods in terms of precision and F&lt;sub&gt;1&lt;/sub&gt; measures.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/div&gt;</abstract>
	<keyword_fa>وب‌کاوی, استخراج اطلاعات, پردازش زبان طبیعی, آنتولوژی, اطلاعات ساختاریافته محدود به دامنه</keyword_fa>
	<keyword>Web mining, information extraction, natural language processing, ontology, structured-semantic information</keyword>
	<start_page>133</start_page>
	<end_page>146</end_page>
	<web_url>http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-1808-1&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Hojjat</first_name>
	<middle_name></middle_name>
	<last_name>Emami</last_name>
	<suffix></suffix>
	<first_name_fa>حجت</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>امامی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>emami@ubonab.ac.ir</email>
	<code>100319475328460011245</code>
	<orcid>100319475328460011245</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>University of Bonab</affiliation>
	<affiliation_fa>گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه بناب</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
