@ARTICLE{Emami, author = {Emami, Hojjat and }, title = {Presenting a method for extracting structured domain-dependent information from Farsi Web pages}, volume = {19}, number = {2}, abstract ={استخراج اطلاعات ساختاریافته از متون وب یکی از وظایف اصلی در حوزه وب‌کاوی، پردازش زبان طبیعی و استخراج اطلاعات است. در سال‌های اخیر، روش‌های مختلفی برای استخراج اطلاعات ساختاریافته از متون انگلیسی وب ارائه شده است. اغلب روش‌های موجود برای استخراج اطلاعات در مورد انواع موجودیت‌ها، به یک آنتولوژی از پیش تعریف‌شده نیاز دارند که شامل دانش کامل در مورد موجودیت‌ها و خصلت‌های آن‌ها است. مشکل اصلی این روش‌ها عدم توانایی آن‌ها در استخراج اطلاعات موجودیت‌هایی است که مشخصات آن‌ها از قبل در آنتولوژی تعریف نشده‌اند. در این پژوهش، روش جدیدی برای استخراج خودکار اطلاعات ساختاریافته محدود به دامنه از متون فارسی صفحات وب ارائه شده است که نیازی به دانش پیش‌زمینه در مورد موجودیت‌ها و خصلت‌های آن‌ها ندارد. روش پیشنهادی شامل سه مؤلفه پیش‌پردازش، تحلیل معنایی و نگاشت قاب است. تمرکز اصلی روش پیشنهادی به افزودن اطلاعات معنایی به گزاره‌های مسند‌آرگومان و استخراج اطلاعات معنادار و محدود به دامنه از گزاره‌ها معطوف شده است. اطلاعات استخراج‌شده در این روش، هم ساختاریافته بوده و هم به مدخل‌های آنتولوژی عمومی DBPedia نگاشت شده‌اند، به‌نحوی‌که پردازش آن‌ها به‌وسیله ماشین به سهولت انجام می‌شود. برای ارزیابی روش پیشنهادی، یک مجموعه‌داده کوچک در زبان فارسی ایجاد شده است و روش پیشنهادی و سایر روش‌ها بر روی این مجموعه‌داده مورد ارزیابی قرار گرفته‌اند. نتایج آزمایش‌ها برتری روش پیشنهادی را در مقایسه با سایر روش‌ها برحسب برخی از معیارهای کارایی نشان می‌دهد. }, URL = {http://jsdp.rcisp.ac.ir/article-1-1102-fa.html}, eprint = {http://jsdp.rcisp.ac.ir/article-1-1102-fa.pdf}, journal = {Signal and Data Processing}, doi = {10.52547/jsdp.19.2.133}, year = {2022} }