TY - JOUR T1 - Presenting a method for extracting structured domain-dependent information from Farsi Web pages TT - ارائه روشی برای استخراج اطلاعات ساختاریافته محدود به دامنه از صفحات وب فارسی JF - jsdp JO - jsdp VL - 19 IS - 2 UR - http://jsdp.rcisp.ac.ir/article-1-1102-fa.html Y1 - 2022 SP - 133 EP - 146 KW - Web mining KW - information extraction KW - natural language processing KW - ontology KW - structured-semantic information N2 - استخراج اطلاعات ساختاریافته از متون وب یکی از وظایف اصلی در حوزه وب‌کاوی، پردازش زبان طبیعی و استخراج اطلاعات است. در سال‌های اخیر، روش‌های مختلفی برای استخراج اطلاعات ساختاریافته از متون انگلیسی وب ارائه شده است. اغلب روش‌های موجود برای استخراج اطلاعات در مورد انواع موجودیت‌ها، به یک آنتولوژی از پیش تعریف‌شده نیاز دارند که شامل دانش کامل در مورد موجودیت‌ها و خصلت‌های آن‌ها است. مشکل اصلی این روش‌ها عدم توانایی آن‌ها در استخراج اطلاعات موجودیت‌هایی است که مشخصات آن‌ها از قبل در آنتولوژی تعریف نشده‌اند. در این پژوهش، روش جدیدی برای استخراج خودکار اطلاعات ساختاریافته محدود به دامنه از متون فارسی صفحات وب ارائه شده است که نیازی به دانش پیش‌زمینه در مورد موجودیت‌ها و خصلت‌های آن‌ها ندارد. روش پیشنهادی شامل سه مؤلفه پیش‌پردازش، تحلیل معنایی و نگاشت قاب است. تمرکز اصلی روش پیشنهادی به افزودن اطلاعات معنایی به گزاره‌های مسند‌آرگومان و استخراج اطلاعات معنادار و محدود به دامنه از گزاره‌ها معطوف شده است. اطلاعات استخراج‌شده در این روش، هم ساختاریافته بوده و هم به مدخل‌های آنتولوژی عمومی DBPedia نگاشت شده‌اند، به‌نحوی‌که پردازش آن‌ها به‌وسیله ماشین به سهولت انجام می‌شود. برای ارزیابی روش پیشنهادی، یک مجموعه‌داده کوچک در زبان فارسی ایجاد شده است و روش پیشنهادی و سایر روش‌ها بر روی این مجموعه‌داده مورد ارزیابی قرار گرفته‌اند. نتایج آزمایش‌ها برتری روش پیشنهادی را در مقایسه با سایر روش‌ها برحسب برخی از معیارهای کارایی نشان می‌دهد. M3 10.52547/jsdp.19.2.133 ER -