در این مقاله، یک پیش پردازش روی روشهای بازیابی اطلاعات، ارائه می شود که برای بازیابی اطلاعات حاصل از متون بازشناسی شده ی گفتاری، مناسب است. این پیش پردازش، به شکل ترکیبی از اصلاح و گسترش پرس و جو می باشد. ورودی های مسئله، اسناد متنی بدست آمده از بازشناسی گفتار و پرس و جو می باشد و هدف، یافتن اسناد مرتبط با کلمه پرس و جو است. مشکل آن است که متن حاصل از بازشناسی گفتار، همواره دارای درصد خطایی در بازشناسی است که ممکن است منجر به این شود که کلماتی که در واقع مرتبط هستند و به علت وقوع خطای بازشناسی دگرگون شده اند مرتبط تشخیص داده نشوند. ایده ی روش ارائه شده، تشخیص خطای بازشناسی در کلمات و در نظر گرفتن کلمات مشابه برای آن دسته از کلماتی است که به عنوان خطا تشخیص دادهشده اند. برای تشخیص کلمه ی خطا، پارامتری به عنوان احتمال خطا در کلمه تعریف می شود که بزرگ بودن آن بیانگر امکان بیشتر وقوع خطا در کلمه است. همچنین برای تشخیص کلمات مشابه، ابتدا با استفاده از معیار فاصله لونشتاین، کلمات مشابه اولیه را پیدا می کنیم. سپس احتمال تبدیل این کلمات مشابه به کلمه پرس و جوی اصلی، محاسبه می شود. کلمات مشابه معنایی، از بین کلماتی که احتمال تبدیل بیشتری دارند، بر اساس یک سطح آستانه انتخاب میشوند. اکنون در الگوریتم بازیابی، علاوه بر کلمه اصلی، کلمات مشابه آن نیز در جستجو، مرتبط در نظر گرفته می شوند. نتایج پیادهسازیها نشان میدهد که الگوریتم ارائهشده، معیار F را به میزان حداکثر 30% بهبود میبخشد.
بازنشر اطلاعات | |
این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |