یکی از مشکلات عمدهی سامانههای خودکار بازشناسی گفتار (ASR)، تنوعات موجود در بین گویندهها، کانال انتقال داده و محیط است که به علت وجود این تنوعات، کارایی این سامانهها در شرایط کاربردی مختلف به شدت تغییر میکند. مقاوم سازی سیستمهای بازشناسی جهت مقابله با این تغییرات از جمله مسائل حال حاضر در حوزه بازشناسی گفتار است. از جمله عواملی که باعث کاهش کارایی سیستمها میشود، تمایز مشخصات صوتی آواهای یکسانِ تولید شده از گویندههای مختلف است. یکی از عوامل اصلی این مشکل ناشی از تفاوت موجود در طول مجرای صوتی (VTL) بین گویندههای مختلف میباشد. روش هنجارسازی طول مجرای صوتی (VTLN) از روشهای رایج برای رفع این مشکل است که در آن برای هر گوینده یک ضریب پیچش فرکانسی تعیین میگردد. در این مقاله روش متداول تعیین ضریب پیچش با رویکرد مبتنی بر جستجو در یک سیستم بازشناسی گفتار پیوسته فارسی مبتنی بر مدل مخفی مارکوف معرفی و مشکلات محاسباتی استفاده از این روش شرح داده شده است. در نهایت روشی مبتنی بر رگرسیون خطی از روی امتیازِ محاسبه شده از مدلسازی تشخیص جنسیت جهت تخمین ضرایب پیچش پیشنهاد شده است که منجر به کاهش قابل ملاحظه هزینه محاسباتیِ روش مبتنی بر جستجو میشود. علاوه بر این، نتایج آزمایشات بر روی دادگان آزمون گفتار تلفنی محاورهای، بیانگر بهبود 54/0 درصدی دقت تشخیص کلمه روش پیشنهادی نسبت به روش متداول مبتنی بر جستجو میباشد.
بازنشر اطلاعات | |
این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |