شناسایی خودکار زبان گفتاری به تشخیص زبان از روی سیگنال گفتار گفته میشود. شناسایی زبان بهطورمعمول به یکی از دو دسته روش آوایی و طیفی انجام میشود. در این مقاله، انواع روشهای مختلف طیفی برای بازشناسی زبان گفتاری معرفی شده و نتایج بهکارگیری آنها بر روی یک مجموعه دادگان گفتاری تلفنی محاورهای مقایسه شده است. روش طیفی پایۀ شناسایی زبان، مدل مخلوط گوسی-مدل جهانی (GMM-UBM) است. برای بهبود مدل گوسی هر زبان از روش تمایزی MMI و برای مدلکردن دینامیک زبان از مدل پنهان مارکوف ارگودیک (EHMM) استفاده میشود. روشهای GSV-SVM و روش نشانهگذار مبتنی بر GMM (GMM Tokenizer) نیز دو روش طیفی دیگر است که مورد بررسی قرار گرفته است. در این مقاله همچنین روشهای جدیدِ مدلسازی تنوعات کانال و گوینده (تحلیل توأم عاملها (JFA) و بردار شناسایی (i-Vector)) بهکار رفته و برای بهبود نتایج آن از چند روش جبرانسازی تنوعات استفاده شده است. علاوهبراین برای سهولت تصمیمگیری و کاهش خطای سامانۀ شناسایی زبان، از پسپردازش امتیاز استفاده شده است. این مقاله بخشی از هفت سال پژوهش در زمینه شناسایی زبان گفتاری در پژوهشگاه توسعه فناوریهای پیشرفته خواجه نصیرالدین طوسی است و تنها خلاصهای از روشها و نتایج بهدستآمده در این مقاله آورده شده است.
بازنشر اطلاعات | |
![]() |
این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |