دوره 19، شماره 4 - ( 12-1401 )                   جلد 19 شماره 4 صفحات 196-173 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Reza S, Seyyedsalehi A, Seyyedsalehi Z. Persian Phone Recognition Using Acoustic Landmarks and Neural Network-based variability compensation methods. JSDP 2023; 19 (4) : 12
URL: http://jsdp.rcisp.ac.ir/article-1-1172-fa.html
رضا شقایق، سید صالحی علی، سید صالحی زهره. بازشناسی آوای فارسی با استفاده از شاخص‌های صوتی و روش‌های جبران‌سازی تنوعاتِ مبتنی بر شبکه‌های عصبی. پردازش علائم و داده‌ها. 1401; 19 (4) :173-196

URL: http://jsdp.rcisp.ac.ir/article-1-1172-fa.html


چکیده:   (518 مشاهده)
شواهد و آزمایشات گفتاری نشان می‌دهد که اطلاعات در سیگنال گفتار به صورت غیر یکنواخت توزیع شده و انسان با تمرکز به نواحی پُر اطلاعات آن قادر است به صورت مقاوم گفتار را بازشناسی کند. در این راستا در این تحقیق، یک سامانه‌‌ی بازشناسی آوای فارسی مبتنی بر تمرکز روی بازشناسی مقاوم نواحی پُراطلاعات و مجزای صوتی ارائه شده است. این نواحی شاخص‌های صوتی نامیده می‌شوند. بدین منظور ابتدا برای سیگنال گفتارِ زبان فارسی یک مجموعه از شاخص‌های مناسب صوتی انتخاب شده و به یک شبکه‌ی عصبی عمیق آموزش داده شده‌اند. سپس، به منظور حذف تنوعات شاخص‌های صوتی، تغییراتی در ساختار مدل و شیوه‌ی آموزش آن در چهار طرح مختلف انجام شده است. در طرح اول، از یک شبکه‌ی عصبی جداگانه و در طرح دوم از یک ساختار یادگیری چند تکلیفی برای جبران­سازی غیرخطی تنوعات شاخص­های صوتی استفاده شده است. در طرح سوم نیز از یک اتصال بازگشتی در لایه­ی پنهان شبکه برای بازسازی ورودی و در طرح چهارم از یک ساختار مبتنی بر شبکه­های جاذب­دار عمیق برای کاهش تنوعات ناخواسته استفاده شده است. در این مقاله آزمایش‌ها روی مجموعه دادگانِ گفتاری فارسی "فارس‌دات" انجام شده است و نتایج بازشناسی به صورت خطای بازشناسی آوا گزارش شده است. بهترین مدل آموزش یافته، یک شبکه‌‌ی عصبی جلوسو با پنج لایه‌‌ی پنهان است. خطای بازشناسی آوای این ساختار روی دادگان آزمون برابر 74/21 درصد به دست آمد. همچنین استفاده از چهارطرحِ پالایش تنوعات به ترتیب خطای بازشناسی آوا را به طور مطلق 39/0، 58/0، 43/0 و 3/1 درصد کاهش داده است.
شماره‌ی مقاله: 12
متن کامل [PDF 768 kb]   (169 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش گفتار
دریافت: 1399/6/17 | پذیرش: 1400/6/3 | انتشار: 1401/12/29 | انتشار الکترونیک: 1401/12/29

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.