دوره 13، شماره 1 - ( 3-1395 )                   جلد 13 شماره 1 صفحات 56-39 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Ansari Z, Seyyedsalehi A. Deep Modular Neural Networks with Double Spatio-temporal َAssociation Structure for Persian Continuous Speech Recognition. JSDP 2016; 13 (1) :39-56
URL: http://jsdp.rcisp.ac.ir/article-1-277-fa.html
انصاری زهره، سید صالحی علی. معرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی. پردازش علائم و داده‌ها. 1395; 13 (1) :39-56

URL: http://jsdp.rcisp.ac.ir/article-1-277-fa.html


دانشگاه صنعتی امیرکبیر
چکیده:   (6790 مشاهده)
در این مقاله به معرفی شبکه‌های عصبی پیمانه ای عمیق و قابل رشد به منظور بهبود بازشناسی گفتار پیوسته پرداخته می شود. ساختار این شبکه ها و روش‎های پیش‎تعلیم معرفی شده برای آنها بگونه ای است که درعین هماهنگی با ساختار گفتار، در حافظه و محاسبات لازم صرفه جویی میشود. بدلیل قابلیت رشد این ساختارها، می‌توان در تعلیم آنها اطلاعات فضایی-زمانی بردارهای بازنمایی در ورودی و اطلاعات فضایی-زمانی برچسب آوایی آنها را در خروجی شبکه عصبی انجمن کرد. شبکه تعلیم یافته با این ساختار انجمنگر فضایی-زمانی دوگانه، میتواند زیرفضای زنجیره های معتبر آوایی دادگان را یادبگیرد. بنابراین، در ساختار خود زنجیره های خروجی نامعتبر را پالایش کرده و زنجیره های درست را میدهد. جهت بررسی عملکرد این ساختارها، از دودسته دادگان گفتاری فارس دات و فارس دات بزرگ استفاده شد. نتایج آزمایش‎ها نشان می‌دهند که میتوان دقت بازشناسی آوا را برروی دادگان فارس دات تا 2.7% با استفاده از شبکه‌های عصبی پیمانه ای عمیق نسبت به مدل‌های مخفی مارکوف بالابرد. که با توسعه آنها به ساختار فضایی-زمانی دوگانه این نتیجه تا 5.1% بهبودمی یابد. بدلیل عدم وجود برچسب های آوایی برای دادگان بزرگ، یک روش تعلیم نیمه سرپرستی شده برای تعلیم شبکه های عصبی برروی این دادگان پیشنهاد شده است که میتواند به درصد بازشناسی قابل مقایسه ای با مدلهای مخفی مارکوف دست یابد.
متن کامل [PDF 3543 kb]   (2224 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش گفتار
دریافت: 1393/7/27 | پذیرش: 1394/12/7 | انتشار: 1395/4/2 | انتشار الکترونیک: 1395/4/2

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.