دوره 13، شماره 1 - ( 3-1395 )                   جلد 13 شماره 1 صفحات 56-39 | برگشت به فهرست نسخه ها

XML English Abstract Print


دانشگاه صنعتی امیرکبیر
چکیده:   (6823 مشاهده)
در این مقاله به معرفی شبکه‌های عصبی پیمانه ای عمیق و قابل رشد به منظور بهبود بازشناسی گفتار پیوسته پرداخته می شود. ساختار این شبکه ها و روش‎های پیش‎تعلیم معرفی شده برای آنها بگونه ای است که درعین هماهنگی با ساختار گفتار، در حافظه و محاسبات لازم صرفه جویی میشود. بدلیل قابلیت رشد این ساختارها، می‌توان در تعلیم آنها اطلاعات فضایی-زمانی بردارهای بازنمایی در ورودی و اطلاعات فضایی-زمانی برچسب آوایی آنها را در خروجی شبکه عصبی انجمن کرد. شبکه تعلیم یافته با این ساختار انجمنگر فضایی-زمانی دوگانه، میتواند زیرفضای زنجیره های معتبر آوایی دادگان را یادبگیرد. بنابراین، در ساختار خود زنجیره های خروجی نامعتبر را پالایش کرده و زنجیره های درست را میدهد. جهت بررسی عملکرد این ساختارها، از دودسته دادگان گفتاری فارس دات و فارس دات بزرگ استفاده شد. نتایج آزمایش‎ها نشان می‌دهند که میتوان دقت بازشناسی آوا را برروی دادگان فارس دات تا 2.7% با استفاده از شبکه‌های عصبی پیمانه ای عمیق نسبت به مدل‌های مخفی مارکوف بالابرد. که با توسعه آنها به ساختار فضایی-زمانی دوگانه این نتیجه تا 5.1% بهبودمی یابد. بدلیل عدم وجود برچسب های آوایی برای دادگان بزرگ، یک روش تعلیم نیمه سرپرستی شده برای تعلیم شبکه های عصبی برروی این دادگان پیشنهاد شده است که میتواند به درصد بازشناسی قابل مقایسه ای با مدلهای مخفی مارکوف دست یابد.
متن کامل [PDF 3543 kb]   (2244 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش گفتار
دریافت: 1393/7/27 | پذیرش: 1394/12/7 | انتشار: 1395/4/2 | انتشار الکترونیک: 1395/4/2

بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.