دانشگاه صنعتی امیرکبیر
چکیده: (7280 مشاهده)
در این مقاله به معرفی شبکههای عصبی پیمانه ای عمیق و قابل رشد به منظور بهبود بازشناسی گفتار پیوسته پرداخته می شود. ساختار این شبکه ها و روشهای پیشتعلیم معرفی شده برای آنها بگونه ای است که درعین هماهنگی با ساختار گفتار، در حافظه و محاسبات لازم صرفه جویی میشود. بدلیل قابلیت رشد این ساختارها، میتوان در تعلیم آنها اطلاعات فضایی-زمانی بردارهای بازنمایی در ورودی و اطلاعات فضایی-زمانی برچسب آوایی آنها را در خروجی شبکه عصبی انجمن کرد. شبکه تعلیم یافته با این ساختار انجمنگر فضایی-زمانی دوگانه، میتواند زیرفضای زنجیره های معتبر آوایی دادگان را یادبگیرد. بنابراین، در ساختار خود زنجیره های خروجی نامعتبر را پالایش کرده و زنجیره های درست را میدهد. جهت بررسی عملکرد این ساختارها، از دودسته دادگان گفتاری فارس دات و فارس دات بزرگ استفاده شد. نتایج آزمایشها نشان میدهند که میتوان دقت بازشناسی آوا را برروی دادگان فارس دات تا 2.7% با استفاده از شبکههای عصبی پیمانه ای عمیق نسبت به مدلهای مخفی مارکوف بالابرد. که با توسعه آنها به ساختار فضایی-زمانی دوگانه این نتیجه تا 5.1% بهبودمی یابد. بدلیل عدم وجود برچسب های آوایی برای دادگان بزرگ، یک روش تعلیم نیمه سرپرستی شده برای تعلیم شبکه های عصبی برروی این دادگان پیشنهاد شده است که میتواند به درصد بازشناسی قابل مقایسه ای با مدلهای مخفی مارکوف دست یابد.
نوع مطالعه:
پژوهشي |
موضوع مقاله:
مقالات پردازش گفتار دریافت: 1393/7/27 | پذیرش: 1394/12/7 | انتشار: 1395/4/2 | انتشار الکترونیک: 1395/4/2