شواهد و آزمایشات گفتاری نشان میدهد که اطلاعات در سیگنال گفتار به صورت غیر یکنواخت توزیع شده و انسان با تمرکز به نواحی پُر اطلاعات آن قادر است به صورت مقاوم گفتار را بازشناسی کند. در این راستا در این تحقیق، یک سامانهی بازشناسی آوای فارسی مبتنی بر تمرکز روی بازشناسی مقاوم نواحی پُراطلاعات و مجزای صوتی ارائه شده است. این نواحی شاخصهای صوتی نامیده میشوند. بدین منظور ابتدا برای سیگنال گفتارِ زبان فارسی یک مجموعه از شاخصهای مناسب صوتی انتخاب شده و به یک شبکهی عصبی عمیق آموزش داده شدهاند. سپس، به منظور حذف تنوعات شاخصهای صوتی، تغییراتی در ساختار مدل و شیوهی آموزش آن در چهار طرح مختلف انجام شده است. در طرح اول، از یک شبکهی عصبی جداگانه و در طرح دوم از یک ساختار یادگیری چند تکلیفی برای جبرانسازی غیرخطی تنوعات شاخصهای صوتی استفاده شده است. در طرح سوم نیز از یک اتصال بازگشتی در لایهی پنهان شبکه برای بازسازی ورودی و در طرح چهارم از یک ساختار مبتنی بر شبکههای جاذبدار عمیق برای کاهش تنوعات ناخواسته استفاده شده است. در این مقاله آزمایشها روی مجموعه دادگانِ گفتاری فارسی "فارسدات" انجام شده است و نتایج بازشناسی به صورت خطای بازشناسی آوا گزارش شده است. بهترین مدل آموزش یافته، یک شبکهی عصبی جلوسو با پنج لایهی پنهان است. خطای بازشناسی آوای این ساختار روی دادگان آزمون برابر 74/21 درصد به دست آمد. همچنین استفاده از چهارطرحِ پالایش تنوعات به ترتیب خطای بازشناسی آوا را به طور مطلق 39/0، 58/0، 43/0 و 3/1 درصد کاهش داده است.
نوع مطالعه:
پژوهشي |
موضوع مقاله:
مقالات پردازش گفتار دریافت: 1399/6/17 | پذیرش: 1400/6/3 | انتشار: 1401/12/29 | انتشار الکترونیک: 1401/12/29