Signal and Data Processing
پردازش علائم و دادهها
JSDP
Engineering & Technology
http://jsdp.rcisp.ac.ir
1
admin
2538-4201
2538-421X
10.52547/jsdp
1
8888
fa
jalali
1395
9
1
gregorian
2016
12
1
13
3
online
1
fulltext
fa
پایهگذاری بستری نو و کارآمد در حوزه بازشناسی گفتار فارسی
مقالات پردازش گفتار
Paper
پژوهشي
Research
<p style="text-align: justify;"><strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;">برخلاف پیشینۀ سیسالۀ پژوهش در حوزۀ بازشناسی گفتار فارسی در ایران و دستیافتن به پیشرفتهای در خور توجه، نتایج عمده کارهای انجامشده بهدلیل عدم وجود بستر یکسان، قابل مقایسه و ارزیابی دقیق نیستند. بستر بیشتر شامل سامانۀ بازشناسی و دادگان با تعریف مشخص مجموعههای آموزش، توسعه و ارزیابی است. سامانۀ متنباز کلدی با وجود نوظهوربودن آن ویژگیهای منحصربهفردی دارد که در سالهای اخیر مورد توجه اکثر آزمایشگاههای تراز نخست پردازش گفتار دنیا قرار گرفته است و با لحاظ همه جوانب، بهترین انتخاب موجود در راستای پایهگذاری این بستر برای تمامی زبانها از جمله زبان فارسی است. در این مقاله پس از بررسی خصوصیات، توانمندیها و اجزای مختلف نرمافراز کلدی؛ دادگان فارسدات را بهدلیل ثبت رسمی و قابل دسترسبودن آن برای همگان از سراسر دنیا بهعنوان بخش دیگر این بستر انتخاب کرده و به تأسی از انتخاب انجامشده بر روی دادگان </span></span></strong><strong><span dir="LTR"><span style="font-family:times new roman,serif;"><span style="font-size:8.0pt;">TIMIT</span></span></span></strong> <strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;">به تعریف مجموعههای آموزش، توسعه و ارزیابی میپردازیم. درنهایت بیشتر قریب به اتفاق تکنیکها و روشهای موجود در کلدی بر روی دادگان فارسدات، مطابق تعریف صورت گرفته، مورد آزمایش قرار گرفتهاند. </span></span></strong><strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;">بهترین میزان خطای حاصل در بازشناسی واج برای مجموعه توسعه 3/20 درصد و برای مجموعه آزمون 8/19 بوده است. دسترسی به کدهای نوشته در جهت فراهمسازی این بستر، در نرمافزار کلدی موجود است که با توجه به متنبازبودن آن، دسترسی به آنها بهمنظور بازسازی نتایج آمده در این مقاله درصورت دراختیارداشتن دادگان فارسدات بهراحتی قابل انجام است.</span></span></strong></p>
<div style="text-align: justify;"><strong>Although researches in the field of Persian speech recognition claim a thirty-year-old history in Iran which has achieved considerable progresses, due to the lack of well-defined experimental framework, outcomes from many of these researches are not comparable to each other and their accurate assessment won’t be possible. The experimental framework includes ASR toolkit and speech database which consists of training, development and test datasets. In recent years, as a state-of-the-art open-source ASR toolkit; Kaldi has been very well-received and welcomed in the community of the world-ranked speech researchers around the world. considering all aspects, Kaldi is the best option among all of the other ASR toolkits to establish a framework to do research in all languages, including Persian. </strong><br>
<strong>In this paper, we chose Fardat as the speech database which is the counterpart of TIMIT for Persian language because not only it has got a standard form but it’s also accessible for all researchers around the world. Similar to the recipe on TIMIT database, we defined these three sets on the Farsdat: Training, Development and Test sets. After a survey on Kaldi’s components and features, we applied most of state-of-the-art ASR techniques in the Kaldi on the Farsdat based on three sets definition. The best phone error rate on development and test set have been 20.3% and 19.8%. All of the codes and the recipe that was written by author have been submitted to Kaldi repository and they are accessible for free, so all the reported results will be easily replicable if you have access to Farsdat database.</strong></div>
بازشناسی گفتار پیوسته فارسی, دادگان فارس دات, نرمافزار متنباز کلدی.
Persian Continuous Speech Recognition, FarsDat Database, Kaldi Toolkit
51
62
http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-554-1&slc_lang=fa&sid=1
Bagher
BabaAli
باقر
باباعلی
bagher.babaali@gmail.com
10031947532846004844
10031947532846004844
Yes
University of Tehran
دانشگاه تهران