یکی از رویکردهای بازشناسیِ گفتار، الگو کردن گفتار بر مبنای تعدادی واحد آوایی است. با توجه به اینکه مشخصات بسامدی و زمانی واکهها، پایدارتر از سایر واجها هستند، تشخیص واکهها برای تشخیص گفتار مهم است. در این پژوهش، هدف ارائه الگویی با استفاده از روشهای نوین، نظیر شبکۀ عصبی عمیق برای بهبود دقت تشخیص واکه و افزایش کاربردهای آن است. 30 گوینده (15 زن و 15 مرد)، تمامی حالتهای ترکیب همخوانها با شش واکۀ فارسی را میخوانند. دادگان گفتاری پس از پردازش به قابهای حاوی فقط واکه بخشبندی شده و اسپکتروگرام آن استخراج میشود. اسپکتروگرام بهدست آمده، بهعنوان ورودی به شبکۀ عصبی پیچشی با دو لایۀ پنهان داده میشود. دادگان 25 گوینده برای آموزش و 5 گوینده برای آزمون بهکار برده شدهاند. میانگینِ دقتِ تشخیص شش واکۀ فارسی برای الگوی پیشنهادی 93/17 درصد (میانگین خطای 6/83 درصد) بهدست آمده است که نسبت به کارهای پیشین که میانگین خطایِ تشخیص واکه 9/7 درصد الی 19/6 درصد (کمترین و بیشترین میانگین خطا در الگوهای موجود) بوده، 2/87 درصد الی 12/77 درصد بهبود یافته است.
نوع مطالعه:
كاربردي |
موضوع مقاله:
پردازش علائم صوتی دریافت: 1398/11/27 | پذیرش: 1399/12/12 | انتشار: 1399/12/20