بهبود میانگین دقت طبقه‌بندیِ واکه‌هایِ فارسی از روی علامتِ گفتار با استفاده از شبکۀ عصبیِ هم‌گشتال (مقاله پژوهشی)

عسگری, محمد; اکبری, نرگس

EN FA

سال 8، شماره 2 - ( دو فصل‌نامه انجمن مهندسی صوتیات ايران پاییز و زمستان 1399 ) جلد 8 شماره 2 صفحات 59-51 | برگشت به فهرست نسخه ها

‎ 20.1001.1.23455748.1399.8.2.3.0

Mendeley

Zotero

RefWorks

Asgari M, Akbari N. Improving the average precision of Persian vowel classification from speech signal by using convolutional neural network (Research Article). مجله انجمن علوم صوتی ایران (مهندسی صوتیات سابق) 2021; 8 (2) :51-59
URL: http://joasi.ir/article-1-173-fa.html

عسگری محمد، اکبری نرگس. بهبود میانگین دقت طبقه‌بندیِ واکه‌هایِ فارسی از روی علامتِ گفتار با استفاده از شبکۀ عصبیِ هم‌گشتال (مقاله پژوهشی). مجله انجمن علوم صوتی ایران (مهندسی صوتیات سابق). 1399; 8 (2) :51-59

URL: http://joasi.ir/article-1-173-fa.html

بهبود میانگین دقت طبقه‌بندیِ واکه‌هایِ فارسی از روی علامتِ گفتار با استفاده از شبکۀ عصبیِ هم‌گشتال (مقاله پژوهشی)

محمد عسگری^*

، نرگس اکبری

چکیده: (2080 مشاهده)

یکی از روی‌کردهای بازشناسیِ گفتار، الگو کردن گفتار بر مبنای تعدادی واحد آوایی است. با توجه به این‌که مشخصات بسامدی و زمانی واکه‌ها، پایدارتر از سایر واج‌ها هستند، تشخیص واکه‌ها برای تشخیص گفتار مهم است. در این پژوهش، هدف ارائه الگویی با استفاده از روش‌های نوین، نظیر شبکۀ عصبی عمیق برای بهبود دقت تشخیص واکه و افزایش کاربردهای آن است. 30 گوینده (15 زن و 15 مرد)، تمامی حالت‌های ترکیب‌ هم‌خوان‌ها با شش واکۀ فارسی را می‌خوانند. دادگان گفتاری پس از پردازش به قاب‌های حاوی فقط واکه بخش‌بندی شده و اسپکتروگرام آن استخراج می‌شود. اسپکتروگرام به‌دست آمده، به‌عنوان ورودی به شبکۀ عصبی پیچشی با دو لایۀ پنهان داده می‌شود. دادگان 25 گوینده برای آموزش و 5 گوینده برای آزمون به‌کار برده شده‌اند. میانگینِ دقتِ تشخیص شش واکۀ فارسی برای الگوی پیشنهادی 93_/17 درصد (میانگین خطای 6_/83 درصد) به‌دست آمده است که نسبت به کارهای پیشین که میانگین خطایِ تشخیص واکه 9_/7 درصد الی 19_/6 درصد (کم‌ترین و بیش‌ترین میانگین خطا در الگو‌های موجود) بوده، 2_/87 درصد الی 12_/77 درصد بهبود یافته است.

واژه‌های کلیدی: تشخیص واکه‌های فارسی، شبکۀ عصبی هم‌گشتال (کانولوشنال)، طبقه‌بندی، دادگان فارسی.

متن کامل [PDF 678 kb] (825 دریافت)

نوع مطالعه: كاربردي | موضوع مقاله: پردازش علائم صوتی
دریافت: 1398/11/27 | پذیرش: 1399/12/12 | انتشار: 1399/12/20

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.