در این تحقیق الگوی شبکۀ عصبی تأخیر زمانی و بردار- x به منظور مقاومسازی در برابر نوفه و صافی کردن (فیلترینگ) بسامدی ناشی از ارتباط تلفنی ارایه گردیده است. از ضرایب کپسترال بسامد مل به عنوان ویژگی صوتی مرتبط با گوینده به عنوان ورودی این الگو استفاده شده است. خروجی شبکۀ عصبی این الگو بهصورت یک بردار- xدر نظر گرفته شده است تا بتواند در مرحلۀ تصمیمگیری از آن استفاده شود. در مرحلۀ تصمیمگیری از تحلیل تفکیک خطی احتمالاتی بهمنظور امتیازدهی و مقایسه استفاده شده است. بهمنظور افزایش دقت و کاهش نرخ خطای برابر، دادههای آموزشی ترکیبی از دادگان نسبتاً تمیز وُکسسِلِب1، 2 و دادگان تلفنی کالهوم و همچنین دادگان نوفهای و تلفنی بهدست آمده از روش دادهافزایی هستند. نتایج حاصل از بهکارگیری این شیوه برای نرخ خطای برابر در حالت تمیز 3/09 درصد است که نسبت به الگوهای پایه در بدترین حالت در حدود 0/15 درصد (3/24 درصد در کارهای پیشین بهدست آمده است) و در بهترین حالت 6/93 درصد (10/2 درصد در کارهای پیشین بهدست آمده است) بهبود یافته است. در زمانی که آموزش با دادگان وُکسسِلِب1، 2 و دادگان کالهوم به عنوان تطبیق استفاده شده است، نرخ خطای برابر معادل 4/95 درصد بهدست آمده است. در بدترین حالت زمانی که فقط دادگان وُکسسِلِب1 به تلفنی تبدیل شده، نرخ خطای برابر معادل با 14/34 درصد شده است.
نوع مطالعه:
پژوهشي |
موضوع مقاله:
آوافیزیک دریافت: 1400/9/24 | پذیرش: 1401/10/7 | انتشار: 1401/12/28