در این تحقیق الگوی شبکۀ عصبی تأخیر زمانی و بردار-xبه منظور مقاومسازی در برابر نوفه و صافی کردن (فیلترینگ) بسامدی ناشی از ارتباط تلفنی ارایه گردیده است. از ضرایب کپسترال بسامد مل به عنوان ویژگی صوتی مرتبط با گوینده به عنوان ورودی این الگو استفاده شده است. خروجی شبکۀ عصبی این الگو بهصورت یک بردار- xدر نظر گرفته شده است تا بتواند در مرحلۀ تصمیمگیری از آن استفاده شود. در مرحلۀ تصمیمگیری از تحلیل تفکیک خطی احتمالاتی بهمنظور امتیازدهی و مقایسه استفاده شده است. بهمنظور افزایش دقت و کاهش نرخ خطای برابر، دادههای آموزشی ترکیبی از دادگان نسبتاً تمیز وُکسسِلِب1، 2 و دادگان تلفنی کالهوم و همچنین دادگان نوفهای و تلفنی بهدست آمده از روش دادهافزایی هستند. نتایج حاصل از بهکارگیری این شیوه برای نرخ خطای برابر در حالت تمیز 3/09 درصد است که نسبت به الگوهای پایه در بدترین حالت در حدود 0/15 درصد (3/24 درصد در کارهای پیشین بهدست آمده است) و در بهترین حالت 6/93 درصد (10/2 درصد در کارهای پیشین بهدست آمده است) بهبود یافته است. در زمانی که آموزش با دادگان وُکسسِلِب1، 2 و دادگان کالهوم به عنوان تطبیق استفاده شده است، نرخ خطای برابر معادل 4/95 درصد بهدست آمده است. در بدترین حالت زمانی که فقط دادگان وُکسسِلِب1 به تلفنی تبدیل شده، نرخ خطای برابر معادل با 14/34 درصد شده است.
Asgari M, Akbari N, Aghagolzade M, Mehrabikia M. Telephone robustness speaker verification using time delay neural network (Research Article). مجله علمی پژوهشی انجمن مهندسی صوتیات ایران 2023; 10 (2) :11-20 URL: http://joasi.ir/article-1-231-fa.html
عسگری محمد، اکبری نرگس، آقاگلزاده مهران، محرابی کیا محمدصادق. تأیید هویت گویندۀ مقاوم به شرایط تلفنی با استفاده از شبکۀ عصبی تأخیر زمانی (مقاله پژوهشی). مجله علمی پژوهشی انجمن مهندسی صوتیات ایران. 1401; 10 (2) :11-20