<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Journal of Acoustical Society of Iran</title>
<title_fa>مجله انجمن علوم صوتی ایران (مهندسی صوتیات سابق)</title_fa>
<short_title>مجله انجمن علوم صوتی ایران (مهندسی صوتیات سابق)</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://joasi.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2345-5748</journal_id_issn>
<journal_id_issn_online>2345-5748</journal_id_issn_online>
<journal_id_pii>8</journal_id_pii>
<journal_id_doi>7</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid>14</journal_id_sid>
<journal_id_nlai>8888</journal_id_nlai>
<journal_id_science>13</journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1401</year>
	<month>12</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2023</year>
	<month>3</month>
	<day>1</day>
</pubdate>
<volume>10</volume>
<number>2</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>تأیید هویت گویندۀ مقاوم به شرایط تلفنی با استفاده از شبکۀ عصبی تأخیر زمانی (مقاله پژوهشی)</title_fa>
	<title>Telephone robustness speaker verification using time delay neural network (Research Article)</title>
	<subject_fa>آوافیزیک</subject_fa>
	<subject>Sonophysics</subject>
	<content_type_fa>پژوهشي</content_type_fa>
	<content_type>Research</content_type>
	<abstract_fa>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;text-justify:kashida&quot;&gt;&lt;span style=&quot;text-kashida:0%&quot;&gt;&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;span style=&quot;font-weight:bold&quot;&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:11.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;&lt;span style=&quot;font-weight:normal&quot;&gt;در این تحقیق الگوی شبکۀ عصبی تأخیر زمانی و بردار-&lt;/span&gt;&lt;/span&gt;&lt;/span&gt; &lt;span dir=&quot;LTR&quot; style=&quot;font-size:9.0pt&quot;&gt;&lt;span style=&quot;font-weight:normal&quot;&gt;x&lt;/span&gt;&lt;/span&gt; &lt;span lang=&quot;FA&quot; style=&quot;font-size:11.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;&lt;span style=&quot;font-weight:normal&quot;&gt;به منظور مقاوم&amp;shy;سازی در برابر نوفه و صافی کردن (فیلترینگ) بسامدی ناشی از ارتباط تلفنی ارایه گردیده است. از ضرایب کپسترال بسامد مل به عنوان ویژگی صوتی مرتبط با گوینده به عنوان ورودی این الگو استفاده شده است. خروجی شبکۀ عصبی این الگو به&#8204;صورت یک بردار-&lt;/span&gt;&lt;/span&gt;&lt;/span&gt; &lt;span dir=&quot;LTR&quot; style=&quot;font-size:9.0pt&quot;&gt;&lt;span style=&quot;font-weight:normal&quot;&gt;&amp;nbsp;x&lt;/span&gt;&lt;/span&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:11.0pt&quot;&gt;&lt;span b=&quot;&quot; nazanin=&quot;&quot; style=&quot;font-family:&quot;&gt;&lt;span style=&quot;font-weight:normal&quot;&gt;در نظر گرفته شده است تا بتواند در مرحلۀ تصمیم&#8204;&amp;shy;گیری از آن استفاده شود. در مرحلۀ تصمیم&#8204;&amp;shy;گیری از تحلیل تفکیک خطی احتمالاتی به&#8204;منظور امتیازدهی و مقایسه استفاده شده است. به&#8204;منظور افزایش دقت و کاهش نرخ خطای برابر، داده&#8204;&amp;shy;های آموزشی ترکیبی از دادگان نسبتاً تمیز وُکس&#8204;سِلِب&#8204;1، 2 و دادگان تلفنی کال&#8204;هوم و هم&#8204;چنین دادگان نوفه&#8204;ای و تلفنی به&#8204;دست آمده از روش داده&#8204;افزایی هستند. نتایج حاصل از به&#8204;کارگیری این شیوه برای نرخ خطای برابر در حالت تمیز 3&lt;sub&gt;/&lt;/sub&gt;09 درصد است که نسبت به الگو&amp;shy;های پایه در بدترین حالت در حدود 0&lt;sub&gt;/&lt;/sub&gt;15 درصد (3&lt;sub&gt;/&lt;/sub&gt;24 درصد در کارهای پیشین به&#8204;&amp;shy;دست آمده است) و در بهترین حالت 6&lt;sub&gt;/&lt;/sub&gt;93 درصد (10&lt;sub&gt;/&lt;/sub&gt;2 درصد در کارهای پیشین به&amp;shy;&#8204;دست آمده است) بهبود یافته است. در زمانی که آموزش با دادگان وُکس&#8204;سِلِب&#8204;1، 2 و دادگان کال&#8204;هوم به عنوان تطبیق استفاده شده است، نرخ خطای برابر معادل 4&lt;sub&gt;/&lt;/sub&gt;95 درصد به&#8204;دست آمده است. در بدترین حالت زمانی که فقط دادگان وُکس&#8204;سِلِب1 به تلفنی تبدیل شده، نرخ خطای برابر معادل با 14&lt;sub&gt;/&lt;/sub&gt;34 درصد شده است.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/div&gt;</abstract_fa>
	<abstract>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;line-height:150%&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;span style=&quot;font-size:11.0pt&quot;&gt;&lt;span style=&quot;line-height:150%&quot;&gt;In this research, TDNN model and x-vector are presented in order to robust noise and frequency filtering caused by telephone communication. MFCC is used as the speaker-related audio feature as input to this model. The output of neural network of this model is considered as an x-vector so that it can be used in the decision stage. In the decision stage, PLDA was used for scoring and comparison. In order to increase accuracy and reduce EER, the training dataset is a combination of relatively clean VoxCeleb 1,2 dataset and Callhome telephone dataset, as well as noise and telephone dataset obtained from the data augmentation method. The results of using this method for EER in the clean state are 3.09%, which has improved about 0.15% (3.24% has been obtained in previous works) in the worst case and 6.93% (10.2% has been obtained in previous works) in the best case compared to the base models. When training with Voxceleb1,2 and Callhome datasets was used as an adaptation, the EER was 4.95%. In the worst case, when only the Voxceleb1 data is converted to a telephone, the EER is 14.34%.&lt;/span&gt;&lt;/span&gt;&lt;span dir=&quot;RTL&quot; lang=&quot;AR-SA&quot; style=&quot;font-size:11.0pt&quot;&gt;&lt;span style=&quot;line-height:150%&quot;&gt;&lt;span style=&quot;font-family:&quot;B Nazanin&quot;&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/div&gt;</abstract>
	<keyword_fa>تأیید هویت گوینده, شبکۀ عصبی تأخیر زمانی, بردار- x, ضرایب کپسترال بسامد مل, احتمال تحلیل تفکیک خطی.</keyword_fa>
	<keyword>Speaker verification, Time delay neural network, x-Vector, Mel frequency cepstral coefficients, Probability linear discriminant analysis.</keyword>
	<start_page>11</start_page>
	<end_page>20</end_page>
	<web_url>http://joasi.ir/browse.php?a_code=A-10-996-2&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>M.</first_name>
	<middle_name></middle_name>
	<last_name>Asgari</last_name>
	<suffix></suffix>
	<first_name_fa>محمد</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>عسگری</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>m.asgari@iribu.ac.ir</email>
	<code>10031947532846003691</code>
	<orcid>10031947532846003691</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation></affiliation>
	<affiliation_fa>دانشکده فنی و مهندسی رسانه، دانشگاه صدا و سیمای جمهوری اسلامی ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>N.</first_name>
	<middle_name></middle_name>
	<last_name>Akbari</last_name>
	<suffix></suffix>
	<first_name_fa>نرگس</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>اکبری</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>n.akbari66@gmail.com</email>
	<code>10031947532846003692</code>
	<orcid>10031947532846003692</orcid>
	<coreauthor>No</coreauthor>
	<affiliation></affiliation>
	<affiliation_fa>دانشکده فنی و مهندسی رسانه، دانشگاه صدا و سیمای جمهوری اسلامی ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>M..</first_name>
	<middle_name></middle_name>
	<last_name>Aghagolzade</last_name>
	<suffix></suffix>
	<first_name_fa>مهران</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>آقاگلزاده</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>mehran71.aghagolzadeh@gmail.com</email>
	<code>10031947532846003693</code>
	<orcid>10031947532846003693</orcid>
	<coreauthor>No</coreauthor>
	<affiliation></affiliation>
	<affiliation_fa>دانشکده فنی و مهندسی رسانه، دانشگاه صدا و سیمای جمهوری اسلامی ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>M.</first_name>
	<middle_name></middle_name>
	<last_name>Mehrabikia</last_name>
	<suffix></suffix>
	<first_name_fa>محمدصادق</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>محرابی کیا</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>sadegh.mehrabikia@gmail.com</email>
	<code>10031947532846003694</code>
	<orcid>10031947532846003694</orcid>
	<coreauthor>No</coreauthor>
	<affiliation></affiliation>
	<affiliation_fa>دانشکده فنی و مهندسی رسانه، دانشگاه صدا و سیمای جمهوری اسلامی ایران</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
