تعداد نشریات | 43 |
تعداد شمارهها | 1,650 |
تعداد مقالات | 13,402 |
تعداد مشاهده مقاله | 30,201,310 |
تعداد دریافت فایل اصل مقاله | 12,073,907 |
بررسی ویژگیهای فردویژۀ واکههای سادۀ زبان فارسی بر اساس نظریۀ منبع-صافی | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نشریه پژوهش های زبان شناسی | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مقاله 12، دوره 12، شماره 2 - شماره پیاپی 23، مهر 1399، صفحه 241-262 اصل مقاله (1.26 M) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نوع مقاله: مقاله پژوهشی | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
شناسه دیجیتال (DOI): 10.22108/jrl.2021.128697.1577 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نویسندگان | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
هما اسدی* 1؛ بتول علی نژاد2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1گروه زبانشناسی، دانشکده زبانهای خارجی، دانشگاه اصفهان، اصفهان، ایران | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2دانشیار گروه زبانشناسی دانشکده زبانهای خارجی دانشگاه اصفهان، ایران | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
چکیده | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
پژوهش حاضر با استفاده از ابزارهای آواشناسی آزمایشگاهی و براساس نظریۀ منبع-صافی به بررسی تغییرات بین-گوینده و درون-گوینده در واکههای سادۀ زبان فارسی میپردازد. این پژوهش در پیِ آن است تا مشخص کند کدامیک از واکههای سادۀ زبان فارسی اطلاعات فردویژۀ بیشتری را نشان میدهد و کدام پارامتر آکوستیکی بهتر میتواند گویندگان فارسیزبان را از هم متمایز سازد. بهمنظور بررسی تغییرات بین-گوینده و درون-گوینده، دو دسته پارامتر آکوستیکی یکی مربوط به حنجره یعنی فرکانس پایه و دیگری پارامترهای مربوط به دستگاه گفتار یعنی فرکانسهای سازه انتخاب شد. فرکانس پایه و فرکانس سازههای اول، دوم، سوم و چهارم از منطقۀ ثبات واکههای تولیدشده توسط دوازده گویشور مرد فارسیزبان استخراج شد. نمونههای آوایی با استفاده از برنامۀ Praat ویرایش 34، 2، 5 مورد تجزیه و تحلیل آکوستیکی قرار گرفت و تحلیل آماری دادهها و مقادیر بهدستآمده از بررسی آکوستیکی نمونههای آوایی با استفاده از نرمافزار SPSS ویرایش 0/21 و نرم افزار R ویرایش 3. 3. 3 انجام شد. نتایج نشان داد واکۀ پیشین افتادۀ /a/ در مقایسه با سایر واکهها و فرکانس سازۀ سوم در مقایسه با سایر سازهها اطلاعات فردویژۀ بیشتری را نشان میدهند. براساس نتایج، فرکانس پایه نسبت به فرکانس سازهها پارامتر قدرتمندتری در نشاندادن تغییرات بین-گوینده است. همچنین، نتایج حاکی از این است که فرکانس پایه با فرکانس سازۀ اول همبستگی دارد که این موضوع به نوعی نشانگر رابطۀ متقابل میان بخشهای منبع و صافی است. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کلیدواژهها | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آواشناسی قضایی؛ نظریۀ صافی-منبع؛ تشخیص هویت گوینده؛ فرکانس سازه؛ فرکانس پایه | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
اصل مقاله | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
. مقدمه ارتباط کلامی جزء جداییناپذیر تعاملات اجتماعی نوع بشر است. تجربۀ روزمرۀ مکالمات افراد نشان داده است که انسانها قادرند تا افراد آشنا را از طریق صدایشان بهراحتی تشخیص دهند. این امر نمود بارز خود را هنگام برقراری ارتباط از طریق خطوط تلفن نشان میدهد، زمانیکه پس از شنیدن اولین هجاها و یا جملهها میتوان حدس زد که طرف مقابل چه کسی است. پس میتوان ابراز کرد صداهای افراد دارای ویژگیهای منحصربهفردیاند که شنونده را قادر میسازد تا فرد مخاطب را تنها از راه شنیدن صدایش شناسایی کند. فرایند تشخیص هویت افراد بر مبنای ویژگیهای فیزیکی مستتر در گفتارشان در آواشناسی قضایی[1] و بهطور خاص در تشخیص قضایی گوینده[2] نمود مییابد. آواهای گفتاری حاوی اطلاعاتی مربوط به آناتومی دستگاه آوایی فرد، فیزیولوژی، شرایط روحی و روانی و نیز پیشزمینۀ اجتماعی وی هستند و این اطلاعات در ویژگیهای آکوستیکی سیگنالهای آوایی منعکس میشوند. با وجود این، آواهای گفتار بهلحاظ مشخصههای فردویژه یکسان نیستند. به سخن دیگر، برخی از آواها نسبت به سایر آواها اطلاعات فردویژۀ بیشتری در خود حمل میکنند (Kavanagh, 2012). بهترین پارامترهای آوایی تمایزدهنده آن دسته از پارامترها هستند که شامل بیشترین تغییرات بین-گوینده[3] و کمترین تغییرات درون-گوینده[4] باشند (Rose, 2002). به عبارت دیگر، پارامترهای آوایی که افراد مختلف یک زبان خاص را به بهترین نحو از هم متمایز میسازد و در عین حال کمترین میزان تغییر را درون یک گوینده واحد نشان میدهد. نقش تمایزدهندۀ واکهها در آواشناسی قضایی همواره مورد توجه بوده است و این آواها جایگاه قابلملاحظهای در پژوهشهای شناسایی گوینده دارند ( Sambur, 1975 ; Goldstein,1976; Rose, 2002; McDougall, 2006). گلد[5] و فرنچ[6] (2011) در پژوهش خود با عنوان «روالهای بینالمللی در مقایسۀ قضایی گوینده»[7] به این نتیجه رسیدند که 94 درصد آواشناسان و محققان قضایی در پژوهشهای خود واکهها را بررسی میکنند. همچنین، در رتبهبندی پارامترهای آکوستیکی مهم، فرکانس پایه و فرکانس سازهها دو متغیری بودند که بیشترین میزان تحلیلها را به خود اختصاص داده بودند. واکهها آواهایی هستند که در تولید آنها مجرای گفتار نسبتاً باز است و معمولاً براساس سه معیار تولیدی ارتفاع بدنۀ زبان، موقعیت پیشین-پسین زبان و درجۀ گردی لبها توصیف میشوند. منبع واکهها تکانههای حاصل از ارتعاش تارآواهاست که با خروج از صافی دستگاه گفتار بهصورت موج صوتی، هوای اطراف گوینده را مرتعش میکنند (بیجنخان، 131:1392). واکهها در پژوهشهای آواشناسی قضایی سهم قابلملاحظهای را به خود اختصاص دادهاند. یکی از دلایل مورد توجه بودن واکهها مربوط به دو ویژگی آکوستیکی مهم در این آواهاست: یکی فرکانس پایه و دیگری فرکانس سازهها. فرکانس پایه همبستۀ آکوستیکی میزان ارتعاش تارآواهاست. به عبارتی، فرکانس پایه تعداد دفعات بازوبسته شدن تارآواها را در هر ثانیه براساس مقیاس چرخه در ثانیه یا هرتز محاسبه میکند. گویندگان بهلحاظ توزیع انرژی در فرکانس پایۀ گفتارشان با هم متفاوتند. این امر به عوامل متعدد فیزیکی مانند طول و حجم تارآواها بستگی دارد. از سوی دیگر، فرکانس سازهها بهمثابۀ یکی از واضحترین همبستههای آکوستیکی رزونانس دستگاه گفتار اطلاعات فردویژۀ بسیاری در خود رمزگذاری میکنند .( Jessen and Becker, 2010 ; Gold et al., 2013) نولان و گریگوراس (2005) فرکانس سازه و دینامیک آن را محصول تعامل میان دستگاه آوایی فرد با حرکات فردویژۀ آنان برای تولید آوا میدانند. آنها بر این باورند فرکانس سازهها افزون بر بازتاب ویژگیهای آناتومیک ساختار دستگاه گفتار فرد، میتواند عادتهای زبانی گویندگان را نیز منعکس کند مانند کامیشدگی[8] که با بالارفتن فرکانس سازۀ دوم همراه است (Nolan and Grigoras, 2005). اگر از دیدگاه نظریۀ آوایی منبع-صافی[9] به تولید واکهها نگاه کنیم، فرکانس پایه و فرکانس سازهها بهعنوان مهمترین انعکاس آکوستیکی تولید واکه از تعامل میان دو بخش مستقل، یعنی منبع و صافی حاصل میشوند. منبع تولید واکه ارتعاش تارآواها و صافی نیز مربوط به شکل دستگاه گفتار فوق حنجره است. تفاوتهای فیزیکی میان طول و حجم تارآواهای افراد و همچنین، دستگاه گفتار افراد منجر به تغییر در مقادیر این پارامترهای آکوستیکی میان افراد میشود. بنابراین، این دو ویژگی آکوستیکی برجسته واکهها را به آواهایی سودمند در مطالعات آوایی-قضایی تبدیل کرده است. بدین ترتیب، در پژوهش پیشِ رو قصد داریم براساس چارچوب آواشناسی قضایی و با اتکا به نظریۀ منبع-صافی به بررسی آکوستیکی ویژگیهای معینی از واکههای تولیدی در گویندگان فارسی زبان بپردازیم و مشخصههای آکوستیکی فردویژه را در گفتار آنها کشف کنیم. در پژوهش حاضر واکههای //a, e, o, A, i, u در زبان فارسی بهعنوان بخشهای آواییِ منتخب مورد بررسی قرار خواهند گرفت و فرکانس سازۀ اول، دوم، سوم، چهارم و فرکانس پایۀ هریک از آنها عنوان پارامترهای آکوستیکی منتخب اندازهگیری و بررسی خواهند شد. رایجترین شیوۀ تحلیل واکهها اندازهگیری فرکانس سازۀ واکهها (سازۀ اول تا چهارم) در محدودۀ مرکزی واکه است ( Kahn et al., 2011 ; Rose: 2007; Kinoshita, 2002). به عبارتی، در این شیوه فرکانس سازه در محدودۀ مرکزی واکه اندازهگیری میشود، جایی که گفته میشود واکه ثبات کافی دارد، تغییرات واکه در آن منطقه کمتر است و گویندگان هنگام تولید آوا قصد دارند به آن نقطۀ هدف[10] برسند (Strange, 1989). به سخن دیگر، در این شیوه ویژگیهای ایستای واکه مدنظر قرار میگیرد. یکی دیگر از شیوههای تحلیل واکهها اندازهگیری فرکانس سازهها و فرکانس پایه به روش بلندمدت است. در این روش که توسط نولان و گریگوراس (2005) ابداع شده است پارامترهای آکوستیکی از سطح کل زنجیرۀ آوایی استخراج میشوند، بدین معنا که ابتدا زنجیرۀ واکهها از کل پارهگفتار استخراج میشود و در کنار هم قرار میگیرند. سپس، هر پنج یا دههزارم ثانیه میانگین فرکانس پایه و سازه اندازهگیری میشود و در نهایت نیز یک میانگین و انحراف معیار برای کل واکههای پارهگفتار به دست میآید. اگرچه این روش در پژوهشهای مربوط به تشخیص هویت گوینده کاربرد زیادی دارد؛ اما محدودیتهای خاص خود را نیز دارد. در این روش تنها میتوان قدرت فرکانس سازهها را محک زد و نمیتوان نشان داد کدام آوا نسبت به آوای دیگر فردویژهتر است. این درحالی است که آواها بهلحاظ مشخصههای فردویژه تفاوت زیادی با هم دارند و همۀ آواها به یک اندازه تمایزدهنده نیستند؛ برای مثال، پژوهشهای مختلف آوایی-قضایی دربارۀ همخوانهای سایشی در زبانهای مختلف از جمله زبان فارسی نشان داده است که آوای /s/ بهلحاظ نشاندادن مشخصههای فردویژه قدرت بسیار بالایی دارد ( Kavenagh, 2012 ; Asadi et.al., 2018 a). بنابراین، این احتمال نیز وجود دارد که واکهها نیز با توجه به جایگاه و شیوۀ تولید متفاوتی که دارند مشخصههای فردویژهشان نیز با هم متفاوت باشد. از اینروی در پژوهش حاضر قصد داریم تا واکههای زبان فارسی را بر اساس شیوۀ ایستا تجزیه و تحلیل کنیم تا از این رهگذر دریابیم که کدام واکهها اطلاعات فردویژۀ بیشتری در خود حمل میکنند و کدام پارامتر آکوستیکی مربوط به واکهها (اطلاعات مربوط به حنجره یا اطلاعات مربوط به صافی دستگاه گفتار) اطلاعات فردویژۀ بیشتری دارند؟ دستاوردهای این پژوهش افزون بر آواشناسی آزمایشگاهی قابلیت بهکارگیری در زمینههای مختلفی از جمله آواشناسی قضایی و تشخیص اتوماتیک گوینده را نیز دارد.
با توجه به نقش چشمگیر واکهها در شناسایی گوینده، پژوهشهای بسیاری تاکنون تلاش کردهاند تا جنبههای مختلف این آواها را با دیدگاه آوایی-قضایی بررسی کنند. کینوشیتا (2002) با اندازهگیری فرکانس سازهها در محدودۀ مرکزی واکهها به بررسی پارامترهای آکوستیکی فرکانس سازۀ دوم/i/، فرکانس سازۀ دوم و سوم /e/ و فرکانس سازۀ سوم /o/ در دادههای صوتی مربوط به زبان ژاپنی پرداخت. فرکانس سازۀ همۀ نمونههای آوایی از محدودۀ مرکزی کل دیرش واکهها استخراج شد. استخراج دادهها در سه مرحله و به سه شیوۀ متفاوت صورت گرفت. فرایند ضبط دادهها بهصورت غیرهمزمان و با فاصلۀ دو هفته انجام شد. نتیجۀ پژوهش نشان داد مادامیکه تعداد پارامترهای کافی در نظر گرفته شود، گویندگان ژاپنیزبان میتوانند بر مبنای فرکانس سازهها از هم متمایز شوند. این پژوهش در قالب رویکرد نسبت درستنمایی[11] صورت گرفت و از میان 180 تشخیص درون-گوینده، 5 مورد اشتباه و از میان 90 تشخیص بین-گوینده، 9 مورد اشتباه تخمین زده شد. این نتایج نشان داد حتی با وجود تعداد پارامترهای کم (شش پارامتر در این پژوهش) امکان تفکیک گویندگان وجود دارد. رز[12] و همکاران (2003) در پژوهش خود به بررسی یک آزمایش آوایی-قضایی شناسایی گوینده انجام دادند که براساس آن جفتدادههای مشابه آوایی تولیدشده توسط 60 گویندۀ مرد ژاپنی با جفتدادههای غیرمشابه آوایی از همان گویندگان در قالب رویکرد درستنمایی با هم مقایسه شد. دادههای مورد بررسی در دو جلسه به فاصلۀ سه یا چهار ماه و از طریق خط تلفن ضبط شد. شرکتکنندگان این پیکرۀ آوایی همگی از اعضای نیروی پلیس ژاپن بودند که محدودۀ سنی بین 20 تا 50 سال داشتند. در این پژوهش سه بخش آوایی شامل یک خیشومی مورا، سایشی بیواک لثویکامی و یک واکۀ گرد میانی پسین کشیده به شیوۀ ایستا تجزیه و تحلیل شدند. در کنار استخراج فرکانس سازههای اول تا پنجم از بخشهای آوایی یادشده، آنها یک پارامتر اتوماتیک یعنی کپستروم[13] را نیز در دستور کار خود قرار دادند تا در انتها پارامترهای مورد بررسی را با هم مقایسه کنند و قدرت شاهد[14] آنها را بسنجند. نتایج نشان داد فرکانس سازهها عملکرد مطلوبی در شناسایی گوینده داشتهاند با این حال قدرت شاهد آنها از کپستروم پایینتر گزارش شد که نویسندگان معتقدند علت این امر میتواند ناشی از عوامل تأثیرگذار بر فرکانس سازهها باشد که بر آنها پوشیده است. آلدرمن[15] (2005) نیز در پژوهش خود به روش ایستا و از طریق اندازهگیری فرکانس سازه در محدودۀ مرکزی واکهها در دو پیکرۀ آوایی قدیم و جدید نشان داد که میتوان با استفاده از فرکانس سازۀ پنج واکۀ بلند انگلیسی استرالیایی نمونههای آوایی متعلق به افراد مشابه را از نمونههای آواییِ افراد متفاوت متمایز ساخت. همچنین، استفاده از دو پیکرۀ آوایی که در دو زمان مختلف ضبط شده است تأثیر چندانی در نتایج نداشته است که این موضوع نشان میدهد تغییر زبانی نمیتواند قدرت فرکانس سازه را بهعنوان یک پارامتر شناسایی گوینده تحت تأثیر قرار دهد. رز (2007) در دیگر پژوهش خود به روش ایستا و در قالب رویکرد نسبت درستنمایی به بررسی تغییرات بین-گوینده و درون-گوینده در پنج واکۀ سخت[16] /:/o: a: «: u: i و شش واکۀ نرم[17] /I e Q a o U/ در زبان انگلیسی استرالیایی پرداخته است. نتایج نشان داد واکۀ /i/ بهترین واکه در نشاندادن تمایز بین گویندگان بوده و فرکانس سازۀ دوم /i/ نیز نسبت به سایر پارامترها شامل اطلاعات فردویژۀ بیشتری بوده است. همچنین، عملکرد واکۀ/Q/ نسبت به واکههای سخت /a:/ و /«:/ بهتر بوده است. رز و وینتر[18] (2010) در ادامه به بررسی صدای زنها در چارچوب مقایسۀ قضایی صدا پرداختند. به اعتقاد پژوهشگران امروزه تنها مردان مجرم نیستند و تعداد جرائمی که زنان مرتکب میشوند نیز رو به فزونی است. از این رو، آنها در پژوهش خود سه فرکانس سازۀ اول را از دادههای آوایی تولیدشده توسط 20 زن استرالیایی استخراج کردند. دادهها در دو جلسۀ غیرهمزمان به فاصلۀ یک تا پنج هفته ضبط شد و رویکرد تحلیلی این پژوهش نسبت درستنمایی بود. نتایج نشان داد برخلاف صدای مردان، فرکانس سازۀ اول واکههای افراشته در صدای زنها میتواند پارامتر سودمندی برای مقایسۀ قضایی صدا باشد. همچنین، نتایج حاکی از آن بود که فرکانس سازۀ سوم واکۀ /i/ به نظر چندان در تمایز صدای زنها مفید نباشد. کان[19] و همکاران (2010) نیز با اتخاذ رویکرد ایستا در پژوهش خود با اعتقاد به اینکه مطالعۀ تفاوتهای بین-گوینده و درون-گوینده میتواند درک بهتری از صدا به عنوان دادهای بیومتریک به دست دهد به بررسی 016, 328 نمونۀ آوایی از 10 واکۀ دهانی زبانی فرانسه پرداختند. در این پژوهش مقدار فرکانس سازه از محدودۀ میانی ده واکۀ زبان فرانسه استخراج شد. نتایج این پژوهش نشان داد واکههای /Q/، /E/ و /a/ حاوی اطلاعات فردویژۀ بیشتری نسبت به سایر واکههای دهانی در زبان فرانسه بودند. بهطور کل واکۀ میانی/Q/ و /E/ و واکۀ افتادۀ /a/ بیشترین قدرت تمایز میان گویندگان را داشتند. تاکنون به پژوهشهایی اشاره کردیم که به شیوۀ ایستا به بررسی تغییرات بین-گوینده و درون-گوینده در واکهها پرداختهاند؛ اما ارتباط فرکانس سازه با فرکانس پایه در این پژوهشها مدنظر نبوده است و تنها تمرکزشان بر فرکانس سازهها بوده است. دستهای دیگر از پژوهشها استقلال میان پارامترهای مربوط به حنجره و پارامترهای مربوط به صافی گفتار را از زاویۀ دید نظریۀ منبع-صافی بررسی کردهاند و به تبیین نقش این نظریه در آواشناسی قضایی پرداختهاند. اصل نظریۀ منبع-صافی بر فرض استقلال مراحل تولید آوا در حنجره و در دستگاه گفتار استوار است. با این حال، در پارهای از پژوهشها به تعامل غیر-خطی میان منبع و صافی و رابطۀ متقابل این دو بخش نیز اشاره شده است. تیتز[20] (2008) تعامل میان دو بخش منبع و صافی را بررسی میکند و معتقد است فشار هوای درون دستگاه گفتار بر جریان هوای فوقچاکنایی و نیز لرزش تارآوها تأثیر میگذارد. گوردون[21] و لدفوگد[22] (2001) نیز به تعامل میان منبع و صافی در فرایند واکسازی اشاره کردهاند و بیان میکنند که بالارفتن حنجره در تولید واک جیرجیری[23] و پایینآمدن آن درتولید واک نفسی[24] هر دو بر مقادیر فرکانس سازۀ اول تأثیر میگذارند. با وجود این، پژوهشهایی که در بافت آوایی-قضایی انجام شده است به استقلال پارامترهای منبع و صافی تأکید میکنند و معتقدند ترکیب این دو پارامتر میتواند در شناسایی گویندگان برحسب صدایشان سودمند باشد. بهعنوان نمونه، هیوز[25] و همکاران (2017) پارامترهای مربوط به منبع (کیفیت صدا)[26] و پارامترهای مربوط به صافی (فرکانس سازۀ بلندمدت و (MFCC[27] را با سه رویکرد اتوماتیک، نیمهاتوماتیک و آوایی سنجیدند و به این نتیجه رسیدند که پارامترهای مربوط به صافی اطلاعات فردویژۀ مشابهی نشان میدهند و در صورتی که در رویکرد اتوماتیک اطلاعات مربوط به حنجره نیز اضافه شود بازدهی سیستمهای شناسایی گوینده نیز به موازات بالاتر میرود. سنسگوندو[28] و همکاران (2017) در پژوهش خود شباهت گویندگان را براساس فاصلۀ اقلیدسی[29] و با استفاده از مشخصههای منبع و صافی در دوقلوهای همسان بررسی کردند. نتایج این پژوهش استقلال میان مشخصههای مربوط به منبع و صافی را تأیید کرد و دیگر بار نشان داده شد که میتوان بهطور همزمان در تحلیلهای آوایی-قضایی از ترکیب این مشخصهها استفاده کرد بدون اینکه پارامتری اضافی در پژوهش دخیل باشد. هیوز و همکاران (2019) در دیگر پژوهش خود دادههای آوایی را از پیکرۀ DyViS (Nolan et al., 2009) استخراج کردند و پارامترهای مربوط به منبع، یعنی فرکانس پایه و کیفیت صدا، و پارامترهای مربوط به صافی، یعنی فرکانس سازهها وMFCC ، را در این پیکره تجزیه و تحلیل کردند. نتایج حاکی از استقلال پارامترهای یادشده بود و نشان داد هر کدام از این پارامترها اطلاعات متفاوتی را دربارۀ گوینده در خود حمل میکنند که در نتیجه، ترکیب آنها میتواند به بهبود شناسایی گوینده در بافتهای قضایی کمک کند. طبق نتایج بهدستآمده از مطالعات پیشین، انتظار میرود فرکانس پایه و فرکانس سازه بهعنوان دو پارامتر مربوط به حنجره و دستگاه گفتار بتوانند اطلاعات فردویژۀ متفاوتی دربارۀ صدای گویندگان نشان بدهند و ترکیب آنها در مطالعات آوایی-قضایی منجر به نتیجۀ بهتری در تشخیص صدای گویندگان شود.
نظریۀ منبع-صافی برای اولین بار توسط فانت[30] (1960) در کتاب نظریۀ صوتی تولید گفتار[31] ارائه شد. در انگارۀ پیشنهادی فانت، فرایند تولید، ارسال و درک گفتار با استفاده از مبانی صوتی انتقال امواج در لولههای صوتی به هم پیوند خوردهاند (بیجنخان، 1392: 93). انگارۀ منبع-صافی از دو بخش به نام منبع و صافی تشکیل شده است که از هم مستقلاند و کارکردی متفاوت دارند. در واقع، گفتار حاصل تعامل یک منبع صوت و یک صافی است که به صوت ایجادشده شکل یا طنین میدهد (مدرسی قوامی، 1390: 131). منظور از منبع، محلی از دستگاه گفتار است که بر اثر فعالیتهای اندامهای گویایی منجر به تولید صوت میشوند. پس از اینکه صدا در منبع تولید شد، وارد مرحلۀ صافی میشود. صافیِ دستگاه گفتار همان حفرههای بازخوانی، یعنی حلق و دهان، هستند که شکل و ابعاد این حفرهها در تعیین کیفیت واکهها و مشخصههای آکوستیکی آنها تأثیرگذار است. طبق انگارۀ منبع-صافی، دو بخش منبع و صافی از هم مستقلاند و همین استقلال سبب میشود که بتوان ویژگیهای مربوط به این دو بخش را جداگانه اندازهگیری و کمیسازی کرد. منبع صدا در تولید واکهها ارتعاش منظم پردههای صوتی در حنجره است. پس از آن موج صوتی حاصل از فعالیت حنجره با عبور از دستگاه گفتار بر حسب شکل و اندازۀ این دستگاه به صورتهای مختلف فیلتر میشود؛ به این معنی که انرژی برخی از فرکانسها تقویت و انرژی برخی فرکانسهای دیگر تضعیف میشود و به این شیوه آواهایی با کیفیتهای گوناگون تولید میشود (نوربخش، 1392: 31). در شکل 1 نحوۀ تعامل میان منبع و صافی در تولید گفتار ترسیم شده است.
شکل 1- نحوۀ تعامل میان منبع و صافی در تولید گفتار (برگرفته از علینژاد و حسینیبالام، 1392: 70) Figure 1- Source-filter interaction in speech production
در بخشهای زیر اطلاعات مربوط به شرکتکنندگان، نحوۀ ضبط دادههای آوایی، تقطیع دادهها و نیز پارامترهای انتخابشده برای پژوهش حاضر توضیح داده میشود.
4-1. شرکتکنندگان و دادههای آوایی بهمنظور استخراج پارامترهای آکوستیکیِ تمایزدهنده میان گویشوران فارسیزبان، پیکرهای آوایی در محیط آزمایشگاهی ضبط شد. در این پیکرۀ آوایی صدای دوازده گویشور مرد فارسیزبان با محدودۀ سنی 22 تا 35 سال در دو جلسۀ مجزا ضبط شد. علت ضبط دادههای آوایی در دو جلسۀ مجزا اندازهگیری میزان تغییرات درون-گوینده پارامترهای آکوستیکی با توجه به عامل گذر زمان بود. بهمنظور کنترل پیکره و محدودسازی عوامل تأثیرگذاری مانند لهجۀ منطقهای و اجتماعی، تلاش شد گویشورانی انتخاب شوند که زبان مادری آنها فارسی معیار است و دارای تحصیلات کارشناسی یا کارشناسی ارشد باشند. همچنین، گویشوران هیچگونه سابقۀ اختلال گفتاری و شنوایی نداشتند. آنها تعداد 54 جملۀ فارسی را در دو جلسۀ جداگانه به فاصلۀ یک تا دو هفته تولید کردند. در مجموع تعداد 1296 (1296= 2 تکرار×54 جمله×12 گویشور) نمونۀ آوایی به دست آمد.
4-2. شیوۀ ضبط و تقطیع دادهها صدای آزمودنیها با استفاده از میکروفون رولاند 44100 هرتز ضبط شد. میکروفون بهصورت مورب و به فاصلۀ 20 سانتیمتری از دهان شرکتکنندگان قرار گرفت. از آنها درخواست شد که جملهها را بدون آهنگ نشاندار بهصورت طبیعی و با مکثی حدود 3 ثانیه میان هر جمله تولید کنند. بهمنظور آشناسازی شرکتکنندگان با متن خوانداری، از آنها درخواست شد تا پیش از شروع فرایند ضبط صدا متن را چند بار بخوانند. دادههای آوایی با استفاده از نرمافزار Praat ویرایش 34، 2، 5 (Boersma and Weenink, 2013) تقطیع و لایهبندی شد. متناسب با هر فایل صوتی، یک شبکۀ متنی ایجاد شد. نمونههای آوایی با استفاده از علائم آواشناختی IPA[32] برچسبگذاری شد. واکهها از طریق سازههایشان که بهصورت نوارهای پررنگ با پهنای نوار محدود در طیفنگاشت حضور دارند، مشخص شدند. پارامترهای آکوستیکی فرکانس پایه، فرکانس سازۀ اول، فرکانس سازۀ دوم، فرکانس سازۀ سوم و فرکانس سازۀ چهارم برای اندازهگیری تغییرات بین-گوینده و درون-گوینده در پیکرۀ آوایی موردبررسی انتخاب شد. بهمنظور اندازهگیری این پارامترها ابتدا طیفنگاشت و موجصوتی واکۀ مدنظر را بهدست آوردیم و سپس، با انتخاب محدودۀ مرکزی 50 هزارم ثانیه مقادیر را از این منطقه استخراج کردیم. در این پژوهش مقادیر بهدستآمده از واکهها با استفاده از برنامۀ اندازهگیری خودکار انجام شده است. تحلیل آماری دادهها و مقادیر بهدستآمده از بررسی آکوستیکی نمونههای آوایی با استفاده از نرمافزار SPSS ویرایش 0/21 و نرمافزار R ویرایش 3. 3. 3 صورت گرفت.
در بخشهای زیر با توجه به پرسشهای مطرحشده در بخش مقدمه به اجرای آزمونهای آماری مرتبط پرداخته و نتایج مربوط به تجزیه و تحلیل دادهها گزارش خواهد شد. ابتدا نتایج آماری مربوط به تغییرات بین-گوینده در پارامترهای فرکانس پایه و فرکانس سازههای اول تا چهارم گزارش خواهد شد و سپس نتایج مربوط به تغییرات درون-گوینده در پارامترهای یاددشده ارائه میشود. در بخش نهایی نیز همبستگی میان پارامترهای منتخب و رابطۀ میان این پارامترها بررسی و تحلیل خواهد شد.
5-1. تغییرات بین-گوینده در فرکانس پایه و فرکانس سازههای واکهها دادههای آوایی جمعآوریشده از دوازده گویندۀ مرد فارسیزبان وارد نرمافزار تحلیل گفتار Praat شد و سپس، با استفاده از برنامۀ خودکار تحلیل سازه و فرکانس پایه، مقدار فرکانس سازههای اول تا چهارم و نیز فرکانس پایه از منطقۀ ثبات واکهها به دست آمد. در جدول (1) میزان رخداد واکهها بههمراه میانگین، انحراف معیار بین-گوینده، انحراف معیار درون-گوینده و عدد مربع اتا[33] گزارش شده است. بهمنظور بررسی تأثیر عامل گوینده بر متغیرهای آکوستیکی فرکانس پایه و فرکانس سازههای واکههای سادۀ زبان فارسی آزمون تحلیل واریانس دوطرفه برای هر واکه در نرمافزار R اجرا شد.گوینده بهعنوان متغیر مستقل و پارامترهای آکوستیکی فرکانس پایه و فرکانس سازههای اول، دوم، سوم و چهارم به عنوان متغیر وابستۀ پژوهش در نظر گرفته شدند. توزیع تابع Fدر آزمون تحلیل واریانس امکان مقایسۀ تغییرات بین-گوینده را نسبت به تغییرات درون-گوینده فراهم میسازد. هرچه نسبت F بالاتر باشد، میزان تمایز میان گویندگان نیز بیشتر است. براساس نتایج حاصل از اجرای آزمون تحلیل واریانس دوطرفه، اثر گوینده بر پارامترهای فرکانس پایه و فرکانس سازههای اول تا چهارم در همۀ واکههای تحت آنالیز به جز یک مورد معنیدار بوده است (p≤0.05). طبق نتایج بهدستآمده، اثر گوینده تنها بر فرکانس سازۀ دوم واکۀ /u/ معنیدار نبوده است (F (11, 659) = 1.97, sig= 0.028). بالاترین نسبت F در فرکانس پایۀ واکهها به ترتیب در واکۀ /A/ ، واکۀ /e/ و واکۀ /a/ گزارش شده است. F0 /A/: F (11, 2745) =423.60, sig= 0.000 F0 /e/: F (11, 3563) =323.12, sig= 0.000 F0 /a/: F (11, 2963) =282.12, sig= 0.000
در رابطه با فرکانس سازهها، بالاترین نسبت F به ترتیب در فرکانس سازۀ اول و سوم واکۀ /a/ ، فرکانس سازۀ سوم /e/ و نیز فرکانس سازۀ سوم /A/ مشاهده شده است. F1 /a/: F (11, 2963) =157.97, sig= 0.000 F3 /a/: F (11, 2963) =100.47, sig= 0.000 F3 /e/: F (11, 3563) =137.76, sig= 0.000 F3 /A/: F (11, 2745) =88.03, sig= 0.000 آزمون تحلیل واریانس چندمتغیره با در نظرگرفتن گوینده بهعنوان متغیر مستقل بر روی دادههای آوایی نشان میدهد که در مجموع فرکانس سازههای بالاتر، یعنی سازۀ سوم و چهارم، حاوی اطلاعات فردویژۀ بیشتری نسبت به فرکانس سازۀ اول و دوم هستند. در رابطه با واکهها، اثر گوینده در واکۀ /a/ و پس از آن در واکۀ /e/ نسبت به سایر واکهها قویتر گزارش شده است. همچنین، میزان توزیع F در فرکانس پایۀ واکۀ /A/ و /e/ نسبت به سایر واکهها بیشتر بوده است. از آنجا که امکان مقایسۀ مستقیم میان عدد P و F وجود ندارد، بهمنظور نشان دادن اندازۀ اثر گوینده و قدرت تمایزدهندگی واکهها از معیار مربع اتا استفاده کردیم. عدد مربع اتا بزرگی اثر گوینده یعنی نسبت واریانس توضیح دادهشده را در آزمون مانوا[34] نشان میدهد. مربع اتا از تقسیم مجموع مربعات فاکتور مدنظر بر مجموع مربعات کل اثرات، تعاملها و خطاها بهدست میآید. همان گونه که مشاهده میشود واکۀ /a/ و پس از آن واکۀ /e/ بیشترین تغییرات میان گویندگان را نشان میدهند، در حالی که واکۀ /u/ نسبت به سایر واکهها کمترین میزان تغییرات را میان گویندگان نشان میدهد. در شکل (2) نمودار جعبهای مربوط به تغییرات بین-گوینده و درون-گوینده را در فرکانس سازۀ اول واکۀ /a/ در دادههای آوایی موردبررسی مشاهده میکنید.
شکل 2- نمودار جعبهای مربوط به تغییرات بین-گوینده و درون-گوینده در فرکانس سازۀ اول واکۀ /a/ در دادههای آوایی (a مربوط به جلسۀ اول ضبط دادهها و bمربوط به جلسۀ دوم ضبط دادههاست). Figure 2- Boxplot of between- and within-speaker variability in F1 values of vowel /a/ in Persian speech corpus (a is related to the first session of recording while b shows the second recording session).
5-2. تغییرات درون-گوینده در فرکانس پایه و فرکانس سازههای واکهها در ادامه بهمنظور بررسی عامل گذر زمان، اثر تکرار در دادههای آوایی مدنظر اندازهگیری شد. همان طور که در بخش 3-1 اشاره شد دادههای آوایی در دو مرحلۀ جداگانه ضبط شده است. هدف از ضبط غیرهمزمان دادهها اندازهگیری تغییرات درون-گوینده در دادههای آوایی موردبررسی بود. همان گونه که پیشتر نیز ذکر شد پارامترهایی در تشخیص هویت گوینده مناسب هستند که بتوانند نسبت به عوامل تأثیرگذار در تغییرات درون-گوینده نیز مقاوم باشند. تغییرات درون-گوینده میتوانند از منابع مختلفی همچون شرایط جسمانی، شرایط روحی، سبک گفتار و یا گذر زمان حاصل شوند. در این پژوهش، عامل گذر زمان بهعنوان منبع تغییر-درونگوینده انتخاب شده است و به همین منظور دادهها در دو جلسۀ غیرهمزمان به فاصلۀ یک تا دو هفته ضبط شد. بهمنظور بررسی اثر عامل گذر زمان، تکرار (ضبط دومرحلهای دادهها) بهعنوان متغیر مستقل و پارامترهای آکوستیکی فرکانس پایه و فرکانس سازۀ اول تا چهارم بهعنوان متغیرهای وابسته وارد آزمون تحلیل واریانس شد. طبق نتایج بهدستآمده، رابطۀ معنیداری میان اثر تکرار و متغیرهای وابسته گزارش نشد (p≥0.05). این بدان معناست که پارامترهای موردبررسی در دادههای غیرهمزمان نسبت به عامل گذر زمان مقاوم بودهاند و رفتاری ثابت در دو هر مرحله از خود نشان دادهاند.
5-3. سنجش میزان فردویژگیِ فرکانس پایه و فرکانس سازههای واکهها بهمنظور اندازهگیری اینکه هر کدام از پارامترهای آکوستیکی مورد بررسی میتوانند تفاوتهای بین-گوینده را بهتر نشان دهند و کدامیک از پارامترها از این لحاظ عملکرد بهتری دارند از مدل رگرسیون لجستیک چند اسمی[35] استفاده کردیم. این آزمون را با استفاده از نرم افزار SPSS ویرایش 0/21 اجرا کردیم. گوینده بهعنوان متغیر پاسخ اسمی[36] در نظر گرفته شد و پارامترهای آکوستیکی مورد بررسی را نیز بهعنوان کوواریاتهای پیشبین[37] مدنظر قرار دادیم. بهمنظور بیان قدرت فردویژگیِ هر پارامتر براساس درصد، ابتدا نسبت درستنمایی مقدار خی دوی هر کدام از پارامترها را بر مجموع مقادیر خی دوها تقسیم و سپس نتیجۀ حاصل را بر 100 تقسیم کردیم. تحلیل فرکانس پایۀ واکههای مورد بررسی نشان داد که فرکانس پایۀ واکۀ /A/ با حدود 26 درصد و پس از آن فرکانس پایۀ واکۀ /e/ با حدود 20 درصد حاوی بیشترین اطلاعات فردویژه در مقایسه با فرکانس پایۀ سایر واکهها هستند. از میان فرکانس سازههای واکههای مختلف نیز فرکانس سازۀ اول واکۀ /a/ با حدود 13درصد و پس از آن فرکانس سازۀ سوم واکه /e / با حدود 8 درصد و فرکانس سازۀ سوم واکۀ /a/ با حدود 7 درصد بیشترین میزان اطلاعات فردویژه را در گویندگان نشان میدهند. همان گونه که نتایج نشان میدهد واکۀ /a/ در مقایسه با سایر واکهها و فرکانس سازۀ سوم در مقایسه با سایر سازهها تغییرات بین-گویندۀ بیشتری نشان میدهد. شکل (3) نمایش گرافیکی توانایی نسبی هر کدام از پارامترها را در نشان دادن تغییرات بین-گوینده نشان میدهد. با توجه به تعداد بالای پارامترهای تنها هشت پارامتر اول که بیشترین قدرت تمایزدهندگی را داشتهاند، انتخاب شده است.
شکل 3- نمودار رادار نشاندهندۀ توانایی نسبی پارامترهای فرکانس پایه و فرکانس سازههای واکهها در توضیح تغییرات بین-گوینده Figure 3- Radar chart showing relative strength of F0 and vowel formants in explaining between-speaker variability
5-4. همبستگی پارامترهای فرکانس پایه و فرکانس سازههای واکهها در گام آخر بهمنظور محاسبۀ بهترین ترکیب پارامترها و پاسخ به اینکه چه ترکیبی از پارامترها قادرند بهترین تغییرات بین-گوینده را نشان دهند آزمون تحلیل عامل[38] (تحلیل مؤلفههای اصلی) بر روی دادههای آوایی اجرا شد. پارامترهایی که کمترین همبستگی را میان همدیگر داشته باشند این قابلیت را دارند که با هم ترکیب شوند و بنابراین، میتوان از ترکیب آنها در تشخیص هویت گوینده بهره برد. نحوۀ عملکرد آزمون تحلیل عامل به این شکل است که ابتدا ماتریسی از ضرایب همبستگی ایجاد میکند. پس از آن از طریق چرخش عاملها حداکثر رابطه بین متغیرها و عاملها اندازهگیری میشود و در نهایت، بار عاملی[39] هر پارامتر محاسبه میشود. بار عاملی کوچکتر از 4/0 نشان میدهد که پارامتر مدنظر تأثیر اندکی در توضیح واریانس عامل دارد و از این رو، نمیتواند ذیل آن عامل طبقهبندی شود. جدول (2) نتایج آزمون تحلیل مؤلفههای اصلی را برای نشان دادن رابطه میان پارامترهای فرکانس پایه و فرکانس سازههای اول تا چهارم گزارش میدهد. خانههایی که در جدول (2) بهصورت سایهدار مشخص شده است بزرگترین ارقام مربوط به هر پارامتر (بزرگتر از حد آستانه 4/0) را نشان میدهند که نشان از همبستگی بالای میان پارامترهای هر عامل را دارد. نتایج نشان میدهد که پارامترهای مربوط به فرکانس سازۀ دوم تا چهارم، یعنی عامل اول، و پارامترهای مربوط به فرکانس پایه و فرکانس سازۀ اول، یعنی عامل دوم، مقولههای مستقلی را تشکیل میدهند و این نشان میدهد که این دو نوع پارامتر متعامد هستند و همبستگی کمی با هم دارند. از این رو، پارامترهای فرکانس پایه و فرکانس سازۀ اول اطلاعات مشابهی دربارۀگوینده رمزگذاری میکنند و ترکیب آنها با فرکانس سازههای دوم تا چهارم میتواند در تشخیص هویت گوینده مفید باشد.
در پژوهش حاضر به بررسی تأثیر پارامترهای مربوط به بخشهای منبع و صافی، یعنی فرکانس پایه و فرکانس سازه، در تشخیص هویت گویندگان فارسیزبان پرداختهایم. نتایج حاصل از تجزیه و تحلیل دادههای آوایی نشان داد که اثر گوینده بهجز در یک مورد در پارامترهای آکوستیکی فرکانس پایه و فرکانس سازههای اول، دوم، سوم و چهارم همۀ واکهها معنیدار بوده است. اثر گوینده تنها در فرکانس سازۀ دوم واکۀ /u/ معنیدار نبوده استp≥0.05) ). پارامتر آکوستیکی فرکانس پایه به ترتیب در واکههای /A/، /e/ و /a/ بهترین عملکرد را از خود نشان داده است. در رابطه با فرکانس سازههای واکهها، بهترین عملکرد به ترتیب در فرکانس سازۀ اول و سوم واکۀ /a/، فرکانس سازۀ سوم /e/ و نیز فرکانس سازۀ سوم /A/ مشاهده شده است. از میان واکههای سادۀ زبان فارسی نیز واکۀ /a/ و /e/ بیشترین اطلاعات فردویژه را نشان دادند، در حالی که واکههای /u/ و /i/ ضعیفترین عملکرد را در تمایز گویندگان داشته است. این نتیجه همراستا با یافتههای کان و همکاران (2011) است که نشان دادند واکۀ افتادۀ /a/ به همراه واکۀ میانی/Q/ و /E/ اطلاعات فردویژۀ بیشتری نسبت به سایر واکههای دهانی در زبان فرانسه منتقل میکنند، در حالی که واکههای /u/ و /i/ عملکرد خوبی در تمایز گویندگان نداشتند. این نتیجه نشان میدهد که هرچه واکه افتادهتر باشد، اطلاعات فردویژۀ آن به موازات نیز بیشتر است. در تولید واکههای افتاده بدنۀ زبان افتاده است و حداکثر فاصله را با سقف دهان دارد. طبق نتایج این پژوهش، فرکانس سازۀ اول واکۀ /a/ یکی از پارامترهای قدرتمند در تشخیص هویت گویندگان گزارش شد. فرکانس سازۀ اول با میزان باز بودن مجرای دهان در ارتباط است. این بدان معناست که هرچه مجرای دهان در تولید یک واکه بازتر باشد، فرکانس سازۀ اول آن نیز بیشتر است (مدرسی قوامی، 1392: 132). بنابراین، میتوان این احتمال را در نظر گرفت که گویندگان فارسیزبان در میزان بازکردن مجرای دهان رفتار متفاوتی داشتهاند که منجر به تغییرات مقادیر فرکانس سازۀ اول در واکۀ افتادۀ /a/ شده است. در این پژوهش برای گویندگان فارسیزبان واکۀ /i/ نسبت به سایر واکهها اطلاعات فردویژۀ اندکی نشان داد. این نتیجه برخلاف دستاورد رز (2007) است که در آن واکۀ /i/ در گویندگان مرد استرالیاییزبان سودمند گزارش شده بود. با مقایسۀ نتایج پژوهشهای پییشن میتوان ابراز داشت که ویژگیهای زبانویژه نیز میتوانند در مقادیر پارامترهای آکوستیکی تأثیرگذار باشند و همان طور که کینوشیتا (2001) نیز اذعان میدارد هر پارامتری که در یک زبان فردویژه باشد لزوماً در زبانهای دیگر فردویژه نیست. طبق نتایج، اگر فرکانس سازهها را برای همۀ واکهها در نظر بگیریم فرکانس سازههای سوم و چهارم نسبت به فرکانس سازههای اول و دوم قدرت تمایزدهندگی بیشتری داشتهاند. سازههای اول و دوم در تشخیص زبانی واکهها اندازهگیری میشوند و سرنخهای درکی مناسبی در تعیین کیفیت واکه هستند (Ladefoged, 2006)، در حالی که سازههای بالاتر نسبت به تغییرات فیزیولوژیکی شکل دستگاه گفتار و جایگاه اندامهای گفتار حساساند و این موجب میشود که تغییرات فردویژۀ بیشتری نسبت به سازههای پایینتر نشان بدهند (McDougall, 2004). قدرت تمایزدهندگی فرکانس سازههای بالاتر بهویژه فرکانس سازۀ سوم در پژوهشهای پیشین ( Gold et al., 2013 ; Asadi et.al, 2018 b) نیز تأیید شده است. به نظر میرسد ارتباط فرکانس سازۀ سوم با گردشدگی لبها (West, 1999) نیز میتواند یکی از دلایل قدرت تمایزدهندگی این سازه باشد. افزون بر آن در پارهای از پژوهشها نیز به ارتباط میان فرکانس سازۀ سوم با کیفیت صدا اشاره شده است ( Klatt and Klatt, 1990 ; Gold et al., 2013) که این عامل نیز خود میتواند سبب تغییر در سیگنالهای آکوستیکی گفتار شود. تحلیل پارامترهای آکوستیکی منتخب در دادههای آوایی موردبررسی نشان داد که گویندگان در دو جلسۀ جداگانه از ضبط دادهها ثابت عمل کردهاند. این یافته بیانگر این است که پارامترهای موردبررسی نسبت به عامل گذر زمان بهعنوان یک منبع تغییر درون-گوینده مقاوم بودهاند. براساس معیارهایی که برای تعیین پارامترهای مناسب برای تشخیص هویت گوینده ارائه شده است پارامترهایی سودمند تلقی میشوند که تا حد امکان بین گویندگان متفاوت باشند و در عین حال درون هر گویندۀ واحد نیز ثابت باشند ( Wolf, 1972 ; Nolan, 1983). به سخن دیگر، هرچه تغییرات بین-گوینده بالاتر و همزمان تغییرات درون-گوینده در یک پارامتر کمتر باشد، آن پارامتر میتواند سرنخ مناسبتری در تشخیص صدای گویندگان باشد. تحلیل ترکیبی پارامترهای موردبررسی با استفاده از تحلیل مؤلفههای اصلی بر روی دادههای آوایی نشانگر همبستگی بالا میان پارامترهای فرکانس پایه و فرکانس سازۀ اول بود. همبستگی بالا میان فرکانس پایه و فرکانس سازۀ اول نشان میدهد که علیرغم فرض استقلال بخشهای منبع و صافی دستگاه گفتار در نظریۀ منبع-صافی، به نظر میرسد باید به نوعی تعامل و رابطۀ متقابل میان این دو بخش و عوامل تأثیرگذار در این رابطه نگاهی دیگر داشت. برخی از پژوهشهایی که به رابطۀ متقابل میان بخشهای منبع و صافی اشاره کردهاند بر تأثیر فشار هوای درون دستگاه گفتار بر لرزش تارآوها اشاره کردهاند (Titze, 2008)و در پارهای دیگر از پژوهشها نشان داده شده است که حرکت حنجره به سمت پایین یا بالا بر مقادیر فرکانس سازۀ اول تأثیر میگذارد(Gordon and Ladefoged, 2001) . همبستگی میان فرکانس پایه و فرکانس سازۀ اول نشان میدهد که این دو پارامتر حاوی اطلاعات مشابهی دربارۀ گوینده هستند؛ یعنی فرکانس پایه و فرکانس سازۀ اول نشانگر اطلاعات کمابیش مشابهی دربارۀ گوینده هستند. همچنین، نتایج آزمون تحلیل عامل نشان داد که فرکانس سازههای دوم تا چهارم که همگی پارامترهای مربوط به صافی هستند نیز همبستگی بالایی دارند. بنابراین، در راستای کاهش ابعاد ویژگیها میتوان از میان پارامترهای دارای همبستگی بالا مشخصههای فردویژهتر را انتخاب کرد و از آنها در شناسایی صدای گویندگان بهویژه در سیستمهای خودکار تشخیص صدای گوینده استفاده کرد. طبق نتایج فرکانس پایه و فرکانس سازۀ سوم حاوی بیشترین اطلاعات فردویژه بودند. پس میتوان ابراز داشت که ترکیب این دو پارامتر که یکی مربوط به حنجره و دیگری مربوط به دستگاه گفتار است میتواند حاوی اطلاعات تکمیلی دربارۀ گوینده باشد واین ترکیب میتواند سرنخ مناسبی در تشخیص هویت گوینده باشد.
پژوهش حاضر به بررسی نقش پارامترهای مربوط به بخشهای منبع و صافی در تشخیص هویت گویندگان فارسیزبان پرداخته است. پنج پارامترآکوستیکی فرکانس پایه، فرکانس سازۀ اول، فرکانس سازۀ دوم، فرکانس سازۀ سوم و فرکانس سازۀ چهارم در شش واکۀ سادۀ زبان فارسی، یعنی //a, e, o, A, i, u، از یک پیکرۀ آوایی فارسی شامل صدای دوازده گویندۀ مرد استخراج شد و مورد تجزیه و تحلیل آکوستیکی قرار گرفت. نتایج نشان داد که پارامترهای موردبررسی توانایی نشان دادن تغییرات بین-گوینده را دارند اگرچه قدرت این پارامترها در تعیین تمایزات بین-گوینده با هم متفاوت بوده است. واکۀ /a/ و پس از آن واکۀ /e/ حاوی بیشترین اطلاعات فردویژه بودند. به عبارت دیگر، میتوان ابراز داشت که واکههای افتاده بیشترین اطللاعات فردویژه و واکههای افراشته شامل کمترین اطلاعات فردویژه بودند. از میان پارامترهای آکوستیکی، فرکانس سازۀ سوم نسبت به سایر پارامترها قدرت بیشتری در ایجاد تمایز میان گویندگان داشته است. همچنین، نتایج پژوهش حاکی از آن بود که فرکانس پایه با فرکانس سازۀ اول همبستگی بالایی دارد که این موضوع نشان میدهد این دو پارامتر اطلاعات مشابهی دربارۀ خصیصههای گوینده منتقل میکنند. این یافته نشان میدهد که علیرغم تأکید برخی از پژوهشها بر استقلال میان پارامترهای منبع و صافی به نظر میرسد که نوعی رابطۀ متقابل بین این دو بخش نیز وجود دارد. با این حال، فرکانس پایه با فرکانس سازههای دوم، سوم و چهارم همبستگی نداشته است که این موضوع نشان میدهد پارامترهای یادشده حاوی اطلاعات متفاوتی دربارۀ گویندهاند و ترکیبشان میتواند در تشخیص هویت گوینده سودمند باشد.
[1]. Forensic Phonetics [2]. forensic speaker identification [3]. between-speaker variability [4]. within-speaker variability [5]. E. Gold [6]. P. French [7]. International practices in forensic speaker comparison [8]. palatalization [9]. source-filter theory [10]. target [11]. likelihood ratio [12]. P. Rose [13]. cepstrum [14]. strength of evidence [15]. T. Alderman [16]. tense vowels [17]. lax vowels [18]. E. Winter [19]. J. Kahn [20]. I.R. Titze [21]. M. Gordon [22]. P. Ladefoged [23]. creaky voice [24]. breathy voice [25]. V. Hughes [26]. voice quality [27]. Mel-frequency cepstrum coefficient [28]. E. San Segundo [29]. Euclidean Distance [30]. G. Fant [31]. Acoustic Theory of Speech Production [32]. International Phonetic Association [33]. Eta squared [34]. MANOVA [35]. multinominal logistic regression [36]. nominal response variable [37]. predicting covariates [38]. factor analysis [39]. factor loadings | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مراجع | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
بیجنخان، محمود. (1392). نظام آوایی زبان فارسی. سمت.
علینژاد، بتول؛ حسینیبالام، فهیمه. (1392). مبانی آواشناسی آکوستیکی. انتشارات دانشگاه اصفهان.
مدرسی قوامی، گلناز. (1392). آواشناسی: بررسی علمی گفتار. سمت.
نوربخش، ماندانا. (1392). آواشناسی فیزیکی با استفاده از رایانه. نشر علم.
Alinezahd, A & Hosseinibalam, F. (2013). Fundamentals of Acoustic Phonetics. University of Isfahan. [In Persian].
Alderman, T. (2005). Forensic speaker identification: A likelihood ratio-based approach using vowel formants. LINCOM Studies in Phonetics.
Asadi, H., Hosseini-Kivanani, N & Nourbakhsh, M. (2018 a). Speaker-specificity in spectral moments of fricative /s/ in Persian. TABU Dag, The Netherlands.
Asadi, H., Nourbakhsh, M, Sasani, F & Dellwo, V. (2018 b). Examining long-term formant frequency as a forensic cue for speaker identification: An experiment on Persian. In M. Nourbakhsh, H. Asadi, & M. Asiaee (Eds.), Proceedings of the First International Conference on Laboratory Phonetics and Phonology (pp. 21-28). Neveesh Parsi Publications.
Bijankhan, M. (2013). Phonetic system of the Persian language. Samt. [In Persian]
Boersma, P. & Weenink, D. (2013) Praat: Doing phonetics by computer (version 5.2.34). http://www.praat.org, Accessed 13 July 2013.
Fant, G. (1960). Acoustic theory of speech production. Mouton.
Gold, E., French, J.P. (2011). International practices in forensic speaker comparison. The International Journal of Speech, Language and the Law, 18(2), 293-307.
Gold, E., French, J.P & Harrison, P. (2013). Examining long-term formant distributions as a discriminant in forensic speaker comparisons under a likelihood ratio framework. In Proceedings of Meetings on Acoustics, Montreal, Canada, (pp. 1-8).
Goldstein, U. (1976). Speaker-identifying features based on formant tracks. The Journal of the Acoustical Society of America, 59(3), 176-182.
Gordon, M. & P. Ladefoged. (2001). Phonation types: A cross-linguistic overview. Journal of Phonetics, 29(4), 383–406
Hughes, V., Cardoso, A., Foulkes, P., French, P., Gully, A. & Harrison, P. (2019). The contribution of source and filter to speaker characterization. The 28th Annual Conference of the International Association for Forensic Phonetics and Acoustics (IAFPA). Istanbul, Turkey.
Hughes, V., Harrison, P., Foulkes, P., French, P., Kavanagh, C., Segundo, E.S. (2017). Mapping across feature spaces in forensic voice comparison: The contribution of auditory-based voice quality to (semi-) automatic system testing. INTERSPEECH, (3892-3896).
Jessen, M. & Becker, T. (2010). Long-term formant distribution as a forensic phonetic feature. Conference of the Acoustical Society of America, Cancun, Mexico.
Kahn, J., Audibert, J.F.B., & Rossato, S. (2011). Inter and intra-speaker variability in French: An analysis of oral vowels and its implication for automatic speaker verification. International Congress of Phonetic Sciences (ICPhS), 17(pp. 1002-1005).
Kavanagh, C. M. (2012). New consonantal acoustic parameters for forensic speaker comparison [Ph.D. dissertation]. University of York.
Kinoshita, K. (2001). Testing realistic forensic speaker identification in Japanese: A likelihood ratio based approach using formants [Ph.D. dissertation]. Australian National University.
Kinoshita, Y. (2002). Use of likelihood ratio and Bayesian approach in forensic speaker identification. In Proceedings of the 9th Australian International Conference on Speech Science and Technology. Melbourne, Australia, (pp. 297-302).
Klatt, D. H. & Klatt, L. C. (1990). Analysis, synthesis, and perception of voice quality variations among female and male talkers. Journal of the Acoustic Society of America, 87(2), 820-857.
Ladefoged, P. (2006). A course in phonetics. Wadsworth Cengage Learning.
McDougall, K. (2004). Speaker-specific formant dynamics: an experiment on Australian English /aɪ/. International Journal of Speech, Language and the Law, 11(1), 103-130.
McDougall, K. (2006). Dynamic features of speech and the characterization of speakers: Toward a new approach using formant frequencies. International Journal of Speech, Language and the Law, 13(1), 89-126.
Modarresi Ghavami, G. (2011). Phonetics: The scientific study of speech. Samt. [In Persian].
Nolan, F & Grigoras, C. (2005). A case for formant analysis in forensic speaker identification. International Journal of Speech Language and the Law, 12(2), 143-173.
Nolan, F. (1983). The phonetic bases of speaker recognition. Cambridge University Press.
Nolan, F., McDougall, K., de Jong, G., & Hudson, T. (2009). The DyViS database: Style controlled recordings of 100 homogeneous speakers for forensic phonetic research. International Journal of Speech Language and the Law, 16(1), 31-57.
Nourbakhsh, M. (2013). Acoustic phonetics using computer. Nashre Elm. [In Persian].
Rose, P. (2002). Forensic speaker identification. Taylor & Francis.
Rose, P. (2007). Forensic speaker discrimination with Australian English vowel acoustics. In Proceedings of the 16th International Congress of Phonetic Sciences. Saarbrücken, Germany, (pp. 1817-1820).
Rose, P. & E. Winter (2010). Traditional forensic voice comparison with female formants: Gaussian mixture model and multivariate likelihood ratio analyses. In Proceedings of the 13th Australian International Conference on Speech, Science and Technology, pp. 42–45.
Rose, P., Osanai, T., & Kinoshita, Y. (2003). Strength of forensic speaker identification evidence: multispeaker formant- and cepstrum-based segmental discrimination with a Bayesian likelihood ratio as threshold. Forensic Linguistics, 10, 179-202.
Sambur, S. (1975). Selection of acoustic features for speaker identification. IEEE Transactions on Acoustic, Speech and Signal Processing, 23(2), 176-182.
San Segundo, E., Tsanas, A., Gómez-Vilda, P. (2017). Euclidean distances as measures of speaker similarity including identical twin pairs: A forensic investigation using source and filter voice characteristics. Forensic Science International, 270, 25-38.
Strange, W. (1989). Dynamic specification of coarticulated vowels spoken in sentence context. Journal of the Acoustical Society of America, 85(5), 2135- 2153.
Titze, I. R. (2008). Nonlinear source-filter coupling in phonation: theory. Journal of the Acoustical Society of America, 123(5), 2733–2749.
West, P. (1999). The extent of coarticulation of English liquids: an acoustic and articulatory study. Proceedings of the 14th International Congress of Phonetic Sciences. San Francisco, US, (1901-1904).
Wolf, J. (1972). Efficient acoustic parameters for speaker recognition. The Journal of the Acoustical Society of America, 51(6B), 2044-2056.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آمار تعداد مشاهده مقاله: 602 تعداد دریافت فایل اصل مقاله: 285 |