
تعداد نشریات | 43 |
تعداد شمارهها | 1,706 |
تعداد مقالات | 13,973 |
تعداد مشاهده مقاله | 33,636,204 |
تعداد دریافت فایل اصل مقاله | 13,344,987 |
بهسازی گفتار تککاناله با استفاده از ترکیب مدل قطعی نمایی و مدل تصادفی t Location-Scale | ||
هوش محاسباتی در مهندسی برق | ||
مقاله 6، دوره 11، شماره 1، فروردین 1399، صفحه 63-80 اصل مقاله (2.37 M) | ||
شناسه دیجیتال (DOI): 10.22108/isee.2019.114459.1171 | ||
نویسندگان | ||
زهرا امینی1؛ ندا فرجی* 2 | ||
1دانشجوی کارشناسی ارشد، گروه مهندسی برق - دانشگاه بینالمللی امام خمینی (ره) - قزوین - ایران | ||
2استادیار، گروه مهندسی برق - دانشگاه بینالمللی امام خمینی (ره) - قزوین - ایران | ||
چکیده | ||
بیشتر روشهای بهسازی گفتار، تخمینگری کاملاً متکی به مدل تصادفی گفتار ارائه میدهند. در این مقاله، یک تخمینگر کمترین میانگین مربعات خطا تحت یک مدل قطعی - تصادفی پیشنهاد میشود که در آن از یک توزیع دنباله - سنگین به نام(tls) t location-scale برای مدلکردن ضرایب تبدیل فوریه گسسته گفتار تمیز و از مدل نمایی و سینوسی بهعنوان مدل قطعی استفاده شده است. در مدل نمایی بهکاررفته، تخمین فرکانس و ضریب میرایی به روش ماتریس پِنسِل انجام میشود. همچنین، در پژوهشهای قبلی تعداد مؤلفههای نمایی در ساخت مدل قطعی برای بهسازی گفتار، یک در نظر گرفته شده است که در این مقاله، مدل نمایی به تعداد دلخواه مؤلفههای نمایی بسط داده میشود. پیادهسازیها در سه حالت ترکیبی نمایی - گاوسی (روش پیشنهادی نخست)، نمایی - tls (روش پیشنهادی دوم) و سینوسی - گاوسی انجام شدهاند و با روش موجود نمایی – گاوسی (تنها با یک مؤلفة نمایی) و تخمینگرهای تصادفی وینر و مبتنی بر tls مقایسه میشوند. نتایج پیادهسازی در حضور شش نویز از مجموعه دادة نویز noisex-92 نشان میدهند که دو روش پیشنهادی در قیاس با روشهای مبتنی بر مدل تصادفی صرف، به بهبود معیار نسبت سیگنال به نویز قطعهای منجر شدهاند و در ارزیابی ادراکی کیفیت گفتار عملکرد نسبتاً برابری دارند. | ||
کلیدواژهها | ||
بهسازی گفتار؛ تابع چگالی احتمال t Location-Scale؛ فیلتر وینر؛ کمترین میانگین مربعات خطا؛ مدل قطعی نمایی؛ مدل سینوسی | ||
اصل مقاله | ||
مقدمه بهسازی گفتار در نویز جمعشونده مبتنی بر روشهای تصادفی و قطعی - تصادفی
بهسازی گفتار با فرض مدل تصادفی برای گفتار بهسازی با فرض مدل تصادفی گاوسی بهسازی با فرض مدل تصادفی بهسازی گفتار به روش قطعی - تصادفی تابع چگالی احتمال ضرایب تبدیل فوریه زمان کوتاه سیگنال نویزی در مدلهای تصادفی و قطعی تخمینگر کمترین میانگین مربعات خطا تخمین با استفاده از مدل قطعی زمانی که است، خواهد بود. احتمالهای شرطی و طبق قضیه بیز بهصورت زیر محاسبه میشوند: جدول (1): مقادیر احتمالهای پیشین طبق مرجع ]13[ در این معادلات، احتمالهای و بهترتیب نشاندهندة احتمالهای پیشین در زمانی است که بین فرکانسی گفتار معین، بین فرکانسی گفتار تصادفی و بین فرکانسی گفتار غایباند (سکوت). برای محاسبة این احتمالها فرض میشود برای یک گفتار انگلیسی متوسط دورة گفتار مصوت 78% از زمان است، فرکانس اساسی گفتار نیز بین ۵۰ و ۵۰۰ هرتز است و برای بیشتر صداهای مصوت گفتار انرژی گفتار عمدتاً تا حدود خواهد بود. حال احتمالها مطابق رابطههای (27)، (28) و (29) محاسبه میشوند: طول فریم است. برای فرکانس نمونهبرداری ۱۶ کیلوهرتز، طول فریم ۴۸۰ نمونه و فرکانس اساسی ۳۰۰ هرتز مقادیر احتمال پیشین طبق جدول (1) به دست میآیند ]13[. در روابط (۲۵) و (۲۶) احتمال مطابق با رابطة (۳۰) است: شکل (3): بلوک دیاگرام بهسازی گفتار با روش قطعی - تصادفی
همچنین، برای توصیف در رابطة (۱۵)، مدل نمایی تعمیم داده شده در بخش 3 به کار رفته است؛ با این تفاوت که از روش ماتریس پِنسِل برای تخمین فرکانس و ضریب میرایی استفاده شده و نیز برابر 40 در نظر گرفته شده است. با این فرضیات، سیگنال گفتار در مدل قطعی مطابق رابطة (32) تخمین زده میشود: مقایسة مدلهای قطعی مختلف در بهسازی گفتار قطعی - تصادفی مقایسة روشهای بهسازی گفتار با مدلهای ترکیبی قطعی - تصادفی و مدلهای تصادفی
مقایسة روشهای بهسازی معرفیشده تحت نویز سفید
جدول (2): مقایسة عملکرد میانگین الگوریتمهای sto-g، sto-tls، SD-exp-g و SD-exp-tls در حضور شش نویز مختلف از دادگان Noisex-92 و پنج مقدار سیگنال به نویز تفاوت در معیار PESQ بهطور متوسط حدود 01/0 تا 03/0 بوده است که از این لحاظ، روشها تفاوت معناداری ندارند. برای بررسی علمیتر، تست فریدمن روی رتبة چهار روش بهسازی در 30 شرایط مختلف آزمایش، یعنی شش سیگنال نویز مختلف و پنج مقدار سیگنال به نویز اجرا شده است. رتبة متوسط روشها در هر دو معیار segSNR و PESQ در جدول (3) نشان داده شده است. در تست فریدمن که با استفاده از تابع p=friedman(.) در نرمافزار MATLAB روی رتبة روشها در نتایج سیگنال به نویز قطعهای اجرا شده، مقدار p برابر با ۱۷-10 ×۷/۱ نشاندهندة تفاوت معنادار چهار روش به لحاظ آماری است. همچنین، برای تأیید مؤثربودن ترکیب مدل نمایی با مدل تصادفی تست فریدمن روی دوبهدوی روشها انجام شده و مقدار p برابر با ۸-10 ×۳/۴ در مقایسة دو روش SD-exp-g و sto-g و نیز ۸-10 ×۳/۴ در مقایسة دو روش SD-exp-tls و sto-tls حاصل شده است. مقدار p کمتر از 01/0 نشاندهندة تفاوت معنادار روشهای بهسازی ارزیابیشده و مؤثربودن ترکیب مدل نمایی تعمیمیافتة پیشنهادی در هر دو مدل تصادفی است. همچنین، انجام تست فریدمن روی دو مدل SD-exp-tls و SD-exp-g و حصول مقدار p برابر با ۷-10 ×۹/۸، کارایی بالاتر مدل تصادفی t location-scale را در مقابل مدل گاوسی در ترکیب با مدل نمایی پیشنهادی نشان میدهد. انجام تست فریدمن در معیار PESQ و مقدار p بهدستآمده، تفاوت آماری معناداری را بین دوبهدوی روشها به روال بالا نشان نداد؛ به این ترتیب، برابری نسبی میانگین رتبههای عملکرد دو روش sto-tls و SD-exp-tls (روش پیشنهادی دوم) و نیز sto-g و SD-exp-g (روش پیشنهادی نخست) طبق جدول (3)، کارایینداشتن مدل ترکیبی قطعی - نمایی را در قیاس با مدل تصادفی صرف در بهبود معیار PESQ نشان میدهد. | ||
مراجع | ||
[1] Y. Ephraim, D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator”, IEEE Trans. on Acoust., Speech, Signal Process, Vol. 32, No. 6, pp. 1109–1121, Dec 1984. [2] S. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. Acoust., Speech, Signal Process, Vol. 27, No. 2, pp. 113–120, Apr 1979. [3] K. Funaki, “Speech enhancement based on iterative Wiener filter using complex speech analysis”, 16th European Signal Processing Conference, pp. 1–5, 25-29 Aug 2008. [4] Y. Ephraim, D. Malah, “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator”, IEEE Trans. Acoustic., Speech, Signal Process., Vol. 33, No. 2, pp. 443–445, May 1985. [5] R.J. Macaulay, M.L. Malpass, “Speech enhancement using a soft decision noise suppression filter”, IEEE Trans. Acoustic., Speech, Signal Process, Vol. 28, No. 2, pp. 137–145, Apr 1980. [6] T. Lotter, P. Vary, “Speech enhancement by MAP spectral amplitude estimation using a super-Gaussian speech model”, EURASIP Journal on Advances in Signal Processing, pp. 1110–1126, Dec 2005. [7] B. Chen, P.C. Loizou, “A Laplacian-based MMSE estimator for speech enhancement”, Speech Communication., Vol. 49, No. 2, pp. 134–143, Feb 2007. [8] R. Martin, “Speech enhancement based on minimum mean-square error estimation and super Gaussian priors”, IEEE Trans. Speech, Audio Process., Vol. 13, No. 5, pp. 845–856, Aug 2005. [9] J.S. Erkelens, R.C. Hendriks, R. Heusdens, et al. , ”Minimum mean-square error estimation of discrete Fourier coefficients with generalized gamma priors”, IEEE Trans. Audio, Speech, Lang. Process., Vol. 15, No. 6, pp. 1741– 1752, July 2007. [10] N. Faraji, A. Kohansal, “MMSE and maximum a posteriori estimators for speech enhancement in additive noise assuming a t-location-scale clean speech prior”, IET Signal Processing, Vol. 12, No. 4, pp. 532-543, June 2018. [11] R. McAulay and M. Malpass, “Speech enhancement using a soft-decision noise suppression filter”, IEEE Trans. Acoust., Speech, Signal Process., Vol. 28, No. 2, pp. 137–145, Apr. 1980. [12] J. Hardwick, C. Yoo, and J. Lim, “Speech enhancement using the dual excitation speech model”, in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Vol. 2, pp. 367–370, 27-30 Apr 1993. [13] R. Hendriks, R. Heusdens, J. Jensen, “An MMSE estimator for speech enhancement under a combined stochastic-deterministic speech model”, IEEE Trans. Audio Speech Lang. Process., Vol. 15, No. 2, pp. 406–415, Jan 2007. [14] J. Laroche, Y. Stylianou, and E. Moulines, “HNS: Speech modification based on a harmonic+noise model,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Vol. 2, pp. 550–553, 27-30 Apr 1993. [15] M. C. McCallum and B. J. Guillemin, “Accounting for deterministic noise components in a MMSE STSA speech enhancement framework,” in Proc. 12th Int. Symp. Commun. Inf. Technol., [16] M. McCallum, B. Guillemin, “Stochastic-deterministic MMSE STFT speech enhancement with general a priori information”, IEEE Trans. Audio, Speech, Lang. Process., Vol. 21, No. 7, [17] Y. Du, J. Du, L.R. Dai, et al., “‘A regression approach to speech enhancement based on deep neural networks”, IEEE/ACM Trans. Audio Speech, Lang. Process., Vol. 23, No. 1, pp. 7–19, Jan 2015. [18] J.G. Proakis, D.G. Manolakis, Digital Signal Processing: Principles, Algorithms and Applications, Prentice Hall, 3rd edition, 1995. [19] K. Duda, T. P. Zielinski, “Efficiency of the frequency and damping estimation of a real value sinusoid,”, IEEE Instrumentation & Measurement Magazine, Vol. 16, No. 2, pp. 48–58, Apr 2013. [20] T.K. Sarkar, O. Pereira, “Using the Matrix Pencil Method to Estimate the Parameters of a Sum of Complex Exponentials”, IEEE Antennas and Propagation Magazine, Vol. 37, No. 1, pp. 48-55, Feb 1995. [21] T.K. Moon, W.C. Stirling, Mathematical Methods and Algorithms for Signal Processing, Pearson, PAP/CDR edition, 1999. [22] W.M. Fisher, G.R. Doddington, K.M. Goudie-Marshall, “The DARPA speech recognition research database: specifications and status”, in Proceedings of DARPA workshop on speech recognition, [23] A. Varga, and H.J.M. Steeneken, “Assessment for automatic speech recognition II: NOISEX-92: a database and an experiment to study the effect of additive noise on speech recognition systems”, Speech Communication, Vol. 12, No. 3, pp. 247-251, 1993. | ||
آمار تعداد مشاهده مقاله: 524 تعداد دریافت فایل اصل مقاله: 346 |