عنوان کامل پایان نامه :تشخیص گوینده در محیط شامل  چند گوینده با بهره گیری از ماشین بردار پشتیبان

تکه هایی از این پایان نامه :

2-1-مقدمه

شما می توانید مطالب مشابه این مطلب را با جستجو در همین سایت بخوانید

سیگنال گفتار از دو ناحیه سکوت و غیرسکوت تشکیل می گردد. آشکارسازی گفتار در حضور وقایع آکوستیکی غیرگفتاری و نویزهای زمینه، تشخیص گفتار از غیر گفتار نامیده می گردد و با نام های[1]VAD، [2]PDT و یا EDT[3] بکار می رود. این اقدام یکی از اجزاء مهم در بعضی از کاربردهای پردازش گفتار نظیر تشخیص گفتار[4]، فشرده سازی اطلاعات گفتار[5]، تخمین و حذف نویزها[6]، سیستم بهسازی گفتار[7] و … می باشد. برای بازشناسی گفتار (بازشناسی گوینده[8]) ،لازم می باشد که گفتار آغشته به نویزهای محیطی مختلف را مورد پردازش قراردهیم. برای این مقصود بایستی نقاط ابتدایی و انتهایی گفتار مشخص گردد. این کار سبب می گردد تا فرآیند بازشناسی گفتار تنها در آن بخش ها اعمال گردد.[18] عدم بهره گیری از VAD کار تشخیص کلمات را پیچیده تر نموده اندازه خطای بازشناسی گفتار را افزایش می دهد. در سیستم مخابرات و یا در سیستم فشرده سازی اطلاعات گفتار، میتوان با اختصاص دادن بیت های کمتر به نواحی سکوت به مقدار قابل توجهی در پهنای باند و یا فضای اختصاص داده شده صرفه جویی نمود، زیرا نظاره شده که ضریب فعالیت گفتار ([9]VAF ) یک گوینده بطور معمول بین 44-36% می باشد. این به آن معناست که 64-56% اطلاعات گفتار، شامل مکث ها و سکوت می باشد.

نویزهای موجود در گفتار (نویزهای زمینه) به دو گروه نویزهای ضربه ای و نویزهای غیرضربه ای یا تداوم دار تقسیم می شوند. نویزهای ضربه ای (مانند: صدای پف دهان، ته سرفه برای صاف کردن حنجره، کلیک و ضربه میکروفن و …) توسط طول دوره آن نسبت به سیگنال گفتار قابل تشخیص می­باشند. نویزهای تداوم دار (مانند: همهمه، صدای موتور ماشین، صدای فن، صدای کولر و …) معمولا ماقبل و بعد از سیگنال گفتار وجود دارند. در VAD ها بیشتر این نوع نویزها مورد مطالعه قرار می گیرند.

 متن فوق بخش هایی از این پایان نامه بود

می توانید به لینک پایین صفحه مراجعه نمایید: