شناسایی گوینده یکی از مباحث مطرح در بحث پردازش گفتار می باشد. شناسایی گوینده عبارت است از فرآیندی که طی آن با استفاده از سیگنال صحبت تشخیص دهیم چه کسی چه موقع واقعا صحبت می کند. هدف طراحی سیستمی است که بتواند تغییر در گوینده را مشخص نماید و گفتار هرگوینده را برای سیستم برچسب گذاری نماید. یعنی مشخص نماید که کدام گوینده، در چه بازه هایی صحبت کرده است. امروزه این عمل با یک عنوان جدید که هر دو فرآیند جداسازی و برچسب گذاری را در بر می گیرد بنام Speaker Diarization مشهور گشته است. هدف از بخش بندی تقسیم سیگنال گفتاری به بخش هایی است که تنها شامل گفتار یک گوینده هستند و هدف از خوشه بندی نیز شناسایی بخش های گفتاری مربوط به یک گوینده و اختصاص یک برچسب واحد به آنهاست.هدف از انجام این پایان نامه طراحی و پیاده سازی یک سیستم بخش بندی و خوشه بندی گوینده با استفاده از الگوریتم های جدید و همچنین بهبود نتایج این الگوریتم ها برای این موضوع می باشد. این سیستم باید بطور صحیح نقاط تغییر گوینده را بدون دانستن اطلاعات قبلی از گوینده تشخیص داده و در نهایت تمام قسمت های صوتی مربوط به یک گوینده را در یک خوشه قرار می دهد.سیستم تشخیص گوینده، از سه مرحله اصلی تشکیل شده است. درمرحله اول قسمت- های غیر گفتاری، از بخش های گفتاری فایل صوتی حذف می شوند، تا دقت و سرعت عملیات سیستم در مراحل بعدی افزایش پیدا کند. سپس فایل گفتاری به بخش هایی همگن که در آن فقط گفتار یک گوینده وجود دارد، تقسیم می شود. در مرحله سوم با استفاده از خوشه بندی مناسب، بخش های گفتاری مرحله قبل، که متعلق به یک گوینده هستند، در یک خوشه جای می گیرند. جهت پیاده سازی سیستم از چهار نوع بردار ویژگی MFCC root-MFCC, TDC, و root-TDC و سه نوع پایگاه داده استفاده شده است و دقت مرحله بخش بندی ۸۰% بوده است و دقت مرحله خوشه بندی نیز ۵۹% با استفاده از ماشین بردار پشتیبان بدست آمده است.
کلمات کلیدی:بخش بندی آماری گوینده_بخش بندی گویندگان_تشخیص بخش های صوتی_خوشه بندی گویندگان
فهرست مطالب
فصل اول: معرفی سیستم های تشخیص گوینده
۱-۱ –مقدمه..۲
۱-۲-مراحل مختلف کاری سیستم های تشخیص گوینده.۶
1-2-1- قطعه بند آکوستیکی.۷
1-2-2-تشخیص گفتار از غیر گفتار۸
1-2-3-تشخیص جنسیت گوینده۹
1-2-4-تشخیص تغییر گوینده..۹
۱-۳-روش های بخش بندی و خوشه بندی گویندگان..۱۰
1-3-1-روش¬های بر اساس فاصله.۱۰
1-3-2-روش¬های بر اساس مدل.۱۱
1-3-3-روش¬های هیبرید یا ترکیبی.۱۱
۱-۴-خوشه بندی نمودن.۱۱
۱-۵- خلاصه..۱۲
فصل دوم: تشخیص گفتار از نواحی غیرگفتاری
۲-۱-مقدمه.۱۴
۲-۲-ساختار قسمت تشخیص گفتار از غیر گفتار..۱۶
۲-۲-۱-پیش پردازش۱۶
۲-۲-۲-استخراج ویژگی۱۷
۲-۲-۲-۱-انرژی.۱۸
۲-۲-۲-۲-نرخ عبور از صفر..۱۹
۲-۲-۲-۳- استخراج ویژگی به کمک ضرایب کپسترال فرکانسی در مقیاس مل۱۹
۲-۲-۲-۴- ضرایب LPC.23
۲-۲-۲-۵- آنتروپی۲۴
۲-۲-۲-۶- اندازه متناوب بودن.۲۶
۲-۲-۲-۷- اطلاعات زیر باند..۲۸
۲-۲-۲-۸- سایر پارامترها۲۸
۲-۲-۳- محاسبه آستانه..۲۹
۲-۲-۴- تصمیمات VAD.29
۲-۲-۴-۱- تصمیم گیری مبتنی بر مدل مخفی مارکوف.۳۰
۲-۲-۴-۲- تصمیم گیری مبتنی بر شبکه های عصبی۳۱
۲-۲-۵- تصحیح نتایج VAD33
۲-۳- بلوک دیاگرام چند VAD استاندارد..۳۳
۲-۳-۱-استاندارد ETSI AMR.33
۲-۳-۲- الگوریتم GSM34
۲-۴-خلاصه..۳۵
فصل سوم: آشکارسازی تغییر گوینده
۳-۱-مقدمه..۳۷
۳-۲-بخش بندی گوینده..۳۸
۳-۲-۱-بخش بندی بر اساس فاصله۳۸
۳-۲-۲-بخش بندی بر اساس مدل۴۰
۳-۲-۳-بخش بندی هیبرید۴۰
۳-۳-مقایسه روش¬های بخش بندی..۴۰
۳-۴-روش¬های متداول آشکارسازی گوینده..۴۱
۳-۴-۱- معیار اطلاعات بیزین( (BIC..41
۳-۴-۱-۲- بخش بندی با استفاده از مدل آماری گوینده..۴۲
۳-۴-۲- ترکیب آماره T2 و BIC..45
۳-۴-۲-۱- سرعت و بهره بیشتر در بخش بندی T2-BIC..47
۳-۴-۳- فاصله نرخ درستنمایی عمومی((GLR..49
۳-۴-۴-فاصله KL249
۳-۴-۵- آشکارسازی تغییر گوینده با استفاده از DSD..51
۳-۴-۶- BIC متقاطع(Cross-BIC (XBIC)).52
۳-۴-۷-درستنمایی مدل مخلوط گوسی..(GMM-L) 53
۳-۵-خلاصه..۵۳
فصل چهارم: روش های دسته بندی
۴-۱-مقدمه.۵۵
۴-۲-اجزا سیستم خوشه بندی۵۶
۴-۳-روش های خوشه بندی.۵۷
۴-۳-۱-روش های خوشه بندی سلسله مراتبی.۵۸
۴-۳-۱-۱-تکنیک های خوشه بندی بالارونده۵۹
۴-۳-۱-۲-تکنیک های خوشه بندی پایین رونده.۶۰
۴-۳-۲-روش های خوشه بندی افرازی.۶۱
۴-۴- روش های خوشه بندی متداول در سیستم های خوشه بندی گوینده..۶۱
۴-۵- دسته بندی کننده ماشین های بردار پشتیبان۶۳
۴-۵-۱- دسته بندی کننده ماشین بردار پشتیبان خطی.۶۳
۴-۵-۱-۱- دسته بندی کلاس های جداپذیر..۶۳
۴-۵-۱-۲- دسته بندی کلاس های جدا ناپذیر..۶۸
۴-۵-۱-۳- دسته بندی داده های چند کلاسه با ماشین های بردار پشتیبان..۷۱
۴-۵-۲- ماشین های بردار پشتیبان غیر خطی۷۲
۴-۶- خلاصه..۷۴
فصل پنجم: پیاده سازی و مشاهدات سیستم ترکیبی پیشنهادی
۵-۱-مقدمه..۷۶
۵-۲-ساختار سیستم پیاده سازی شده.۷۷
۵-۳-پایگاه داده..۸۰
۵-۴-استخراج ویژگی۸۲
۵-۵-معیار ارزیابی سیستم های تشخیص گوینده.۸۴
۵-۶-نتایج آزمایشات..۸۸
۵-۶-۱- اثر اعمال VAD بر روی سیگنال گفتار۸۸
۵-۶-۲- اثر تغییر طول پنجره VAD بر روی دقت سیستم.۸۹
۵-۶-۳- اثر تغییر طول پنجره BIC بر روی نتایج بخش بندی..۸۹
۵-۶-۴-دقت.حاصل.از.بخش.بندی.بر.دو.نوع.از.دادگان با استفاده از MFCC93
۵-۶-۵-اثرتغییر.بردار.ویژگی.بر.روی.دقت.مرحله.بخش بندی.۹۳
۵-۶-۶-مقایسه.نتایج.مرحله.بخش¬بندی.با.بکارگیری.بردارهای.ویژگی متفاوت..۹۵
۵-۶-۷-اثرجنسیت،گویندگان.برتشخیص.درست.مرزهای.بخش بندی۹۶
۵-۶-۸-دقت مرحله خوشه¬بندی بکارگیری ماشین بردار پشتیبان(SVM) با بردار ویژگی MFCC..96
۵-۶-۹-دقت مرحله خوشه بندی ماشین بردار پشتیبان با بکارگیری بردار ویژگی root-MFCC 97
۵-۶-۱۰- اثر تغییر نوع تابع کرنل ماشین بردار پشتیبان بر روی دقت مرحله خوشه-بندی۹۸
۵-۷-خلاصه.۹۸
فصل ششم: جمع بندی و پیشنهادات
۶-۱-جمع بندی و خلاصه نتایج..۱۰۰
۶-۲-پیشنهادات..۱۰۱
منابع.۱۰۳
قيمت فايل ورد پروژه : 12000 تومان
دانلود فایل ورد بلافاصله بعد از پرداخت هزینه
بلافاصله پس از پرداخت ، لینک دانلود پایان نامه به شما نشان داده می شود
پشتیبانی سایت : 09010633413
فایل مورد نظر خودتان را پیدا نکردید ؟ نگران نباشید . این صفحه را نبندید ! سایت ما حاوی حجم عظیمی از پایان نامه های دانشگاهی است. مطالب مشابه را هم ببینید. برای یافتن فایل مورد نظر کافیست از قسمت جستجو استفاده کنید. یا از منوی بالای سایت رشته مورد نظر خود را انتخاب کنید و همه فایل های رشته خودتان را ببینید