بازشناسی گفتار و گوینده
Speech and Speaker Recognition
مقطع: تحصیلات تکمیلی | گرایش: هوش مصنوعی |
نوع درس: نظری | تعداد واحد: ۳ |
پیشنیاز: – | همنیاز: – |
هدف کلی
هدف از این درس، آشنا نمودن دانشجویان با اصول بازشناسی گفتار و گوینده است. درس بعد از معرفی مقدمات، با روشهای مبتنی بر مدل مخفی مارکوف شروع میشود. سپس مدلهای ترکیبی HMM-DNN به همراه توضیح مسائل مختلف آن آورده میشود. در ادامه بعد از معرفی روش CTC، مدلهای انتها به انتها برای بازشناسی گفتار شرح داده میشوند. سپس روشهای مرسوم و جدید بازشناسی گوینده و نکات مهم این موضوع توضیح داده خواهند شد و در انتها نیز روشهای پیش آموزش شبکههای عصبی و چندین مدل از آنها برای بازشناسی گفتار و گوینده آموزش داده میشوند.
سرفصلها
- مقدمه: تعریف بازشناسی گفتار خودکار و گوینده، تاریخچه، آشنایی با پردازش سیگنال دیجیتال، استخراج ویژگی، واجشناسی، تولید و ادراک گفتار
- مدل مخفی مارکوف (HMM) پیوسته و گسسته، مدل مخلوط گاوسی (GMM)، شبکههای عصبی، مدلهای کدگذار و کدکشا، مدل مبدل و انواع استراتژیهای آموزش
- مدلهای زبانی N-gram و مبتنی بر شبکههای عصبی در بازشناسی گفتار، بازشناسی گفتار بر مبنای HMM، مدلسازی مستقل و وابسته به بافت، بازشناسی کلمات مجزا و متصل
- بازشناسی گفتار با واژگان بزرگ، ترکیب مدلزبانی با HMM، روشهای کاهش پیچیدگی محاسباتی مثل هرس
- مدلهای آکوستیک بر مبنای DNN و بازشناسی گفتار ترکیبی HMM-DNN
- کدگشایی وابسته به بافت، جستجوی شعاعی و تطبیق به گوینده، مبدلهای حالت محدود وزندار (WFST)
- دستهبندی زمانی پیوندگرا (CTC) و بازشناسی گفتار انتها به انتها (E2E)، بررسی مدلهای Deep Speech، LAS، RNN-T و Conformer
- مدلهای زبانی و شیوه استفاده از آنها در مدلهای انتها به انتها
- بازشناسی گوینده و دستهبندی آن، معیارهای ارزیابی، مدلهای مرسوم HMM و GMM-UBM، ابر بردار میانگین و SVM، تحلیل عامل مشترک (JFA) و بردار هویت (i-vector) و دستهبند PLDA
- روشهای استخراج بردار تعبیه گوینده با استفاده از شبکههای عصبی، روشهای d-vector و x-vector، ویژگیهای گلوگاهی، یادگیری معیارهای فاصله و توابع زیان
- روشهای مختلف جعل در سامانههای بازشناسی گوینده و روشهای مقابله با آنها، تقطیع گوینده
- روشهای مبتنی بر یادگیری خود نظارتی برای بازشناسی گفتار و گوینده، مدلهای بر پایه یادگیری تباینی، مدلهای چند وظیفهای
ارزیابی پیشنهادی
- تمرینها و پروژه: ۲۰ درصد نمره
- آزمونهای میانترم و پایانی: ۷۰ درصد نمره
- پروژه پژوهشی: ۱۰ درصد نمره
منابع پیشنهادی
- D. Yu, L. Deng. Automatic speech recognition: A deep learning approach. Springer, 2015.
- L. Rabiner, B.-Hwang Juang. Fundamentals of Speech Recognition. Prentice Hall, 1993.
- D. Jurafsky and J. H. Martin. Speech and Language Processing. 3rd Edition, 2023.
- H. Beigi. Fundamentals of Speaker Recognition. Springer, 2011.