بازشناسی گفتار و گوینده

Speech and Speaker Recognition

مقطع: تحصیلات تکمیلی گرایش: هوش مصنوعی
نوع درس: نظری تعداد واحد: ۳
پیش‌نیاز: – هم‌نیاز: –

هدف کلی

هدف از این درس، آشنا نمودن دانشجویان با اصول بازشناسی گفتار و گوینده است. درس بعد از معرفی مقدمات، با روش‌های مبتنی بر مدل مخفی مارکوف شروع می‌شود. سپس مدل‌های ترکیبی HMM-DNN به همراه توضیح مسائل مختلف آن آورده می‌شود. در ادامه بعد از معرفی روش CTC، مدل‌های انتها به انتها برای بازشناسی گفتار شرح داده می‌شوند. سپس روش‌های مرسوم و جدید بازشناسی گوینده و نکات مهم این موضوع توضیح داده خواهند شد و در انتها نیز روش‌های پیش آموزش شبکه‌های عصبی و چندین مدل از آن‌ها برای بازشناسی گفتار و گوینده آموزش داده می‌شوند.

سرفصل‌ها

  1. مقدمه: تعریف بازشناسی گفتار خودکار و گوینده، تاریخچه، آشنایی با پردازش سیگنال دیجیتال، استخراج ویژگی، واج‌شناسی، تولید و ادراک گفتار
  2. مدل مخفی مارکوف (HMM) پیوسته و گسسته، مدل مخلوط گاوسی (GMM)، شبکه‌های عصبی، مدل‌های کدگذار و کدکشا، مدل مبدل و انواع استراتژی‌های آموزش
  3. مدل‌های زبانی N-gram و مبتنی بر شبکه‌های عصبی در بازشناسی گفتار، بازشناسی گفتار بر مبنای HMM، مدل‌سازی مستقل و وابسته به بافت، بازشناسی کلمات مجزا و متصل
  4. بازشناسی گفتار با واژگان بزرگ، ترکیب مدل‌زبانی با HMM، روش‌های کاهش پیچیدگی محاسباتی مثل هرس
  5. مدل‌های آکوستیک بر مبنای DNN و بازشناسی گفتار ترکیبی HMM-DNN
  6. کدگشایی وابسته به بافت، جستجوی شعاعی و تطبیق به گوینده، مبدل‌های حالت محدود وزن‌دار (WFST)
  7. دسته‌بندی زمانی پیوندگرا (CTC) و بازشناسی گفتار انتها به انتها (E2E)، بررسی مدل‌های Deep Speech، LAS، RNN-T و Conformer
  8. مدل‌های زبانی و شیوه استفاده از آن‌ها در مدل‌های انتها به انتها
  9. بازشناسی گوینده و دسته‌بندی آن، معیارهای ارزیابی، مدل‌های مرسوم HMM و GMM-UBM، ابر بردار میانگین و SVM، تحلیل عامل مشترک (JFA) و بردار هویت (i-vector) و دسته‌بند PLDA
  10. روش‌های استخراج بردار تعبیه گوینده با استفاده از شبکه‌های عصبی، روش‌های d-vector و x-vector، ویژگی‌های گلوگاهی، یادگیری معیارهای فاصله و توابع زیان
  11. روش‌های مختلف جعل در سامانه‌های بازشناسی گوینده و روش‌های مقابله با آن‌ها، تقطیع گوینده
  12. روش‌های مبتنی بر یادگیری خود نظارتی برای بازشناسی گفتار و گوینده، مدل‌های بر پایه یادگیری تباینی، مدل‌های چند وظیفه‌ای

ارزیابی پیشنهادی

  • تمرین‌ها و پروژه: ۲۰ درصد نمره
  • آزمون‌های میان‌ترم و پایانی: ۷۰ درصد نمره
  • پروژه پژوهشی: ۱۰ درصد نمره

منابع پیشنهادی

  1. D. Yu, L. Deng. Automatic speech recognition: A deep learning approach. Springer, 2015.
  2. L. Rabiner, B.-Hwang Juang. Fundamentals of Speech Recognition. Prentice Hall, 1993.
  3. D. Jurafsky and J. H. Martin. Speech and Language Processing. 3rd Edition, 2023.
  4. H. Beigi. Fundamentals of Speaker Recognition. Springer, 2011.