پردازش گفتار

Speech Processing

مقطع: تحصیلات تکمیلی گرایش: هوش مصنوعی
نوع درس: نظری تعداد واحد: ۳
پیش‌نیاز: – هم‌نیاز: –

هدف کلی

هدف از این درس آشنایی با مباحث نظری و عملی در پردازش گفتار و کاربردهای مختلف آن و نیز روش‌های پایه و روش‌های جدید در هریک از زمینه‌های کاربردی است. در ابتدا مروری بر مباحث آواشناسی، واجشناسی، ساختار تکلمی و شنیداری گفتار در انسان، رقمی‌سازی، پیش‌پردازش و استخراج ویژگی از سیگنال گفتار مطرح و سپس کاربردهای مطرح در پردازش گفتار شامل بازشناسی گفتار و گوینده، سنتز گفتار، فشرده‌سازی و کدسازی گفتار و بهسازی گفتار ارائه می‌شود.

سرفصل‌ها

  1. معرفی: شاخه‌های پردازش گفتار، علوم مورد استفاده، کاربردها، تاریخچه مختصر و زنجیره گفتاری
  2. مفاهیم زبان‌شناسی: آواشناسی، واج‌شناسی، آوا، واج (همخوان، واکه و ویژگی‌های آن‌ها)، هجا، واژک، واژه و آوانویسی
  3. آناتومی و اجزاء سیستم تولید گفتار در انسان
  4. بررسی سیستم شنیداری در انسان: گوش بیرونی، گوش میانی و گوش درونی، ادراک انسان از فرکانس و بلندی صدا
  5. رقمی‌سازی سیگنال گفتار، پیش‌پردازش گفتار (فریم‌بندی، پنجره‌گذاری و پیش‌تاکید)، استخراج ویژگی، طیف‌نگار
  6. مروری بر روش‌های یادگیری ماشین و شبکه‌های عصبی عمیق
  7. تشخیص فعالیت صوتی (VAD)
  8. بازشناسی گفتار: تعاریف، انواع، مدل صوتی، مدل زبانی، انواع روش‌های بازشناسی مبتنی بر HMM، DNN، DNN-HMM و مبتنی بر یادگیری عمیق
  9. پیکره‌های صوتی بزرگ انگلیسی و فارسی و نیز ابزارهای تولید و برچسب گذاری
  10. بازشناسی گوینده: تعاریف، انواع، مدل کردن گوینده به روش‌های مختلف، تعیین سطح آستانه تصمیم‌گیری، بهنجارسازی امتیاز
  11. سنتز گفتار: انتخاب واحدهای آوایی، روش‌های سنتز پیوندی، انتخاب واحد، سنتز مبتنی بر مدل مخفی مارکوف و یادگیری عمیق
  12. فشرده‌سازی و کد کردن گفتار: کدگذاری شکل موج، وکودرها، روش‌های مبتنی بر یادگیری عمیق، ارزیابی کیفیت گفتار
  13. بهسازی گفتار

ارزیابی پیشنهادی

  • تمرین‌ها و پروژه: ۲۰ درصد نمره
  • آزمون‌های میان‌ترم و پایانی: ۷۰ درصد نمره
  • پروژه پژوهشی: ۱۰ درصد نمره

منابع پیشنهادی

  1. Lawrence R. Rabiner, Ronald R. Schafer. Theory and Applications of Digital Speech Processing. Pearson, 2009.
  2. John R. Deller, John H. L. Hansen, John G. Proakis. Discrete-Time Processing of Speech signals. IEEE Press, 908P, 2000.
  3. X. Huang, A. Acero, H. W. Hon. Spoken Language Processing, A Guide to Theory, Algorithm, and System Development. Chapters 14, 15, and 16, Prentice Hall, 935P, 2000.
  4. محمدمهدی همایون‌پور، پژوهشنامه تبدیل متن به گفتار، شورای عالی اطلاع‌رسانی، 536 صفحه، 1391.
  5. حسین صامتی، پژوهشنامه بازشناسی خودکار گفتار، شورای عالی اطلاع‌رسانی، 1390.