تبدیل متن به گفتار

Text-to-Speech Conversion

مقطع: تحصیلات تکمیلی گرایش: هوش مصنوعی
نوع درس: نظری تعداد واحد: ۳
پیش‌نیاز: – هم‌نیاز: –

هدف کلی

هدف از این درس آشنایی با مباحث نظری و عملی در زمینه تبدیل اطلاعات مکتوب به فرم گفتاری و کاربردهای آن و نیز روش‌های پایه و روش‌های جدید در ساخت یک سامانه تبدیل متن به گفتار است. در ابتدا مروری بر مباحث آواشناسی، واج شناسی، ساختار تکلمی در انسان، رقمی‌سازی، پیش‌پردازش و استخراج ویژگی از سیگنال گفتار مطرح و سپس اجزاء یک سامانه تبدیل متن به گفتار شامل تحلیل‌های متنی، تحلیل‌های آوایی، تحلیل‌های نوایی و نهایتا بخش سنتز کننده مورد بحث قرار می‌گیرد. معیارهای ارزیابی خروجی یک سامانه تبدیل متن به گفتار معرفی و چگونگی بکارگیری مفاهیم زبان شناسی، پردازش زبان طبیعی، پردازش سیگنال‌های رقمی، یادگیری ماشین و یادگیری عمیق در بخش‌های مختلف یک سامانه تبدیل متن به گفتار مطرح می‌گردد.

سرفصل‌ها

  1. معرفی: تعریف، معرفی فواید و کاربردهای تبدیل متن به گفتار
  2. مفاهیم زبان‌شناسی: آواشناسی، واج‌شناسی، آوا، واج (همخوان، واکه و ویژگی‌های آن‌ها)، هجا، واژک، واژه و آوانویسی
  3. آناتومی و اجزاء سیستم تولید گفتار در انسان
  4. رقمی‌سازی سیگنال گفتار، پیش‌پردازش گفتار: فریم‌بندی، پنجره‌گذاری و پیش‌تاکید، استخراج ویژگی، طیف‌نگار
  5. مروری بر روش‌های یادگیری ماشین و شبکه‌های عصبی عمیق، تعبیه کلمات و گفتار، طراحی واژگان و دادگان‌های گفتاری و متنی مورد نیاز
  6. تحلیل‌های متنی: واحدسازی و هنجارسازی متن، تعیین نوع دستوری کلمات، تجزیه جمله به عبارت‌های نحوی
  7. تحلیل‌های آوایی: استفاده از واژگان، رفع ابهام از همنویسه‌ها، تحلیل تکواژ شناختی، تشخیص کسره اضافه، تبدیل حرف به صدا
  8. تحلیل‌های نوایی: پارامترهای نوا، نوانویسی، مدل‌سازی مکث، کشش، زیروبمی و شدت
  9. روش‌های کلاسیک سنتز گفتار: مدل کلات، سنتز پیوندی، سنتز به روش انتخاب واحد، سنتز مبتنی بر مدل مخفی مارکوف
  10. وکودرها: رویکردهای سنتی، رویکردهای مبتنی بر شبکه عصبی، مبتنی بر GAN، مبتنی بر مدل انتشار
  11. سنتز گفتار با استفاده از شبکه‌های عصبی و مدل‌های انتها به انتها، ارزیابی سیستم‌های سنتز گفتار: روش‌های ذهنی و عینی
  12. سنتز گفتار با قابلیت تطبیق با گوینده و سنتز با قابلیت کنترل صدا (سرعت، نوا، احساس، سبک و …)

ارزیابی پیشنهادی

  • تمرین‌ها و پروژه: ۲۰ درصد نمره
  • آزمون‌های میان‌ترم و پایانی: ۷۰ درصد نمره
  • پروژه پژوهشی: ۱۰ درصد نمره

منابع پیشنهادی

  1. محمدمهدی همایون‌پور، پژوهشنامه تبدیل متن به گفتار، شورایعالی اطلاع‌رسانی، 1391.
  2. S. Furui. Digital Speech Processing, Synthesis, and Recognition. CRC Press, 2000.
  3. E. Keller, G. Bailly, A. Monaghan, J. Tekren, M. Huckvale. Improvements in Speech Synthesis. Wiley, 2002.
  4. P. Taylor. Text to Speech Synthesis. 2009.