تبدیل متن به گفتار
Text-to-Speech Conversion
مقطع: تحصیلات تکمیلی | گرایش: هوش مصنوعی |
نوع درس: نظری | تعداد واحد: ۳ |
پیشنیاز: – | همنیاز: – |
هدف کلی
هدف از این درس آشنایی با مباحث نظری و عملی در زمینه تبدیل اطلاعات مکتوب به فرم گفتاری و کاربردهای آن و نیز روشهای پایه و روشهای جدید در ساخت یک سامانه تبدیل متن به گفتار است. در ابتدا مروری بر مباحث آواشناسی، واج شناسی، ساختار تکلمی در انسان، رقمیسازی، پیشپردازش و استخراج ویژگی از سیگنال گفتار مطرح و سپس اجزاء یک سامانه تبدیل متن به گفتار شامل تحلیلهای متنی، تحلیلهای آوایی، تحلیلهای نوایی و نهایتا بخش سنتز کننده مورد بحث قرار میگیرد. معیارهای ارزیابی خروجی یک سامانه تبدیل متن به گفتار معرفی و چگونگی بکارگیری مفاهیم زبان شناسی، پردازش زبان طبیعی، پردازش سیگنالهای رقمی، یادگیری ماشین و یادگیری عمیق در بخشهای مختلف یک سامانه تبدیل متن به گفتار مطرح میگردد.
سرفصلها
- معرفی: تعریف، معرفی فواید و کاربردهای تبدیل متن به گفتار
- مفاهیم زبانشناسی: آواشناسی، واجشناسی، آوا، واج (همخوان، واکه و ویژگیهای آنها)، هجا، واژک، واژه و آوانویسی
- آناتومی و اجزاء سیستم تولید گفتار در انسان
- رقمیسازی سیگنال گفتار، پیشپردازش گفتار: فریمبندی، پنجرهگذاری و پیشتاکید، استخراج ویژگی، طیفنگار
- مروری بر روشهای یادگیری ماشین و شبکههای عصبی عمیق، تعبیه کلمات و گفتار، طراحی واژگان و دادگانهای گفتاری و متنی مورد نیاز
- تحلیلهای متنی: واحدسازی و هنجارسازی متن، تعیین نوع دستوری کلمات، تجزیه جمله به عبارتهای نحوی
- تحلیلهای آوایی: استفاده از واژگان، رفع ابهام از همنویسهها، تحلیل تکواژ شناختی، تشخیص کسره اضافه، تبدیل حرف به صدا
- تحلیلهای نوایی: پارامترهای نوا، نوانویسی، مدلسازی مکث، کشش، زیروبمی و شدت
- روشهای کلاسیک سنتز گفتار: مدل کلات، سنتز پیوندی، سنتز به روش انتخاب واحد، سنتز مبتنی بر مدل مخفی مارکوف
- وکودرها: رویکردهای سنتی، رویکردهای مبتنی بر شبکه عصبی، مبتنی بر GAN، مبتنی بر مدل انتشار
- سنتز گفتار با استفاده از شبکههای عصبی و مدلهای انتها به انتها، ارزیابی سیستمهای سنتز گفتار: روشهای ذهنی و عینی
- سنتز گفتار با قابلیت تطبیق با گوینده و سنتز با قابلیت کنترل صدا (سرعت، نوا، احساس، سبک و …)
ارزیابی پیشنهادی
- تمرینها و پروژه: ۲۰ درصد نمره
- آزمونهای میانترم و پایانی: ۷۰ درصد نمره
- پروژه پژوهشی: ۱۰ درصد نمره
منابع پیشنهادی
- محمدمهدی همایونپور، پژوهشنامه تبدیل متن به گفتار، شورایعالی اطلاعرسانی، 1391.
- S. Furui. Digital Speech Processing, Synthesis, and Recognition. CRC Press, 2000.
- E. Keller, G. Bailly, A. Monaghan, J. Tekren, M. Huckvale. Improvements in Speech Synthesis. Wiley, 2002.
- P. Taylor. Text to Speech Synthesis. 2009.