پردازش گفتار
Speech Processing
مقطع: تحصیلات تکمیلی | گرایش: هوش مصنوعی |
نوع درس: نظری | تعداد واحد: ۳ |
پیشنیاز: – | همنیاز: – |
هدف کلی
هدف از این درس آشنایی با مباحث نظری و عملی در پردازش گفتار و کاربردهای مختلف آن و نیز روشهای پایه و روشهای جدید در هریک از زمینههای کاربردی است. در ابتدا مروری بر مباحث آواشناسی، واجشناسی، ساختار تکلمی و شنیداری گفتار در انسان، رقمیسازی، پیشپردازش و استخراج ویژگی از سیگنال گفتار مطرح و سپس کاربردهای مطرح در پردازش گفتار شامل بازشناسی گفتار و گوینده، سنتز گفتار، فشردهسازی و کدسازی گفتار و بهسازی گفتار ارائه میشود.
سرفصلها
- معرفی: شاخههای پردازش گفتار، علوم مورد استفاده، کاربردها، تاریخچه مختصر و زنجیره گفتاری
- مفاهیم زبانشناسی: آواشناسی، واجشناسی، آوا، واج (همخوان، واکه و ویژگیهای آنها)، هجا، واژک، واژه و آوانویسی
- آناتومی و اجزاء سیستم تولید گفتار در انسان
- بررسی سیستم شنیداری در انسان: گوش بیرونی، گوش میانی و گوش درونی، ادراک انسان از فرکانس و بلندی صدا
- رقمیسازی سیگنال گفتار، پیشپردازش گفتار (فریمبندی، پنجرهگذاری و پیشتاکید)، استخراج ویژگی، طیفنگار
- مروری بر روشهای یادگیری ماشین و شبکههای عصبی عمیق
- تشخیص فعالیت صوتی (VAD)
- بازشناسی گفتار: تعاریف، انواع، مدل صوتی، مدل زبانی، انواع روشهای بازشناسی مبتنی بر HMM، DNN، DNN-HMM و مبتنی بر یادگیری عمیق
- پیکرههای صوتی بزرگ انگلیسی و فارسی و نیز ابزارهای تولید و برچسب گذاری
- بازشناسی گوینده: تعاریف، انواع، مدل کردن گوینده به روشهای مختلف، تعیین سطح آستانه تصمیمگیری، بهنجارسازی امتیاز
- سنتز گفتار: انتخاب واحدهای آوایی، روشهای سنتز پیوندی، انتخاب واحد، سنتز مبتنی بر مدل مخفی مارکوف و یادگیری عمیق
- فشردهسازی و کد کردن گفتار: کدگذاری شکل موج، وکودرها، روشهای مبتنی بر یادگیری عمیق، ارزیابی کیفیت گفتار
- بهسازی گفتار
ارزیابی پیشنهادی
- تمرینها و پروژه: ۲۰ درصد نمره
- آزمونهای میانترم و پایانی: ۷۰ درصد نمره
- پروژه پژوهشی: ۱۰ درصد نمره
منابع پیشنهادی
- Lawrence R. Rabiner, Ronald R. Schafer. Theory and Applications of Digital Speech Processing. Pearson, 2009.
- John R. Deller, John H. L. Hansen, John G. Proakis. Discrete-Time Processing of Speech signals. IEEE Press, 908P, 2000.
- X. Huang, A. Acero, H. W. Hon. Spoken Language Processing, A Guide to Theory, Algorithm, and System Development. Chapters 14, 15, and 16, Prentice Hall, 935P, 2000.
- محمدمهدی همایونپور، پژوهشنامه تبدیل متن به گفتار، شورای عالی اطلاعرسانی، 536 صفحه، 1391.
- حسین صامتی، پژوهشنامه بازشناسی خودکار گفتار، شورای عالی اطلاعرسانی، 1390.