You are not allowed to perform this action
تحلیل دادههای چندرسانهای
Multi-Media Data Analysis
مقطع: تحصیلات تکمیلی | گرایش: علم داده |
نوع درس: نظری | تعداد واحد: ۳ |
پیشنیاز: – | همنیاز: – |
هدف کلی
در این درس دانشجویان با پردازش صدا و گفتار، فایلهای چندرسانهای، پردازش سیگنال چندوجهی، و بازیابی ویدئو در مقیاس بزرگ آشنا خواهند شد. دانشجویان جنبههای یک سیستم جستجوی چندرسانهای پیشرفته را درک کرده و با الگوریتمهای یادگیری ژرف برای بازیابی اطلاعات، تشخیص گفتار و پردازش صدا، پردازش تصویر و ویدئو آشنا شده و پیچیدگیهای مدیریت حجم زیادی از دادههای چندرسانهای ناهمگن را تجربه خواهند کرد. آنها تجربه عمیق و عملی با برخی از الگوریتمهای درگیر در پردازش (تشخیص و یا سنتز) و همجوشی چندوجهی خواهند داشت.
سرفصلها
- مقدمه و کاربردها؛ مشکلات و روش تحقیق چندرسانهای
- معرفی ابزارهای مدل سازی و پردازش چندرسانهایها (صوت، متن، تصویر و ویدیو)
- پردازش تصویر و ویدئو در مقیاس بزرگ
- همجوشی دادههای چندرسانهای
- مقیاس پذیری چندرسانهای
- چندرسانهای در حقوق بشر، امنیت عمومی، و اخلاق
- یادگیری عمیق چندرسانهای: خود نظارتی چندرسانهای، ترانسفورماتورهای بصری
- سیستمهای سوالات-پاسخهای چندرسانهای
- جستجوی چندرسانهای
- استفاده از بینایی و زبان برای تولید تصویر: شبکه متخاصم تولیدکننده متن به تصویر و ویدیو
ارزیابی پیشنهادی
- تمرینها: ۳ نمره
- آزمونکها: ۲ نمره
- پروژه: ۷ نمره
- آزمونهای میانترم و پایانی: ۸
منابع پیشنهادی
- S. Vrochidis, B. Huet, E. Y. Chang, and I. Kompatsiaris. Big Data Analytics For Large-Scale Multimedia Search. Wiley & Sons, 2019.
- E. Chang. Foundations of Large-Scale Multimedia Information Management and Retrieval. Springer, 2011.
- S. Zhao, M. Xu, Q. Huang, and B. W. Schuller. Introduction to the Special Issue on MMAC: Multimodal Affective Computing of Large-Scale Multimedia Data. IEEE Multimedia, 2021.