یادگیری ماشین مقیاس‌پذیر

Scalable Machine Learning

مقطع: تحصیلات تکمیلی گرایش: علم داده
نوع درس: نظری تعداد واحد: ۳
پیش‌نیاز: – هم‌نیاز: –

هدف کلی

با توجه به افزایش دادگان حجیم و نیاز بسیاری از مدل‌های یادگیری ماشین به دادگان بزرگ برای یادگیری، نیازمند چارچوب‌هایی هستیم که امکان استفاده از روش‌های یادگیری ماشین برای این نوع دادگان را فراهم کند. در این درس، اصول و مفاهیم یادگیری ماشین توزیع‌شده و موازی و همینطور ابزارهای موجود برای پیاده‌سازی این مفاهیم را معرفی می‌کنیم.

سرفصل‌ها

  1. مفاهیم اولیه محاسبات توزیع‌شده
  2. مروری بر Spark و آشنایی با دادگان توزیع‌شده قابل بازیابی (Resilient Distributed Dataset)
  3. کاربرد Spark در یادگیری ماشین
  4. کتابخانه Spark MLlib و پایداری مدل (Model Persistence)
  5. روش‌های یادگیری با ناظر توزیع‌شده مانند XGBoost توزیع‌شده
  6. روش‌های بدون ناظر توزیع‌شده مانند k-means توزیع‌شده
  7. تحلیل داده‌های مبتنی گراف مقیاس‌پذیر و آشنایی با GraphX
  8. روش‌های یادگیری متحد (Federated Learning)
  9. یادگیری ژرف توزیع‌شده و موازی و Distributed Data Parallel در Pytorch

ارزیابی پیشنهادی

  • تمرین‌های نظری: ۳ نمره
  • آزمون‌های میان‌ترم و پایانی: ۱۵ نمره
  • آزمونک‌ها: ۲ نمره

منابع پیشنهادی

  1. B. Quinto. Next-Generation Machine Learning with Spark. Apress, 2020.
  2. R. Bekkerman, M. Bilenko, and J. Langford. Scaling Up Machine Learning : Parallel and Distributed Approaches. Cambridge University Press, 2012.