پردازش کلان‌داده

Big Data Processing

مقطع: تحصیلات تکمیلی گرایش: علم داده
نوع درس: نظری تعداد واحد: ۳
پیش‌نیاز: – هم‌نیاز: –

هدف کلی

هدف این درس، آشنا کردن دانشجویان کارشناسی ارشد و دکترا با مفاهیم و مسائل مطرح در زیرساخت‌های مرتبط با ذخیره‌سازی و مدیریت داده‌های بزرگ است. تمامی مفاهیم مطرح در این درس به صورت ملموس و عملی تدریس می‌شود و از دانشجویان خواسته می‌شود که زیرساخت‌های تدریس‌شده را راه‌اندازی کرده و با آن‌ها به صورت عملی کار کنند. به منظور همگرایی بهتر سعی شده است از هر مفهوم زیرساختی، یک فناوری عملی از آن نیز انتخاب شود و در حین آموزش مفاهیم تدریس گردد. به منظور راحتی بیشتر و همچنین یکپارچگی آسان‌تر، همه فناوری‌های از پشته Apache و Hadoop انتخاب شده‌اند.

سرفصل‌ها

  1. مروری عملی بر سیستم عامل
  2. مروری بر پایگاه‌های داده به صورت عملی
  3. ماشین‌های مجازی و فناوری کانتینر
  4. مفاهیم مرتبط با سیستم عامل در تحلیل داده‌های حجیم (مانند Hadoop و MapReduce)
  5. جریان‌های کاری در Hadoop
  6. محاسبات داخل حافظه‌ای و Spark
  7. انبار‌های داده و کاوش آن‌ها در Hive و HBase
  8. یکپارچگی داده (با Sqoop و Flume)
  9. تحلیل داده با APIهای لایه بالاتر (با Pig، Spark SQL و DataFrame)
  10. مقدمه‌ای بر یادگیری ماشین توزیع‌شده با Spark

ارزیابی پیشنهادی

منابع پیشنهادی

  1. B. Bengfort and J. Kim. Data analytics with Hadoop: an introduction for data scientists. O'Reilly, 2016.