پردازش کلانداده
Big Data Processing
مقطع: تحصیلات تکمیلی | گرایش: علم داده |
نوع درس: نظری | تعداد واحد: ۳ |
پیشنیاز: – | همنیاز: – |
هدف کلی
هدف این درس، آشنا کردن دانشجویان کارشناسی ارشد و دکترا با مفاهیم و مسائل مطرح در زیرساختهای مرتبط با ذخیرهسازی و مدیریت دادههای بزرگ است. تمامی مفاهیم مطرح در این درس به صورت ملموس و عملی تدریس میشود و از دانشجویان خواسته میشود که زیرساختهای تدریسشده را راهاندازی کرده و با آنها به صورت عملی کار کنند. به منظور همگرایی بهتر سعی شده است از هر مفهوم زیرساختی، یک فناوری عملی از آن نیز انتخاب شود و در حین آموزش مفاهیم تدریس گردد. به منظور راحتی بیشتر و همچنین یکپارچگی آسانتر، همه فناوریهای از پشته Apache و Hadoop انتخاب شدهاند.
سرفصلها
- مروری عملی بر سیستم عامل
- مروری بر پایگاههای داده به صورت عملی
- ماشینهای مجازی و فناوری کانتینر
- مفاهیم مرتبط با سیستم عامل در تحلیل دادههای حجیم (مانند Hadoop و MapReduce)
- جریانهای کاری در Hadoop
- محاسبات داخل حافظهای و Spark
- انبارهای داده و کاوش آنها در Hive و HBase
- یکپارچگی داده (با Sqoop و Flume)
- تحلیل داده با APIهای لایه بالاتر (با Pig، Spark SQL و DataFrame)
- مقدمهای بر یادگیری ماشین توزیعشده با Spark
ارزیابی پیشنهادی
- آزمون: آزمونهای میاننیمسال و پایاننیمسال (۴۰ درصد نمره)
- تمرین و پروژه: سه تمرین تئوری و یک پروژه عملی که در طول نیمسال تحویل داده میشوند (۴۰ درصد نمره).
- گزارش پژوهشی: موضوع پژوهش قبل از آزمون پایاننیمسال تعیین میشود. دانشجو کار پژوهش را با کمک استاد درس آغاز کرده و پس از انجام کار، نتیجه پژوهش را در قالب گزارش ارائه میدهد (۲۰ درصد نمره).
منابع پیشنهادی
- B. Bengfort and J. Kim. Data analytics with Hadoop: an introduction for data scientists. O'Reilly, 2016.