تحلیل کلان‌داده

مقطع: کارشناسی ارشد گرایش: هوش مصنوعی
نوع درس: نظری تعداد واحد: ۳
پیش‌نیاز: – هم‌نیاز: –

هدف کلی

برای داده‌هایی که با حجم و سرعت بالا تولید می‌شوند، روش‌های سنتی تحلیل و دست‌کاری داده‌ها قابل استفاده نیستند. هدف اصلی این درس معرفی نظریه‌ها و الگوریتم‌های پیشرفته‌ای است که در سال‌های اخیر در زمینه کلان داده‌ها ارائه شده‌ا‌ند و تحلیل، دستکاری و استخراج دانش از حجم انبوهی از داده‌ها را امکان‌پذیر نموده‌اند.

سرفصل‌ها

  1. مقدمه: ویژگی‌ها و روش‌های ذخیره‌سازی کلان‌داده‌ها، سبک برنامه‌نویسی کاهش نگاشت.
  2. مسئله استخراج الگوهای پرتکرار: کشف قواعد باهم‌آیی، الگوریتم apriori، الگوریتم‌های تصادفی کشف الگوهای پرتکرار.
  3. مسئله پیدا کردن داده‌های مشابه در ابعاد بالا، درهم‌سازی min-hash، درهم‌سازی حساس به مکان (LSH)، تحلیل نظری درهم‌سازی حساس به مکان.
  4. الگوریتم‌های پردازش جریان داده‌ها: نمونه‌برداری با نسبت ثابت، نمونه‌برداری با اندازه ثابت، پنجره لغزان، الگوریتم‌های تقریبی شمارش تعداد بیت‌های ۱ در یک جریان داده بیتی.
  5. فیلتر کردن عناصر، شمارش تعداد عناصر متمایز، تخمین انحراف از معیار فرکانس عناصر، و کشف الگوهای پرتکرار در یک جریان داده.
  6. مدل‌های یادگیری ماشین برای جریان داده‌ها: درخت هافدینگ، الگوریتم VFDT، الگوریتم CVFDT
  7. الگوریتم‌های کاهش بُعد و تجزیه ماتریسی برای کلان‌داده‌ها: تجزیه مقدار‌های منفرد SVD، تجزیه CUR.
  8. خوشه‌بندی داده‌های حجیم: معضل ابعاد بالا، خوشه‌بندی سلسله مراتبی، الگوریتم BFR - الگوریتم CURE.
  9. سیستم‌های توصیه‌گر مقیاس‌بزرگ: سیستم‌های مبتنی بر محتوا، مبتنی بر پیمایش تعاملی، مبتنی بر عوامل پنهان، سیستم توصیه‌گر شرکت نتفلیکس.
  10. اجمال‌سازی یا sketching: مبدل subsampled randomized Hadamard، مبدل CountSketch، اجمال‌سازی برای مسئله رگرسیون حداقل مربعات

ارزیابی پیشنهادی

منابع پیشنهادی

  1. J. Leskovec, A. Rajaraman and J. D. Ullman: Mining of Massive Datasets. 2nd Edition, Cambridge University Press, 2014.
  2. D. P. Woodruff. Sketching as a Tool for Numerical Linear Algebra. Foundations and Trends in Theoretical Computer Science. 10(1-2): 1-157, 2014.
  3. K. L. Clarkson and D. P. Woodruff. Low-rank approximation and regression in input sparsity time. J. ACM, 63(6): 54:1-54:45, 2017.