تحلیل کلانداده
مقطع: کارشناسی ارشد | گرایش: هوش مصنوعی |
نوع درس: نظری | تعداد واحد: ۳ |
پیشنیاز: – | همنیاز: – |
هدف کلی
برای دادههایی که با حجم و سرعت بالا تولید میشوند، روشهای سنتی تحلیل و دستکاری دادهها قابل استفاده نیستند. هدف اصلی این درس معرفی نظریهها و الگوریتمهای پیشرفتهای است که در سالهای اخیر در زمینه کلان دادهها ارائه شدهاند و تحلیل، دستکاری و استخراج دانش از حجم انبوهی از دادهها را امکانپذیر نمودهاند.
سرفصلها
- مقدمه: ویژگیها و روشهای ذخیرهسازی کلاندادهها، سبک برنامهنویسی کاهش نگاشت.
- مسئله استخراج الگوهای پرتکرار: کشف قواعد باهمآیی، الگوریتم apriori، الگوریتمهای تصادفی کشف الگوهای پرتکرار.
- مسئله پیدا کردن دادههای مشابه در ابعاد بالا، درهمسازی min-hash، درهمسازی حساس به مکان (LSH)، تحلیل نظری درهمسازی حساس به مکان.
- الگوریتمهای پردازش جریان دادهها: نمونهبرداری با نسبت ثابت، نمونهبرداری با اندازه ثابت، پنجره لغزان، الگوریتمهای تقریبی شمارش تعداد بیتهای ۱ در یک جریان داده بیتی.
- فیلتر کردن عناصر، شمارش تعداد عناصر متمایز، تخمین انحراف از معیار فرکانس عناصر، و کشف الگوهای پرتکرار در یک جریان داده.
- مدلهای یادگیری ماشین برای جریان دادهها: درخت هافدینگ، الگوریتم VFDT، الگوریتم CVFDT
- الگوریتمهای کاهش بُعد و تجزیه ماتریسی برای کلاندادهها: تجزیه مقدارهای منفرد SVD، تجزیه CUR.
- خوشهبندی دادههای حجیم: معضل ابعاد بالا، خوشهبندی سلسله مراتبی، الگوریتم BFR - الگوریتم CURE.
- سیستمهای توصیهگر مقیاسبزرگ: سیستمهای مبتنی بر محتوا، مبتنی بر پیمایش تعاملی، مبتنی بر عوامل پنهان، سیستم توصیهگر شرکت نتفلیکس.
- اجمالسازی یا sketching: مبدل subsampled randomized Hadamard، مبدل CountSketch، اجمالسازی برای مسئله رگرسیون حداقل مربعات
ارزیابی پیشنهادی
- تمرینها و پروژه: ۳۰ درصد نمره
- آزمونهای میانترم و پایانی: ۷۰ درصد نمره
منابع پیشنهادی
- J. Leskovec, A. Rajaraman and J. D. Ullman: Mining of Massive Datasets. 2nd Edition, Cambridge University Press, 2014.
- D. P. Woodruff. Sketching as a Tool for Numerical Linear Algebra. Foundations and Trends in Theoretical Computer Science. 10(1-2): 1-157, 2014.
- K. L. Clarkson and D. P. Woodruff. Low-rank approximation and regression in input sparsity time. J. ACM, 63(6): 54:1-54:45, 2017.