بازیابی اطلاعات

Information Retrieval

مقطع: کارشناسی گرایش: نرم‌افزار
نوع درس: نظری تعداد واحد: ۳
پیش‌نیاز: ساختمان داده‌ها و الگوریتم‌ها هم‌نیاز: –

هدف کلی

در این درس به معرفی سامانه‌های بازیابی اطلاعات پرداخته می‌شود. ابتدا به عملیات شاخص‌گذاری و مدل بازیابی اطلاعات بولین پرداخته می‌شود. سپس مدل فضای برداری و نمایش tf-idf مطرح می‌شود و در مورد تکنیک‌های سرعت بخشی به امتیازدهی و مرتب‌سازی اسناد بحث می‌شود. در ادامه مدل‌های احتمالاتی بازیابی اطلاعات معرفی می‌شوند و مفاهیم دسته‌بندی و خوشه‌بندی اسناد و همچنین یادگیری ترتیب‌دهی مطرح می‌شود. سپس موتورهای جست‌وجوی وب معرفی و اجزای مهمی نظیر خزشگر، تحلیل گراف اسناد و تشخیص اسناد مشابه مورد بررسی قرار می‌گیرند.

سرفصل‌ها

  • مقدمه‌ای بر بازیابی اطلاعات
  • معرفی سامانه‌های بازیابی اطلاعات بولین و نحوه‌ی شاخص‌گذاری (indexing)
  • پیش‌پردازش اسناد: عملیات متنی و نرمال‌سازی واژه‌ها
  • بازیابی اطلاعات به صورت مقاوم (tolerant)
    • پرسمان‌های wild-card
    • تصحیح غلط املایی (spelling correction)
  • شاخص‌گذاری بلوکی و توزیع شده (distributed)
    • Map-Reduce
  • فشرده‌سازی شاخص
    • فشرده‌سازی دیکشنری
    • فشرده‌سازی شاخص به روش‌های بایت-متغیر و گاما
  • مدل فضای برداری (Vector Space Model) و نمایش tf-idf
  • امتیازدهی و رتبه‌بندی اسناد (بهبود زمانی)
  • ارزیابی سامانه‌های بازیابی اطلاعات و معرفی معیارهای ارزیابی
  • مدل‌های بازیابی اطلاعات احتمالاتی
  • مدل‌های زبانی (Language models)
  • دسته‌بندی اسناد
    • دسته‌بند Naïve Bayes
    • دسته‌بندهای خطی
  • خوشه‌بندی اسناد
    • خوشه‌بندی k-means
    • خوشه‌بندهای سلسله‌مراتبی
  • یادگیری رتبه‌بندی اسناد (learning to rank)
  • موتورهای جستجوی وب
    • خزشگر (crawler)
    • تشخیص اسناد مشابه (near-duplicate)
    • تحلیل گراف لینک‌ها و پیدا کردن PageRank
  • تعبیه کلمات
  • سامانه‌های پیشنهاددهنده

ارزیابی پیشنهادی

  • آزمون میان‌ترم: ۲۵٪
  • آزمون پایانی: ۳۵٪
  • پروژه: ۲۵٪
  • آزمون‌های کوتاه: ۱۵٪

منابع پیشنهادی

  1. C.D. Manning, P. Raghavan, and H. Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008.