You are not allowed to perform this action
بازیابی اطلاعات
Information Retrieval
مقطع: کارشناسی | گرایش: نرمافزار |
نوع درس: نظری | تعداد واحد: ۳ |
پیشنیاز: ساختمان دادهها و الگوریتمها | همنیاز: – |
هدف کلی
در این درس به معرفی سامانههای بازیابی اطلاعات پرداخته میشود. ابتدا به عملیات شاخصگذاری و مدل بازیابی اطلاعات بولین پرداخته میشود. سپس مدل فضای برداری و نمایش tf-idf مطرح میشود و در مورد تکنیکهای سرعت بخشی به امتیازدهی و مرتبسازی اسناد بحث میشود. در ادامه مدلهای احتمالاتی بازیابی اطلاعات معرفی میشوند و مفاهیم دستهبندی و خوشهبندی اسناد و همچنین یادگیری ترتیبدهی مطرح میشود. سپس موتورهای جستوجوی وب معرفی و اجزای مهمی نظیر خزشگر، تحلیل گراف اسناد و تشخیص اسناد مشابه مورد بررسی قرار میگیرند.
سرفصلها
- مقدمهای بر بازیابی اطلاعات
- معرفی سامانههای بازیابی اطلاعات بولین و نحوهی شاخصگذاری (indexing)
- پیشپردازش اسناد: عملیات متنی و نرمالسازی واژهها
- بازیابی اطلاعات به صورت مقاوم (tolerant)
- پرسمانهای wild-card
- تصحیح غلط املایی (spelling correction)
- شاخصگذاری بلوکی و توزیع شده (distributed)
- Map-Reduce
- فشردهسازی شاخص
- فشردهسازی دیکشنری
- فشردهسازی شاخص به روشهای بایت-متغیر و گاما
- مدل فضای برداری (Vector Space Model) و نمایش tf-idf
- امتیازدهی و رتبهبندی اسناد (بهبود زمانی)
- ارزیابی سامانههای بازیابی اطلاعات و معرفی معیارهای ارزیابی
- مدلهای بازیابی اطلاعات احتمالاتی
- مدلهای زبانی (Language models)
- دستهبندی اسناد
- دستهبند Naïve Bayes
- دستهبندهای خطی
- خوشهبندی اسناد
- خوشهبندی k-means
- خوشهبندهای سلسلهمراتبی
- یادگیری رتبهبندی اسناد (learning to rank)
- موتورهای جستجوی وب
- خزشگر (crawler)
- تشخیص اسناد مشابه (near-duplicate)
- تحلیل گراف لینکها و پیدا کردن PageRank
- تعبیه کلمات
- سامانههای پیشنهاددهنده
ارزیابی پیشنهادی
- آزمون میانترم: ۲۵٪
- آزمون پایانی: ۳۵٪
- پروژه: ۲۵٪
- آزمونهای کوتاه: ۱۵٪
منابع پیشنهادی
- C.D. Manning, P. Raghavan, and H. Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008.