مجموعه محک وب دات‌آی‌آر
ارسال شده توسط admin در تاریخ چهارشنبه, 10/16/1394 - 01:15
کد داده: D3941015a | ثبت در مرجع: 16 دی 1394 | تعداد بازدید: 2671

بازیابی اطلاعات وب (Web Information Retrieval) یک زمینه تحقیقاتی است که در آن از فنون حوزه بازیابی اطلاعات برای برطرف‌سازی یک نیاز اطلاعاتی در محیط وب استفاده می‌شود. در این نوع بازیابی علاوه بر متون می‌توان از اطلاعات موجود در فرا‌داده (Meta Data) و ساختار پیوندی اسناد نیز استفاده نمود. در جهت پیشبرد تحقیقات در این زمینه و مخصوصاً برای ارزیابی اصولی سامانه‌هایی که در این حوزه کار می‌کنند نیاز به مجموعه‌ آزمایشی (Test Collection) است که علاوه بر متن ساختار پیوندی مشابه وب داشته باشد. در همین راستا، مجموعه آزمايش dotIR با خزش (Crawl) وب در حوزه ir. در گروه تحقیقاتی پایگاه داده دانشگاه تهران تهیه شد. اجزاء این مجموعه شامل یک پیکرهٔ استاندارد یک میلیون سندی، مجموعهٔ ۵۰ پرس و جوی استاندارد، بیش از ۱۸ هزار داوری ارتباط پرس و جوها به اسناد پیکره و ۵۰ هزار بردار ویژگی استخراج‌شده از اسناد است.

مالکیت معنوی: 
مرکز تحقیقات مخابرات ایران
شرایط استفاده: 

- استفاده از مجموعه و ابزار‌های جنبی برای کاربرد‌های تحقیقاتی و غیرتجاری با ذکر منبع بلامانع است.

اطلاعات ارجاع: 

- احسان درودی، هما برادران هاشمی، ابوالفضل آل احمد، علی محمد زارع بیدکی، امیرحسین حبیبیان، فرزاد مهدیخانی، آزاده شاکری، مسعود رهگذر، مجموعه محک استاندارد برای تحقیقات بازیابی اطلاعات وب فارسی، گزارش فنی، گروه تحقیقاتی پایگاه داده ها دانشگاه تهران، شماره: DBRG-TR-138702.

سایر مستندات: 

- احسان درودی، امیر حسین حبیبیان، چگونگی ساخت مجموعه محک WebIR و مشخصات آن، گزارش فنی مرکز تحقیقات مخابرات ایران به شماره ITF.ITP.TCH.8732414.01، 30/4/88.

اطلاعات تکمیلی: 

گروه تحقیقاتی پایگاه داده دانشکده برق و کامپیوتر دانشگاه تهران (http://ece.ut.ac.ir/dbrg/webir/fa)