مجموعه همشهری (نسخه ۲)
ارسال شده توسط کاربر مهمان در تاریخ چهارشنبه, 01/21/1392 - 16:02
کد داده: D3920117a | ثبت در مرجع: 21 فروردین 1392 | تعداد بازدید: 5070

مجموعه همشهری پیکره‌ای است حاوی ۳۱۸ هزار سند مربوط به اخبار سال‌های ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وب‌سایت همشهری و چندین مرحله پیش‌پردازش و برچسب‌گذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان می‌دهد هر سند در چه رده‌ای است (اقتصادی، سیاسی و...). نسخۀ دو پیکره همشهری توسط گروه تحقیقاتی پایگاه داده دانشگاه تهران و با حمایت مرکز تحقیقات مخابرات ایران تهیه شده است.

مالکیت معنوی: 
مرکز تحقیقات مخابرات ایران
شرایط استفاده: 

استفاده از مجموعه و ابزار‌های جنبی برای کاربرد‌های تحقیقاتی و غیر تجاری با ذکر منبع بلامانع است.

اطلاعات ارجاع: 

 

- Abolfazl AleAhmad, Hadi Amiri, Ehsan Darrudi, Masoud Rahgozar, & Farhad Oroumchian. (2009). Hamshahri: A Standard Persian Text Collection. Knowledge-Based Systems, 22(5), 382–387. (دریافت)

سایر مستندات: 

 

- Ehsan Darrudi, Mohamad R. Hejazi, & Farhad Oroumchian. (2004). Assessment of a Modern Farsi Corpus. Proceedings of the 2nd Workshop on Information Technology & its Disciplines (WITID).
کاربردها: 
خوشه‌بندی متون، مدل‌سازی زبانی، پردازش زبان طبیعی، زبان‌شناسی رایانشی، زبان‌شناسی پیکره‌ای