واژگان زایای زبان فارسی
ارسال شده توسط کاربر مهمان در تاریخ شنبه, 11/07/1391 - 20:03
کد داده: D3911105a | ثبت در مرجع: 07 بهمن 1391 | تعداد بازدید: 4161

واژگان زایای زبان فارسی واژگانی است شامل حدود ۵۵هزار مدخل که هر مدخل دارای اطلاعات مربوط به صورت نوشتاری واژه در خط فارسی، ساخت واجی، مقولهٔ واژگانی، الگوی تکیه، و بسامد واژه می‌باشد. برای تهیهٔ واژگان زایا، یک پیکره متنی ۱۰میلیون کلمه‌ای ملاک استخراج واژه‌ها قرار گرفته است. این پیکره از حدود ۱۰۰هزار کلمه با بسامدهای متفاوت تشکیل شده است. بعد از حذف صورت‌های تصریفی از فهرست فوق، حدود ۴۴هزار واژه به مفهوم علمی آن به دست آمد. در بررسی فهرست واژه‎های حاصل از پیکره متنی معلوم شد که برخی واژه‌های عامیانه و برخی واژه‌های کاملاً علمی در فهرست ۴۴هزار مدخلی غایب هستند. برای رفع این کاستی فهرست فوق با فرهنگ فارسی امروز (صدری‌افشار، ۱۳۸۱) مقایسه شد و حدود ۱۱هزار مدخل جدید به فهرست واژه‌ها اضافه شد و واژگان ۵۵هزار مدخلی به دست آمد.

مالکیت معنوی: 
دبیرخانه شورای عالی اطلاع‌رسانی
شرایط استفاده: 

-

اطلاعات ارجاع: 

 

- محرم اسلامی، مسعود شریفی آتشگاه، صدیقه علیزاده لمجیری، و طاهره زندی. (۱۳۸۳). واژگان زایای زبان فارسی. مجموعه مقالات اولین کارگاه پژوهشی زبان فارسی و رایانه. تهران. (دریافت)

کاربردها: 
پردازش زبان طبیعی، زبان‌شناسی رایانشی، زبان‌شناسی پیکره‌ای، پردازش گفتار
اطلاعات تکمیلی: 
-