پیکره واحدهای اسمی آرمان
ارسال شده توسط admin در تاریخ چهارشنبه, 09/18/1394 - 17:28
کد داده: D3940917a | ثبت در مرجع: 18 آذر 1394 | تعداد بازدید: 1700

تشخیص واحدهای اسمی (یا تشخیص موجودیت‌های نامدار) یکی از موضوعات پردازش زبان طبیعی است که نیاز به پیکره دارد. پیکرهٔ واحدهای اسمی آرمان که توسط شرکت آرمان رایان شریف تولید شده است شامل ۴۰۰ هزار کلمه (۴۹۱۷ جمله برگرفته از پیکرهٔ بی‌جن‌خان) است و سه ردهٔ شخص (مثال: سید علی قاضی)، مکان (مثال: پارک آب و آتش) و سازمان (مثال: مجلس شورای اسلامی) در آن برچسب خورده است (با فرمت IOB). لازم به ذکر است که این پیکره واحدهای اسمی فارسی در حال توسعه به ۴ میلیون کلمه است و نسخهٔ جدید دارای برچسب‌های مربوط به ۶ رده (مکان، سازمان، شخص، محصول، امکانات و رویداد) خواهد بود.

مالکیت معنوی: 
شرکت آرمان رایان شریف
شرایط استفاده: 

- جهت اطلاع از شرایط تهیه و استفادهٔ داده با شرکت آرمان رایان شریف تماس حاصل فرمایید.

اطلاعات ارجاع: 

محمد عبدوس، بهروز مینایی بیدگلی و حمیدرضا قدمنان (۱۳۹۴) تولید پیکره واحدهای اسمی فارسی. مجموعه مقالات نخستین همایش ملی زبان‌شناسی پیکره‌ای. تهران: نشر نویسه پارسی.

اطلاعات تکمیلی: 

 
- ابزارهای پردازش متن شرکت آرمان رایان شریف (http://armansoft.ir)
 
- نسخهٔ آزمایشی (دموی) محصولات پردازش متن شرکت آرمان رایان شریف (http://matnafzar.ir)