پرسیکا (پیکره متون خبری)
ارسال شده توسط admin در تاریخ چهارشنبه, 11/16/1392 - 19:15
کد داده: D3921115a | ثبت در مرجع: 16 بهمن 1392 | تعداد بازدید: 5517

پرسیکا پیکره‌ای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقه‌بندی شده‌اند و پیش‌پردازش‌هایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و داده‌کاوی بر روی آن‌ها انجام گرفته است.

مالکیت معنوی: 
-
شرایط استفاده: 

 

- استفاده از این داده برای اهداف غیر تجاری آزاد است.

اطلاعات ارجاع: 

 

- Eghbalzadeh, H., Hosseini, B., Khadivi, S., & Khodabakhsh, A. (2012, November). Persica: A Persian corpus for multi-purpose text mining and Natural language processing. In Telecommunications (IST), 2012 Sixth International Symposium on (pp. 1207-1214). IEEE. (دریافت)

سایر مستندات: 

 

کاربردها: 
متن‌کاوی، طبقه‌بندی متون، پردازش زبان طبیعی، زبان‌شناسی رایانشی
اطلاعات تکمیلی: 

 

http://sourceforge.net/projects/persica

 

- این مجموعه در دو قالب SQL و CVS برای دانلود موجود است.