پیکره متنی زبان فارسی
ارسال شده توسط کاربر مهمان در تاریخ جمعه, 01/23/1392 - 12:26
کد داده: D3920121a | ثبت در مرجع: 23 فروردین 1392 | تعداد بازدید: 6005

پیکره متنی زبان فارسی، مجموعه‌ای از متون نوشتاری و گفتاری زبان فارسی به صورت رسمی است که از منابع واقعی همچون روزنامه‌ها، سایت‌ها و مستنداتِ از قبل تایپ شده، جمع‌آوری شده، تصحیح گردیده و برچسب خورده است. حجم این دادگان حدوداً ۱۰۰ میلیون کلمه است و از منابع مختلف تهیه گردیده و دارای تنوعات بسیار زیادی است. ۱۰ میلیون کلمه از این پیکره با استفاده از ۸۸۲ برچسب نحوی-معنایی به صورت دستی توسط دانشجویان رشته زبان‌شناسی برچسب‌دهی شده‌اند و هر پرونده بر حسب موضوع و منبع آن طبقه‌بندی شده است. این پیکره که توسط پژوهشکده پردازش هوشمند علائم تهیه شده است، برای استفاده در تعلیم مدل زبانی و سایر پروژه‌های مربوط به پردازش زبان طبیعی مناسب است.

مالکیت معنوی: 
پژوهشکده پردازش هوشمند علائم
شرایط استفاده: 

جهت تهیه داده و اطلاع از شرایط استفاده آن با پژوهشکده پردازش هوشمند علائم تماس حاصل فرمایید.

اطلاعات ارجاع: 

 

- Mahmood Bijankhan, Javad Sheykhzadegan, Mohammad Bahrani, & Masood Ghayoomi. (2011). Lessons from Building a Persian Written Corpus: Peykare. Language Resources and Evaluation, 45(2), 143–164. (دریافت)

پژوهش‌های مرتبط: 

 

http://scholar.google.com/scholar?q=related:3smp8U5ZL-0J:scholar.google.com/&hl=en&as_sdt=0,5

 

* اگر در پژوهش خود از این داده استفاده کرده‌اید و یا پژوهش دیگری را می‌شناسید که از این داده استفاده نموده باشد، لطفاً اطلاعات مربوط به پژوهش را برای ما ارسال فرمایید تا به این لیست اضافه شود.

کاربردها: 
مدل‌سازی زبانی، پردازش زبان طبیعی، زبان‌شناسی رایانشی، زبان‌شناسی پیکره‌ای
اطلاعات تکمیلی: