پیکره فارسی ۱۹۸۴
ارسال شده توسط admin در تاریخ دوشنبه, 02/15/1393 - 00:41
کد داده: D3930213a | ثبت در مرجع: 15 اردیبهشت 1393 | تعداد بازدید: 3875

برای تهیه پیکره فارسی ۱۹۸۴ که در در چارچوب MULTEXT-East تولید شده است، رمان ۱۹۸۴ جرج اورول به عنوان متن اصلی انتخاب شده و نسخه فارسی این کتاب برای اضافه کردن زبان فارسی به این چارچوب حاشیه‌نویسی شده است. این پیکره که از ۱۱۰۰۰۰ توکن، ۱۱۲۶۶ پاراگراف، ۶۶۰۶ جمله، ۶۶۳۲ لما، و ۱۳۵۹۷ کلمه تشکیل شده است، با پیکره‌های مشابه موجود چارچوب MULTEXT-East برای زبان‌هایی چون انگلیسی، بلغاری، چک، استونی، لهستانی، رومانیایی و اسلونی موازی است. از میان ۷۷۱ برچسب مختلف با معنی و ممکن برای زبان فارسی، ۴۴۸ برچسب مختلف در این پیکره رخ داده است.

مالکیت معنوی: 
بهرنگ قاسمی‌زاده
شرایط استفاده: 
اطلاعات ارجاع: 

 

- بهرنگ قاسمی‌زاده، سعید رحیمی، مرتضی سالاریان، علی بهاری سلیم. (۱٣٨۵). گزارشی از ساخت نخستین پیکره چندزبانه برای زبان فارسی. ارائه شده در دوازدهمین کنفرانس بین‌المللی سالانه انجمن کامپیوتر ایران، تهران. (دریافت)

 

- Qasemizadeh, B., Rahimi, S., & Bakhtiari, B. M. (2007). The First Parallel Multilingual Corpus of Persian: Toward a Persian BLARK. The second workshop on Computational Approaches to Arabic Script-based Languages, California, USA. (دریافت)

سایر مستندات: 

- Qasemizadeh, B., & Rahimi, S. (2006). Persian in MULTEXT-East framework. In Advances in natural language processing (pp. 541-551). Springer Berlin Heidelberg. (دریافت)

کاربردها: 
ترجمه ماشینی، پردازش زبان طبیعی
اطلاعات تکمیلی: 

 

- جهت دریافت این داده پس از ملاحظه و قبول فرم شرایط استفاده، درخواست خود را به Tomaž Erjavec ارسال نمایید.

 

- داده مرتبط با این داده: Persian Multext-East framework lexicon

 

- صفحه این داده در پایگاه ELRA