پیکره فارسی ارزیابی سامانه‌های تقلب‌یاب
ارسال شده توسط admin در تاریخ یکشنبه, 06/01/1394 - 18:50
کد داده: D3940531a | ثبت در مرجع: 01 شهریور 1394 | تعداد بازدید: 1840

پیکره حاضر که با هدف ارزیابی سامانه‌های تقلب‌یاب تهیه شده است مشتمل بر بیش از ۱۵۰۰ سند فارسی از ویکیپدیا است که ۴۱۱ نمونه تقلب در آن‌ها گنجانده شده است. در قسمت‌های حاوی تقلب فرایندهایی چون جابجایی کلمات، حذف و اضافه نمودن کلمات و جایگزین نمودن کلمات با کلمات هم‌معنا اعمال شده است.

مالکیت معنوی: 
پژوهشکده فناوری اطلاعات و ارتباطات جهاد دانشگاهی
شرایط استفاده: 

- استفاده از این مجموعه برای اهداف پژوهشی آزاد است.

اطلاعات ارجاع: 

Khoshnavataher, K., Zarrabi, V., Mohtaj, S., & Asghari, H. (2015). Developing Monolingual Persian Corpus for Extrinsic Plagiarism Detection Using Artificial Obfuscation. In the 13th evaluation lab on uncovering plagiarism, authorship, and social software misuse (PAN15) (دریافت)

اطلاعات تکمیلی: