پیکره تشخیص خودکار جنسیت
ارسال شده توسط admin در تاریخ چهارشنبه, 03/19/1395 - 13:15
کد داده: D3950319 | ثبت در مرجع: 19 خرداد 1395 | تعداد بازدید: 2519

پیکرهٔ تشخیص خودکار جنسیت شامل دو بخش اصلی است که عبارتند از: ۱- بخش متون رسمی که با مشخص کردن جنسیت نویسندگان متون داستانی موجود در پیکرهٔ بی‌جن‌خان و داستان‌های دیگر برگرفته از اینترنت به دست آمد. برای حذف تاثیر عامل جنسیت مترجم بر روی متن اصلی اثر، تمامی داستان‌ها و رمان‌های غیرفارسی از مجموعه حذف شد. در نهایت در هر دو دسته زن و مرد تعداد مساوی ۲۵۴ داستان در مجموعه قرار داده شد. 2 - بخش متون غیررسمی. برای تهیه این بخش، از رویکرد وب برای پیکره استفاده شد. مهم‌ترین چالش، شناسایی سایتی فارسی بود که اولا محتوی متنی آن توسط خود کاربر نوشته شده باشد و ثانیا نام نویسنده هر متن نیز مشخص شده باشد. برای این منظور از نظرات کاربران در سایت «هلو کیش» استفاده شد. برای استخراج نظرات مرتبط با نظردهندگان زن و مرد، ابتدا لیستی از اسامی فارسی زن و مرد تفکیک‌شده تهیه گشت. سپس نام نویسنده نظر با این لیست اسامی تطبیق داده شد و نظرات برحسب این لیست تفکیک‌شده، در دو دسته زن و مرد قرار گرفت.

مالکیت معنوی: 
-
شرایط استفاده: 

جهت دریافت داده با پست الکترونیکی نگارنده (mehdi.moradi.cl@gmail.com) مکاتبه فرمایید.

اطلاعات ارجاع: 

- مرادی مهدی، بحرانی محمد. تشخیص خودکار جنسیت نویسنده در متون فارسی. پردازش علائم و داده‌ها. ۱۳۹۴; ۱۲ (۴) :۸۳-۹۴