پیکره واژگان فارسی دارای برچسب قطبیت
ارسال شده توسط admin در تاریخ پنجشنبه, 02/09/1395 - 08:21
کد داده: D3950208 | ثبت در مرجع: 09 اردیبهشت 1395 | تعداد بازدید: 3616

پیکره واژگان فارسی دارای برچسب قطبیت که در آزمایشگاه سیستم‌های هوشمند اطلاعات دانشگاه تهران از دو مجموعه داده تشکیل شده است:
۱. مجموعه استخراج شده از صفت‌های برچسب خورده فارسی:
این مجموعه از روی مجموعه صفت‌های زبان فارسی استخراج شده از فارس‌نت ساخته شده است. هر ورودی در این مجموعه می‌تواند برچسب مثبت منفی و یا خنثی داشته باشد. برای این کار بیش از ۳۵۸۸ صفت استخراج و توسط چهار ارزیاب مستقل ارزیابی شده است. پس از تجمیع نظرات چهار ارزیاب سه مجموعه مثبت منفی و خنثی استخراج شده است که به ترتیب شامل ۹۶۸ ۹۶۲ ۱۵۷۲ کلمه می باشند. از بین صفت‌های ارزیابی شده تنها صفت‌هایی در مجموعه باقی مانده‌اند که یا توسط هر چهار ارزیاب برچسب یکسان گرفته‌اند و یا سه ارزیاب در مورد صفت نظر یکسان داشته‌اند و ارزیاب چهارم به این صفت برچسب مخالف نداده‌است.
۲. مجموعه صفت، فعل و اسم:
این مجموعه از روی مجموعه صفت‌ها، فعل‌ها و اسم‌های موجود در فارس‌نت استخراج شده‌اند. به هر کلمه از این مجموعه توسط یک روش مبتنی بر یادگیری ماشین نیمه ناظر یک مقدار عددی نسبت داده می‌شود. این عدد در‌واقع تعیین کننده میزان قطبیت هر کلمه است. به کلمات مثبت، عددی بزرگ‌تر از صفر و به اعداد منفی، عددی کوچکتر از صفر نسبت داده می‌شود. در این مجموعه، کلمات خنثی به صراحت تعیین نمی‌شوند و می‌توان کلمات خنثی را بر اساس یک حد آستانه بین کلمات مثبت و منفی تعیین کرد. این مجموعه شامل ۳۵۸۸ صفت ۴۰۷۳ فعل و ۷۳۲۵ اسم می باشد. قابل ذکر است که کلیه کلمات از روی نسخه ۱ فارس‌نت استخراج شده‌اند.

مالکیت معنوی: 
آزمایشگاه سیستم‌های هوشمند اطلاعات دانشگاه تهران
شرایط استفاده: 

- برای استفاده از این مجموعه، با ارسال ایمیل به خانم دکتر آزاده شاکری (سرپرست آزمایشگاه سیستم‌های هوشمند اطلاعات دانشگاه تهران - shakery@ut.ac.ir)، رمز مربوطه را دریافت نمایید.

اطلاعات ارجاع: 

 

Dehdarbehbahani, I., Shakery, A., & Faili, H. (2014). Semi-supervised word polarity identification in resource-lean languages. Neural Networks, 58, 50-59.

اطلاعات تکمیلی: 

 
- این مجموعه به عنوان بخشی از پروژهٔ «ایجاد و توسعهٔ پیکرهٔ دادگان متنی مرجع در زبان فارسی»، تحت حمایت معاونت علمی و فناوری ریاست جمهوری، ستاد توسعه فناوری اطلاعات و ارتباطات توسعه داده شده است.
 
- آزمایشگاه سیستم‌های هوشمند اطلاعات دانشگاه تهران
 
- صفحهٔ معرفی پیکره قطبیت در وبگاه دانشکده مهندسی برق و کامپیوتر دانشگاه تهران