فهرست داده‌ها
D3941014a
15 دی 1394
2117

مجموعه داده استاندارد وبلاگ‌های ایران (irBlogs) جهت ایجاد بستری مناسب برای تحقیق و ارائهٔ الگوریتم در زمینهٔ شبکه‌های اجتماعی ایرانی تولید شده است. این مجموعه شامل متون برگرفته از بیش از ۶۰۰ هزار وبلاگ (نزدیک به ۵ میلیون پست) است و گراف روابط افراد نیز برای آن تهیه شده است. علاوه بر کاربردهای ذکر شده، می‌توان از این مجموعه داده برای اهداف دیگری در حوزه‌های بازیابی اطلاعات، پردازش زبان طبیعی و مطالعهٔ زبان فارسی استفاده کرد.

D3940917a
18 آذر 1394
1622

تشخیص واحدهای اسمی (یا تشخیص موجودیت‌های نامدار) یکی از موضوعات پردازش زبان طبیعی است که نیاز به پیکره دارد. پیکرهٔ واحدهای اسمی آرمان که توسط شرکت آرمان رایان شریف تولید شده است شامل ۴۰۰ هزار کلمه (۴۹۱۷ جمله برگرفته از پیکرهٔ بی‌جن‌خان) است و سه ردهٔ شخص (مثال: سید علی قاضی)، مکان (مثال: پارک آب و آتش) و سازمان (مثال: مجلس شورای اسلامی) در آن برچسب خورده است (با فرمت IOB). لازم به ذکر است که این پیکره واحدهای اسمی فارسی در حال توسعه به ۴ میلیون کلمه است و نسخهٔ جدید دارای برچسب‌های مربوط به ۶ رده (مکان، سازمان، شخص، محصول، امکانات و رویداد) خواهد بود.

D3940825a
25 آبان 1394
1644

«فااسپل» متشکل از دو ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺑﺮﺍی ﺍﺭﺯﯾﺎﺑﯽ ﺭوﺵ‌های خطایابی املایی است. گروه اول شامل خطاهای معمول است که از دانش‌آموزان مدارس و همچنین خطاهای املایی در هنگام تایپ فارسی جمع‌آوری شده‌اند. این گروه شامل ۵۵۰۰ خطا و کلمهٔ تصحیح‌شده است. گروه دوم شامل ۸۰۰ جفت کلمه با خطای املایی و نوشتار صحیح آن است که از خروجی یک سیستم نویسه‌خوان نوری (OCR) جمع‌آوری شده است.

D3940531a
1 شهریور 1394
1794

پیکره حاضر که با هدف ارزیابی سامانه‌های تقلب‌یاب تهیه شده است مشتمل بر بیش از ۱۵۰۰ سند فارسی از ویکیپدیا است که ۴۱۱ نمونه تقلب در آن‌ها گنجانده شده است. در قسمت‌های حاوی تقلب فرایندهایی چون جابجایی کلمات، حذف و اضافه نمودن کلمات و جایگزین نمودن کلمات با کلمات هم‌معنا اعمال شده است.

D3940423a
27 تیر 1394
2849

پیکره سِنتی‌پِرس شامل مجموعه‌ای از جملات فارسی با برچسب‌های حاوی بار معنایی است که در پردازش زبان طبیعی و به طور مشخص در زمینه تحلیل احساس یا عقیده‌کاوی کاربرد دارد. با توجه به ویژگی‌های این پیکره، می‌توان آن را در نوع خود اولین پیکره تحلیل احساس برای زبان فارسی با چنین مشخصاتی به شمار آورد. گفتنی است که دامنه جملات موجود در پیکره مربوط به حوزه کالاهای دیجیتال است. همچنین این پیکره شامل جملاتی، هم به صورت رسمی و هم به صورت نوشتاری عامیانه یا غیررسمی است. پروژه توسعه این پیکره ادامه دارد و پیکره حاضر که تحت عنوان بخش اول کار ارائه شده است مشتمل بر حدود ۱۱۰۰ جملهٔ برچسب‌خورده است.

D3940406a
6 تیر 1394
1863

پیکره پی.سی.ای.سی ۲۰۰۸ (PCAC-2008 Persian Coreferentially Annotated Corpus) مجموعه‌ای است شامل ۳۱ متن برگرفته از پیکره بی‌جن‌خان که در آن نزدیک‌ترین مرجع اسمی ۲۰۷۹ ضمیر مشخص شده است. دسترسی به اطلاعات مربوط به مرجع ضمیر در بسیاری از کاربردهای پردازش زبان طبیعی چون ترجمه ماشینی، پرسش و پاسخ خودکار و خلاصه‌سازی خودکار دارای اهمیت است.

D3940330b
2 تیر 1394
1769

پیکره لوتوس مجموعه‌ای از ۵۰ متن نسبتاً بلند برگفته از پیکره بی‌جن‌خان است که عبارات اسمی هم‌مرجع در آن مشخص شده است. برای مثال در جملهٔ «[پروفسور عسکرزاده] [بنیان‌گذار منطق فازی] است و از [او] آثار بسیاری در این زمینه منتشر شده است.» مواردی که با کروشه مشخص شده‌اند به یک موجودیت واحد اشاره دارند. دسترسی به چنین اطلاعاتی در بسیاری از کاربردهای پردازش زبان و از جمله استخراج اطلاعات دارای اهمیت است.

D3940317a
17 خرداد 1394
2212

وردنت فارسی حوزه فاوا مجموعه‌ای است شامل بیش از ۳۰.۰۰۰ مدخل واژگانی در حوزه تخصصی فاوا از مقوله‌های اسم، فعل، صفت و قید. در این وردنت علاوه بر روابط درون-مقوله‌ای، روابط میان-مقوله‌ای نیز مفاهیم را بهم پیوند می‌دهد و علاوه بر ویژگی‌های در نظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده است. این وردنت قابلیت اتصال به وردنت‌های دیگر را از طریق نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست. وردنت فارسی حوزه فاوا با همكاری پژوهشگاه ارتباطات و فناوری اطلاعات و دانشگاه بوعلی‌سینای همدان تهیه شده است.

D3930615a
15 شهریور 1393
3658

پیکره «پاسخ» اولین پیکره متنی برای ارزیابی خلاصه‌سازی تک‌سندی و خلاصه‌سازی چندسندی است که توسط آزمایشگاه فناوری وب دانشگاه فردوسی مشهد و با همکاری سازمان فناوری اطلاعات ایران تولید گردیده. این پیکره مشتمل بر دو مجموعه تک‌سندی و چندسندی است. در تولید این مجموعه سعی شده است تمامی استانداردهای لازم برای تولید یک پیکره خلاصه‌سازی رعایت گردد.

D3930518a
18 مرداد 1393
8934
دسترسی به ابزار پژوهش رواسازی شده برای ارزیابی نوای گفتار (پروسودی) از ملزومات مطالعه گفتار‌ احساسی‌ (عاطفی) است. "پایگاه‌ داده گفتار‌ احساسی‌ زبان‌ فارسی Persian ESD"، اولین مجموعه جامع و معتبر گفتار احساسی‌ برای زبان فارسی است که در دانشگاه Freie Universitaet Berlin ساخته و سپس رواسازی شده‌ است. برای ساخت این مجموعه دو بازیگر فارسی‌ زبان (یک زن و یک مرد) ۹۰ جمله را در پنج آهنگ عاطفی [1] عصبانیت، شادی، غم، ترس، چندش و نیز خنثی را طی شرایط خاصی در سه دسته "همگون [2]"، "ناهمگون [3]" و "پایه [4]"در یک استودیو تخصصی ضبط صدا و زیر نظر یک زبانشناس و یک متخصص آکوستیک در شهر برلین آلمان اجرا کردند. متن این ٩٠ جمله پیشتر توسط ۱۱۲۶ فارسی‌زبان در دو مطالعه رفتاری جداگانه رواسازی شده بودند. حاصل این کار ۴۷۲ جمله صوتی با آهنگ‌های عاطفی متفاوت است. روايی محتوایی [5] این جملات صوتی در یک مطالعه رفتاری توسط ۳۴ فارسی‌زبان مورد ارزیابی قرار گرفته و ۴۶۸ جمله صوتی که درصد تشخیصشان بالای ۷۱.۴۲ % بود (پنج‌بار بالاتر از سطح شانس) به عنوان جملات معتبر (روسازی شده) درنظر گرفته شده‌اند. همچنین تجزیه و تحلیل اکوستیکی این ۴۶۸ جمله صوتی نمایانگر تفاوت معنی داری در زمینه شدت، زیر و بمی صدا، و کشش (دیرند) بیان جملات در پنج آهنگ عاطفی مورد مطالعه است.
 
پایگاه‌داده گفتار احساسی‌ زبان فارسی (Persian ESD)، که برای استفاده در مطالعات حوزه‌های گوناگون از جمله عصب‌شناسی زبان، روانشناسی زبان، زبانشناسی بالینی، گفتار درمانی و نیز شناخت [6] و ترکیب [7] گفتار تهیه شده است، این امکان را به پژوهشگران می‌­دهد که تاثیر نوای عاطفی گفتار [8]، متن گفتار (واژگان) [9] و نیز تعامل این دو را در درک گفتار عاطفی [10] بطور جداگانه مورد بررسی قرار دهند.
 
- - - - - -
[1] این پنج حس عصبانیت، شادی، غم، ترس و چندش به "احساسات پایه" مشهور هستند و طبق نظر برخی از روانشناسان احساسات پایه بدون در نظرگرفتن تفاوت‌های فرهنگی و زبانی میان تمامی افراد بشر مشترک هستند(Ekman, 1999).
[2] Congruent: emotional lexical content articulated in congruent emotional prosody
[3] Incongruent: neutral lexical content articulated in various emotional prosody
[4] Baseline: both neutral and emotional lexical content articulated in neutral prosody
[5] content validity
[6] speech recognition
[7] speech synthesis 
[8] Emotional prosody
[9] Lexical content
[10] Emotional speech