فهرست داده‌ها
D3940825a
25 آبان 1394
2403

«فااسپل» متشکل از دو ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺑﺮﺍی ﺍﺭﺯﯾﺎﺑﯽ ﺭوﺵ‌های خطایابی املایی است. گروه اول شامل خطاهای معمول است که از دانش‌آموزان مدارس و همچنین خطاهای املایی در هنگام تایپ فارسی جمع‌آوری شده‌اند. این گروه شامل ۵۵۰۰ خطا و کلمهٔ تصحیح‌شده است. گروه دوم شامل ۸۰۰ جفت کلمه با خطای املایی و نوشتار صحیح آن است که از خروجی یک سیستم نویسه‌خوان نوری (OCR) جمع‌آوری شده است.

D3940531a
2 شهریور 1394
2551

پیکره حاضر که با هدف ارزیابی سامانه‌های تقلب‌یاب تهیه شده است مشتمل بر بیش از ۱۵۰۰ سند فارسی از ویکیپدیا است که ۴۱۱ نمونه تقلب در آن‌ها گنجانده شده است. در قسمت‌های حاوی تقلب فرایندهایی چون جابجایی کلمات، حذف و اضافه نمودن کلمات و جایگزین نمودن کلمات با کلمات هم‌معنا اعمال شده است.

D3940423a
27 تیر 1394
4222

پیکره سِنتی‌پِرس شامل مجموعه‌ای از جملات فارسی با برچسب‌های حاوی بار معنایی است که در پردازش زبان طبیعی و به طور مشخص در زمینه تحلیل احساس یا عقیده‌کاوی کاربرد دارد. با توجه به ویژگی‌های این پیکره، می‌توان آن را در نوع خود اولین پیکره تحلیل احساس برای زبان فارسی با چنین مشخصاتی به شمار آورد. گفتنی است که دامنه جملات موجود در پیکره مربوط به حوزه کالاهای دیجیتال است. همچنین این پیکره شامل جملاتی، هم به صورت رسمی و هم به صورت نوشتاری عامیانه یا غیررسمی است.

D3940406a
6 تیر 1394
2622

پیکره پی.سی.ای.سی ۲۰۰۸ (PCAC-2008 Persian Coreferentially Annotated Corpus) مجموعه‌ای است شامل ۳۱ متن برگرفته از پیکره بی‌جن‌خان که در آن نزدیک‌ترین مرجع اسمی ۲۰۷۹ ضمیر مشخص شده است. دسترسی به اطلاعات مربوط به مرجع ضمیر در بسیاری از کاربردهای پردازش زبان طبیعی چون ترجمه ماشینی، پرسش و پاسخ خودکار و خلاصه‌سازی خودکار دارای اهمیت است.

D3940330b
2 تیر 1394
2373

پیکره لوتوس مجموعه‌ای از ۵۰ متن نسبتاً بلند برگفته از پیکره بی‌جن‌خان است که عبارات اسمی هم‌مرجع در آن مشخص شده است. برای مثال در جملهٔ «[پروفسور عسکرزاده] [بنیان‌گذار منطق فازی] است و از [او] آثار بسیاری در این زمینه منتشر شده است.» مواردی که با کروشه مشخص شده‌اند به یک موجودیت واحد اشاره دارند. دسترسی به چنین اطلاعاتی در بسیاری از کاربردهای پردازش زبان و از جمله استخراج اطلاعات دارای اهمیت است.

D3940317a
17 خرداد 1394
3145

وردنت فارسی حوزه فاوا مجموعه‌ای است شامل بیش از ۳۰.۰۰۰ مدخل واژگانی در حوزه تخصصی فاوا از مقوله‌های اسم، فعل، صفت و قید. در این وردنت علاوه بر روابط درون-مقوله‌ای، روابط میان-مقوله‌ای نیز مفاهیم را بهم پیوند می‌دهد و علاوه بر ویژگی‌های در نظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده است. این وردنت قابلیت اتصال به وردنت‌های دیگر را از طریق نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست. وردنت فارسی حوزه فاوا با همكاری پژوهشگاه ارتباطات و فناوری اطلاعات و دانشگاه بوعلی‌سینای همدان تهیه شده است.

D3930615a
16 شهریور 1393
4585

پیکره «پاسخ» اولین پیکره متنی برای ارزیابی خلاصه‌سازی تک‌سندی و خلاصه‌سازی چندسندی است که توسط آزمایشگاه فناوری وب دانشگاه فردوسی مشهد و با همکاری سازمان فناوری اطلاعات ایران تولید گردیده. این پیکره مشتمل بر دو مجموعه تک‌سندی و چندسندی است. در تولید این مجموعه سعی شده است تمامی استانداردهای لازم برای تولید یک پیکره خلاصه‌سازی رعایت گردد.

D3930518a
18 مرداد 1393
10447
دسترسی به ابزار پژوهش رواسازی شده برای ارزیابی نوای گفتار (پروسودی) از ملزومات مطالعه گفتار‌ احساسی‌ (عاطفی) است. "پایگاه‌ داده گفتار‌ احساسی‌ زبان‌ فارسی Persian ESD"، اولین مجموعه جامع و معتبر گفتار احساسی‌ برای زبان فارسی است که در دانشگاه Freie Universitaet Berlin ساخته و سپس رواسازی شده‌ است. برای ساخت این مجموعه دو بازیگر فارسی‌ زبان (یک زن و یک مرد) ۹۰ جمله را در پنج آهنگ عاطفی [1] عصبانیت، شادی، غم، ترس، چندش و نیز خنثی را طی شرایط خاصی در سه دسته "همگون [2]"، "ناهمگون [3]" و "پایه [4]"در یک استودیو تخصصی ضبط صدا و زیر نظر یک زبانشناس و یک متخصص آکوستیک در شهر برلین آلمان اجرا کردند. متن این ٩٠ جمله پیشتر توسط ۱۱۲۶ فارسی‌زبان در دو مطالعه رفتاری جداگانه رواسازی شده بودند. حاصل این کار ۴۷۲ جمله صوتی با آهنگ‌های عاطفی متفاوت است. روايی محتوایی [5] این جملات صوتی در یک مطالعه رفتاری توسط ۳۴ فارسی‌زبان مورد ارزیابی قرار گرفته و ۴۶۸ جمله صوتی که درصد تشخیصشان بالای ۷۱.۴۲ % بود (پنج‌بار بالاتر از سطح شانس) به عنوان جملات معتبر (روسازی شده) درنظر گرفته شده‌اند. همچنین تجزیه و تحلیل اکوستیکی این ۴۶۸ جمله صوتی نمایانگر تفاوت معنی داری در زمینه شدت، زیر و بمی صدا، و کشش (دیرند) بیان جملات در پنج آهنگ عاطفی مورد مطالعه است.
 
پایگاه‌داده گفتار احساسی‌ زبان فارسی (Persian ESD)، که برای استفاده در مطالعات حوزه‌های گوناگون از جمله عصب‌شناسی زبان، روانشناسی زبان، زبانشناسی بالینی، گفتار درمانی و نیز شناخت [6] و ترکیب [7] گفتار تهیه شده است، این امکان را به پژوهشگران می‌­دهد که تاثیر نوای عاطفی گفتار [8]، متن گفتار (واژگان) [9] و نیز تعامل این دو را در درک گفتار عاطفی [10] بطور جداگانه مورد بررسی قرار دهند.
 
- - - - - -
[1] این پنج حس عصبانیت، شادی، غم، ترس و چندش به "احساسات پایه" مشهور هستند و طبق نظر برخی از روانشناسان احساسات پایه بدون در نظرگرفتن تفاوت‌های فرهنگی و زبانی میان تمامی افراد بشر مشترک هستند(Ekman, 1999).
[2] Congruent: emotional lexical content articulated in congruent emotional prosody
[3] Incongruent: neutral lexical content articulated in various emotional prosody
[4] Baseline: both neutral and emotional lexical content articulated in neutral prosody
[5] content validity
[6] speech recognition
[7] speech synthesis 
[8] Emotional prosody
[9] Lexical content
[10] Emotional speech
D3930414a
15 تیر 1393
3761

دادگان تلفنی اعداد متصل زبان فارسی شامل داده‌های ضبط‌شده تلفنی از اعداد فارسی به صورت متصل است و مشتمل بر ۱۱۰ گوینده می‌باشد كه هر یك تقریبا ۷۰ رشته عددی را بیان كرده‌اند. هر رشته عددی جداگانه بر چسب‌دهی شده است. آزمایش‌های متنوعی كه به وسیله شنوندگان مختلف بر روی این دادگان صورت گرفته، كیفیت دادگان از نظر قابل فهم بودن برای استفاده‌كنندگان انسانی و همچنین صحت برچسب‌گذاری دادگان را تضمین كرده است. از این دادگان در سیستم‌های بازشناسی گفتار پیوسته استفاده می‌شود. با به كارگیری این دادگان، دقت بازشناسی اعداد متصل تلفنی بیش از ۹۷٪ بوده است.

D3930317a
19 خرداد 1393
4894

دادگان «مجموعه افعال تصریف‌شده فارسی» مجموعه‌ایست که به گردآوری مصادر مختلف فارسی در پیکره‌های بی‌جن‌خان، همشهری، تب‌کورپ و چند منبع دیگر پرداخته است. این مصادر در صیغه‌های مختلف صرف ‌شده‌اند و ویژگی‌های مختلف آن‌ها از جمله بن ماضی، بن مضارع، زمان، شخص، شمار، نمود و ...  برای هر صیغه و همینطور صورت واج‌نویسی‌شده و معادل انگلیسی برخی از مصادر نیز تعیین شده است. از این دادگان می‌توان در مطالعات ساخت‌واژی و نحوی زبان‌شناختی یا پردازش‌های مختلف رایانه‌ای از جمله تشخیص افعال مرکب، تعیین حدود جمله، تحلیل‌های صرفی و نحوی و ... استفاده کرد. تعداد کل مصادر در این مجموعه نزدیک به ۱۳۰۰ مصدر می‌باشد. این مجموعه دادگان در سه قالب xml، sql و csv ارائه شده است.