فهرست داده‌ها
D3930414a
15 تیر 1393
3110

دادگان تلفنی اعداد متصل زبان فارسی شامل داده‌های ضبط‌شده تلفنی از اعداد فارسی به صورت متصل است و مشتمل بر ۱۱۰ گوینده می‌باشد كه هر یك تقریبا ۷۰ رشته عددی را بیان كرده‌اند. هر رشته عددی جداگانه بر چسب‌دهی شده است. آزمایش‌های متنوعی كه به وسیله شنوندگان مختلف بر روی این دادگان صورت گرفته، كیفیت دادگان از نظر قابل فهم بودن برای استفاده‌كنندگان انسانی و همچنین صحت برچسب‌گذاری دادگان را تضمین كرده است. از این دادگان در سیستم‌های بازشناسی گفتار پیوسته استفاده می‌شود. با به كارگیری این دادگان، دقت بازشناسی اعداد متصل تلفنی بیش از ۹۷٪ بوده است.

D3930317a
19 خرداد 1393
3919

دادگان «مجموعه افعال تصریف‌شده فارسی» مجموعه‌ایست که به گردآوری مصادر مختلف فارسی در پیکره‌های بی‌جن‌خان، همشهری، تب‌کورپ و چند منبع دیگر پرداخته است. این مصادر در صیغه‌های مختلف صرف ‌شده‌اند و ویژگی‌های مختلف آن‌ها از جمله بن ماضی، بن مضارع، زمان، شخص، شمار، نمود و ...  برای هر صیغه و همینطور صورت واج‌نویسی‌شده و معادل انگلیسی برخی از مصادر نیز تعیین شده است. از این دادگان می‌توان در مطالعات ساخت‌واژی و نحوی زبان‌شناختی یا پردازش‌های مختلف رایانه‌ای از جمله تشخیص افعال مرکب، تعیین حدود جمله، تحلیل‌های صرفی و نحوی و ... استفاده کرد. تعداد کل مصادر در این مجموعه نزدیک به ۱۳۰۰ مصدر می‌باشد. این مجموعه دادگان در سه قالب xml، sql و csv ارائه شده است.

D3930213a
15 اردیبهشت 1393
3685

برای تهیه پیکره فارسی ۱۹۸۴ که در در چارچوب MULTEXT-East تولید شده است، رمان ۱۹۸۴ جرج اورول به عنوان متن اصلی انتخاب شده و نسخه فارسی این کتاب برای اضافه کردن زبان فارسی به این چارچوب حاشیه‌نویسی شده است. این پیکره که از ۱۱۰۰۰۰ توکن، ۱۱۲۶۶ پاراگراف، ۶۶۰۶ جمله، ۶۶۳۲ لما، و ۱۳۵۹۷ کلمه تشکیل شده است، با پیکره‌های مشابه موجود چارچوب MULTEXT-East برای زبان‌هایی چون انگلیسی، بلغاری، چک، استونی، لهستانی، رومانیایی و اسلونی موازی است. از میان ۷۷۱ برچسب مختلف با معنی و ممکن برای زبان فارسی، ۴۴۸ برچسب مختلف در این پیکره رخ داده است.

D3930116a
16 فروردین 1393
2741

دادگان گفتار لهجه‌دار سهند مجموعه‌ای است شامل گفتار ضبط‌شده با ۵ لهجه مختلف که جهت پژوهش در حوزه پردازش گفتار و به ویژه در تشخیص لهجه در گفتار به کار می‌رود. برای تهیه این مجموعه که در دانشگاه صنعتی سهند تولید شده است، گفتار ۴۰ نفر (نیمی خانم و نیمی آقا) طی ادای جملات مشترک با لهجه‌های «آذری»، «مازندرانی»، «کردی»، «تهرانی» و «اصفهانی» ضبط شده است.

D3921217a
18 اسفند 1392
2879

دادگان گفتار احساسی سهند مجموعه‌ای است شامل گفتار ضبط‌شده در ۵ حالت احساسی مختلف که جهت پژوهش در حوزه پردازش گفتار و به ویژه در تشخیص حالت احساسی در گفتار به کار می‌رود. برای تهیه این مجموعه که در دانشگاه صنعتی سهند تولید شده است، گفتار ۱۰ نفر (۵ خانم و ۵ آقا) در حالت‌های احساسی «عادی»، «تعجب»، «شادی»، «غم» و «عصبانیت» ضبط شده است. برای هر حالت احساسی ۵۹ ثانیه گفتار از هر یک از ۱۰ نفر شرکت‌کننده ضبط شده است و کل مجموعه شامل ۵۰ دقیقه صدای ضبط‌شده می‌باشد.

D3921115a
16 بهمن 1392
4961

پرسیکا پیکره‌ای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقه‌بندی شده‌اند و پیش‌پردازش‌هایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و داده‌کاوی بر روی آن‌ها انجام گرفته است.

D3921014a
14 دی 1392
3752

پایگاه داده‌های زبان فارسی مجموعه‌ای است از متون مختلف فارسی که بخشی از آن دارای نشانه‌گذاری‌هایی از جمله شناسنامه متن،‌ برچسب‌های دستوری، ‌آوایی، ‌ریشه‌ای و معنایی است. این دادگان که در پژوهشگاه علوم انسانی و مطالعات فرهنگی تهیه شده است مجهز به نرم‌افزارهای اختصاصی جستجو، تقطیع و تحلیل متن است که می‌تواند انواع فهرست‌های واژگانی، ‌بسامدی و آماری را ارائه کند. از جمله متون موجود در پیکره حدود ۴۵۰ اثر داستانی و غیر داستانی نثر، ‌۲۵۰ اثر شعری از شاعران معاصر، بیش از ‌۸۰ عنوان مجله و نشریه علمی ادبی و تخصصی، ‌ نزدیک به ۳۰۰ عنوان نمایشنامه و فیلمنامه، ‌ و ۲۰۰ عنوان ادبیات کودک، چندین عنوان روزنامه و نشریه خبری، برخی از کتاب‌های درسی دانشگاهی و دبیرستانی، ‌برخی از کتاب‌های دبستانی، نامه‌های اداری و بخشنامه‌ها، مجموعه کامل قوانین و مقررات، نشریه‌ها و جزوه‌های پراکنده، ‌پوستر‌ها، دیوارنوشته‌ها است.

D3920916a
17 آذر 1392
5747

پیکره بی‌جن‌خانی مجموعه‌ای است از متون فارسی شامل بیش از ۲میلیون و ۶۰۰هزار کلمه که با ۵۵۰ نوع برچسب POS برچسب‌گذاری شده‌اند. این پیکره که در پژوهشکده پردازش هوشمند علائم تهیه شده است همچنین شامل بیش از ۴۳۰۰ تگ موضوعی چون سیاسی، تاریخی و ... برای متون است.

D3920811a
11 آبان 1392
2598

پیکره نور مجموعه‌ای است عظیم از متون اسلامی که عمدتاً به زبان عربی و فارسی نوشته شده‌اند. متون مربوط به بیش از ۴ هزار کتاب عربی (بیش از یک میلیارد کلمه) و بیش از ۲ هزار کتاب فارسی (بیش از ۶۰۰ میلیون کلمه) و همچنین بالغ بر ۲۰۰ کتاب دوزبانه (عربی-فارسی) توسط مرکز تحقیقات کامپیوتری علوم اسلامی (نور) در این پیکره جمع‌آوری شده است. 

D3920713a
14 مهر 1392
3363

پیکره موازی انگلیسی-فارسی پیام مجموعه‌ای است از جملات فارسی و انگلیسی که از مستندات دوزبانه وب استخراج شده‌اند. در این پیکره که حاوی حدود صدهزار جمله موازی است، همترازی به شکل دستی و در سطح جمله انجام گرفته است. متون مورد استفاده در این پیکره موازی که در دانشگاه پیام نور تهیه شده است در برگیرنده موضوعات مختلف همچون اخبار، ادبیات، متون مذهبی، متون آموزشی و ... است.