فهرست داده‌ها
D3930213a
15 اردیبهشت 1393
4302

برای تهیه پیکره فارسی ۱۹۸۴ که در در چارچوب MULTEXT-East تولید شده است، رمان ۱۹۸۴ جرج اورول به عنوان متن اصلی انتخاب شده و نسخه فارسی این کتاب برای اضافه کردن زبان فارسی به این چارچوب حاشیه‌نویسی شده است. این پیکره که از ۱۱۰۰۰۰ توکن، ۱۱۲۶۶ پاراگراف، ۶۶۰۶ جمله، ۶۶۳۲ لما، و ۱۳۵۹۷ کلمه تشکیل شده است، با پیکره‌های مشابه موجود چارچوب MULTEXT-East برای زبان‌هایی چون انگلیسی، بلغاری، چک، استونی، لهستانی، رومانیایی و اسلونی موازی است. از میان ۷۷۱ برچسب مختلف با معنی و ممکن برای زبان فارسی، ۴۴۸ برچسب مختلف در این پیکره رخ داده است.

D3930116a
16 فروردین 1393
3309

دادگان گفتار لهجه‌دار سهند مجموعه‌ای است شامل گفتار ضبط‌شده با ۵ لهجه مختلف که جهت پژوهش در حوزه پردازش گفتار و به ویژه در تشخیص لهجه در گفتار به کار می‌رود. برای تهیه این مجموعه که در دانشگاه صنعتی سهند تولید شده است، گفتار ۴۰ نفر (نیمی خانم و نیمی آقا) طی ادای جملات مشترک با لهجه‌های «آذری»، «مازندرانی»، «کردی»، «تهرانی» و «اصفهانی» ضبط شده است.

D3921217a
18 اسفند 1392
3483

دادگان گفتار احساسی سهند مجموعه‌ای است شامل گفتار ضبط‌شده در ۵ حالت احساسی مختلف که جهت پژوهش در حوزه پردازش گفتار و به ویژه در تشخیص حالت احساسی در گفتار به کار می‌رود. برای تهیه این مجموعه که در دانشگاه صنعتی سهند تولید شده است، گفتار ۱۰ نفر (۵ خانم و ۵ آقا) در حالت‌های احساسی «عادی»، «تعجب»، «شادی»، «غم» و «عصبانیت» ضبط شده است. برای هر حالت احساسی ۵۹ ثانیه گفتار از هر یک از ۱۰ نفر شرکت‌کننده ضبط شده است و کل مجموعه شامل ۵۰ دقیقه صدای ضبط‌شده می‌باشد.

D3921115a
16 بهمن 1392
6092

پرسیکا پیکره‌ای است حاوی متون خبری برگرفته از خبرگزاری ایسنا. متون این پیکره در یازده طبقه موضوعی شامل ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی، بهداشت طبقه‌بندی شده‌اند و پیش‌پردازش‌هایی به منظور قابل استفاده بودن در کاربردهای مختلف پردازش زبان طبیعی و داده‌کاوی بر روی آن‌ها انجام گرفته است.

D3921014a
14 دی 1392
4734

پایگاه داده‌های زبان فارسی مجموعه‌ای است از متون مختلف فارسی که بخشی از آن دارای نشانه‌گذاری‌هایی از جمله شناسنامه متن،‌ برچسب‌های دستوری، ‌آوایی، ‌ریشه‌ای و معنایی است. این دادگان که در پژوهشگاه علوم انسانی و مطالعات فرهنگی تهیه شده است مجهز به نرم‌افزارهای اختصاصی جستجو، تقطیع و تحلیل متن است که می‌تواند انواع فهرست‌های واژگانی، ‌بسامدی و آماری را ارائه کند. از جمله متون موجود در پیکره حدود ۴۵۰ اثر داستانی و غیر داستانی نثر، ‌۲۵۰ اثر شعری از شاعران معاصر، بیش از ‌۸۰ عنوان مجله و نشریه علمی ادبی و تخصصی، ‌ نزدیک به ۳۰۰ عنوان نمایشنامه و فیلمنامه، ‌ و ۲۰۰ عنوان ادبیات کودک، چندین عنوان روزنامه و نشریه خبری، برخی از کتاب‌های درسی دانشگاهی و دبیرستانی، ‌برخی از کتاب‌های دبستانی، نامه‌های اداری و بخشنامه‌ها، مجموعه کامل قوانین و مقررات، نشریه‌ها و جزوه‌های پراکنده، ‌پوستر‌ها، دیوارنوشته‌ها است.

D3920916a
17 آذر 1392
8280

پیکره بی‌جن‌خانی مجموعه‌ای است از متون فارسی شامل بیش از ۲میلیون و ۶۰۰هزار کلمه که با ۵۵۰ نوع برچسب POS برچسب‌گذاری شده‌اند. این پیکره که در پژوهشکده پردازش هوشمند علائم تهیه شده است همچنین شامل بیش از ۴۳۰۰ تگ موضوعی چون سیاسی، تاریخی و ... برای متون است.

D3920811a
11 آبان 1392
3234

پیکره نور مجموعه‌ای است عظیم از متون اسلامی که عمدتاً به زبان عربی و فارسی نوشته شده‌اند. متون مربوط به بیش از ۴ هزار کتاب عربی (بیش از یک میلیارد کلمه) و بیش از ۲ هزار کتاب فارسی (بیش از ۶۰۰ میلیون کلمه) و همچنین بالغ بر ۲۰۰ کتاب دوزبانه (عربی-فارسی) توسط مرکز تحقیقات کامپیوتری علوم اسلامی (نور) در این پیکره جمع‌آوری شده است. 

D3920713a
14 مهر 1392
4047

پیکره موازی انگلیسی-فارسی پیام مجموعه‌ای است از جملات فارسی و انگلیسی که از مستندات دوزبانه وب استخراج شده‌اند. در این پیکره که حاوی حدود صدهزار جمله موازی است، همترازی به شکل دستی و در سطح جمله انجام گرفته است. متون مورد استفاده در این پیکره موازی که در دانشگاه پیام نور تهیه شده است در برگیرنده موضوعات مختلف همچون اخبار، ادبیات، متون مذهبی، متون آموزشی و ... است.

D3920616a
16 شهریور 1392
3032

واحد پایه مورد استفاده در دادگان صوتی برای بازسازی رایانه‌ای گفتار باید به گونه‌ای انتخاب شود كه اولاً حجم حافظه معقولی را اشغال كند، یعنی تعداد واحدهای آوایی مطلوب باشد و ثانیاً بتوان گذرهای آوایی را در دادگان پوشش داد. از جمله واحدهایی كه با هدف تأمین این شرایط، تعریف و مورد استفاده قرار می‌گیرد، دایفون است. دایفون عبارت است از نیمه پایدار یك آوا تا نیمه پایدار آوای بعدی. دایفون از دو نیم‌آوای به هم چسبیده تشكیل می‌شود، البته باید درنظر داشت كه این تركیب شامل تركیب سكوت و نیم‌آوا نیز می‌باشد. با این تعریف انواع دایفون‌های زبان فارسی شامل توالی‌های cc، cv، vc، -c، c- ، v- و -v است، كه "-" به معنای سكوت می‌باشد. در دادگان دایفونی فارسی که در پژوهشکده پردازش هوشمند علائم تهیه شده است، تعداد ۹۶۶ دايفون وجود دارد.

D3920512a
12 مرداد 1392
4200

واژگان نحوی و معنایی افعال مرکب فارسی (PersPred) مجموعه‌ای است چندزبانه شامل اطلاعات نحوی و معنایی افعال مرکب زبان فارسی، ترجمه انگلیسی و فرانسوی افعال و حداقل یک جمله مثال برای هر فعل. اطلاعات نحوی بر اساس دیدگاه گروس و اطلاعات معنایی بر اساس دیدگاه لوین تهیه شده‌اند. نسخهٔ اول این مجموعه که توسط محققان دانشگاه سوربن جدید فرانسه تهیه و عرضه شده است شامل اطلاعات مربوط به بیش از ۶۰۰  فعل مرکب شامل همکرد «زدن» است.