فهرست داده‌ها
D3950208
9 اردیبهشت 1395
5354

پیکره واژگان فارسی دارای برچسب قطبیت که در آزمایشگاه سیستم‌های هوشمند اطلاعات دانشگاه تهران از دو مجموعه داده تشکیل شده است:
۱. مجموعه استخراج شده از صفت‌های برچسب خورده فارسی:
این مجموعه از روی مجموعه صفت‌های زبان فارسی استخراج شده از فارس‌نت ساخته شده است. هر ورودی در این مجموعه می‌تواند برچسب مثبت منفی و یا خنثی داشته باشد. برای این کار بیش از ۳۵۸۸ صفت استخراج و توسط چهار ارزیاب مستقل ارزیابی شده است. پس از تجمیع نظرات چهار ارزیاب سه مجموعه مثبت منفی و خنثی استخراج شده است که به ترتیب شامل ۹۶۸ ۹۶۲ ۱۵۷۲ کلمه می باشند. از بین صفت‌های ارزیابی شده تنها صفت‌هایی در مجموعه باقی مانده‌اند که یا توسط هر چهار ارزیاب برچسب یکسان گرفته‌اند و یا سه ارزیاب در مورد صفت نظر یکسان داشته‌اند و ارزیاب چهارم به این صفت برچسب مخالف نداده‌است.
۲. مجموعه صفت، فعل و اسم:
این مجموعه از روی مجموعه صفت‌ها، فعل‌ها و اسم‌های موجود در فارس‌نت استخراج شده‌اند. به هر کلمه از این مجموعه توسط یک روش مبتنی بر یادگیری ماشین نیمه ناظر یک مقدار عددی نسبت داده می‌شود. این عدد در‌واقع تعیین کننده میزان قطبیت هر کلمه است. به کلمات مثبت، عددی بزرگ‌تر از صفر و به اعداد منفی، عددی کوچکتر از صفر نسبت داده می‌شود. در این مجموعه، کلمات خنثی به صراحت تعیین نمی‌شوند و می‌توان کلمات خنثی را بر اساس یک حد آستانه بین کلمات مثبت و منفی تعیین کرد. این مجموعه شامل ۳۵۸۸ صفت ۴۰۷۳ فعل و ۷۳۲۵ اسم می باشد. قابل ذکر است که کلیه کلمات از روی نسخه ۱ فارس‌نت استخراج شده‌اند.

D3941124a
24 بهمن 1394
4200

پیکرهٔ حاضر شامل تعداد ۸۴۰۰ جملهٔ برگرفته از پیکرهٔ متنی زبان فارسی است که در قالب استاندارد تجزیه نحوی سطحی یا همان فرمت IOB برچسب‌گذاری شده است. گروه‌های برچسب‌خورده در این پیکره به ترتیب فراوانی عبارتند از گروه اسمی، گروه حرف اضافه، گروه فعلی، گروه حرف ربط، گروه قیدی، گروه حرف اضافه پسین (را)، گروه صفتی و گروه لیست. تجزیهٔ سطحی نسبت به تجزیهٔ کامل سریع‌تر است و در پردازش زبان طبیعی کاربردهای بسیاری دارد.

D3941119a
19 بهمن 1394
13060

پیکرهٔ حاضر مجموعه‌ای است از متون مذهبی شامل قرآن، انجیل، رساله‌های عملیه، سایر کتب مذهبی، وبگاه‌های مذهبی و ... به دو زبان فارسی و انگلیسی که در سطح جمله موازی‌سازی شده‌اند. حجم پیکره حدود ۲۰ میلیون واژه برای هر زبان است.

D3941111a
11 بهمن 1394
3822

واژگان زایای زبان کردی سورانی به صورت نیمه‌خودکار استخراج شده است و شامل حدود ۳۵ هزار مدخل با ۲۸ برچسب مقولهٔ واژگانی است. واژگان به مجموعهٔ واژه‌های درون ذهن گویشوران اطلاق می‌گردد که یکی از منابع مهم در تولید و ساخت فناوری‌های پردازش زبان طبیعی مانند بازشناسی خودکار گفتار، تبدیل رایانه‌ای متن به گفتار، ترجمهٔ ماشینی و ... است.

D3940917a
18 آذر 1394
2851

تشخیص واحدهای اسمی (یا تشخیص موجودیت‌های نامدار) یکی از موضوعات پردازش زبان طبیعی است که نیاز به پیکره دارد. پیکرهٔ واحدهای اسمی آرمان که توسط شرکت آرمان رایان شریف تولید شده است شامل ۴۰۰ هزار کلمه (۴۹۱۷ جمله برگرفته از پیکرهٔ بی‌جن‌خان) است و سه ردهٔ شخص (مثال: سید علی قاضی)، مکان (مثال: پارک آب و آتش) و سازمان (مثال: مجلس شورای اسلامی) در آن برچسب خورده است (با فرمت IOB). لازم به ذکر است که این پیکره واحدهای اسمی فارسی در حال توسعه به ۴ میلیون کلمه است و نسخهٔ جدید دارای برچسب‌های مربوط به ۶ رده (مکان، سازمان، شخص، محصول، امکانات و رویداد) خواهد بود.

D3940406a
6 تیر 1394
2735

پیکره پی.سی.ای.سی ۲۰۰۸ (PCAC-2008 Persian Coreferentially Annotated Corpus) مجموعه‌ای است شامل ۳۱ متن برگرفته از پیکره بی‌جن‌خان که در آن نزدیک‌ترین مرجع اسمی ۲۰۷۹ ضمیر مشخص شده است. دسترسی به اطلاعات مربوط به مرجع ضمیر در بسیاری از کاربردهای پردازش زبان طبیعی چون ترجمه ماشینی، پرسش و پاسخ خودکار و خلاصه‌سازی خودکار دارای اهمیت است.

D3930116a
17 فروردین 1393
3398

دادگان گفتار لهجه‌دار سهند مجموعه‌ای است شامل گفتار ضبط‌شده با ۵ لهجه مختلف که جهت پژوهش در حوزه پردازش گفتار و به ویژه در تشخیص لهجه در گفتار به کار می‌رود. برای تهیه این مجموعه که در دانشگاه صنعتی سهند تولید شده است، گفتار ۴۰ نفر (نیمی خانم و نیمی آقا) طی ادای جملات مشترک با لهجه‌های «آذری»، «مازندرانی»، «کردی»، «تهرانی» و «اصفهانی» ضبط شده است.

D3920811a
11 آبان 1392
3338

پیکره نور مجموعه‌ای است عظیم از متون اسلامی که عمدتاً به زبان عربی و فارسی نوشته شده‌اند. متون مربوط به بیش از ۴ هزار کتاب عربی (بیش از یک میلیارد کلمه) و بیش از ۲ هزار کتاب فارسی (بیش از ۶۰۰ میلیون کلمه) و همچنین بالغ بر ۲۰۰ کتاب دوزبانه (عربی-فارسی) توسط مرکز تحقیقات کامپیوتری علوم اسلامی (نور) در این پیکره جمع‌آوری شده است. 

D3920713a
14 مهر 1392
4252

پیکره موازی انگلیسی-فارسی پیام مجموعه‌ای است از جملات فارسی و انگلیسی که از مستندات دوزبانه وب استخراج شده‌اند. در این پیکره که حاوی حدود صدهزار جمله موازی است، همترازی به شکل دستی و در سطح جمله انجام گرفته است. متون مورد استفاده در این پیکره موازی که در دانشگاه پیام نور تهیه شده است در برگیرنده موضوعات مختلف همچون اخبار، ادبیات، متون مذهبی، متون آموزشی و ... است.

D3920616a
16 شهریور 1392
3098

واحد پایه مورد استفاده در دادگان صوتی برای بازسازی رایانه‌ای گفتار باید به گونه‌ای انتخاب شود كه اولاً حجم حافظه معقولی را اشغال كند، یعنی تعداد واحدهای آوایی مطلوب باشد و ثانیاً بتوان گذرهای آوایی را در دادگان پوشش داد. از جمله واحدهایی كه با هدف تأمین این شرایط، تعریف و مورد استفاده قرار می‌گیرد، دایفون است. دایفون عبارت است از نیمه پایدار یك آوا تا نیمه پایدار آوای بعدی. دایفون از دو نیم‌آوای به هم چسبیده تشكیل می‌شود، البته باید درنظر داشت كه این تركیب شامل تركیب سكوت و نیم‌آوا نیز می‌باشد. با این تعریف انواع دایفون‌های زبان فارسی شامل توالی‌های cc، cv، vc، -c، c- ، v- و -v است، كه "-" به معنای سكوت می‌باشد. در دادگان دایفونی فارسی که در پژوهشکده پردازش هوشمند علائم تهیه شده است، تعداد ۹۶۶ دايفون وجود دارد.