فهرست داده‌ها
D3920616a
16 شهریور 1392
2497

واحد پایه مورد استفاده در دادگان صوتی برای بازسازی رایانه‌ای گفتار باید به گونه‌ای انتخاب شود كه اولاً حجم حافظه معقولی را اشغال كند، یعنی تعداد واحدهای آوایی مطلوب باشد و ثانیاً بتوان گذرهای آوایی را در دادگان پوشش داد. از جمله واحدهایی كه با هدف تأمین این شرایط، تعریف و مورد استفاده قرار می‌گیرد، دایفون است. دایفون عبارت است از نیمه پایدار یك آوا تا نیمه پایدار آوای بعدی. دایفون از دو نیم‌آوای به هم چسبیده تشكیل می‌شود، البته باید درنظر داشت كه این تركیب شامل تركیب سكوت و نیم‌آوا نیز می‌باشد. با این تعریف انواع دایفون‌های زبان فارسی شامل توالی‌های cc، cv، vc، -c، c- ، v- و -v است، كه "-" به معنای سكوت می‌باشد. در دادگان دایفونی فارسی که در پژوهشکده پردازش هوشمند علائم تهیه شده است، تعداد ۹۶۶ دايفون وجود دارد.

D3920512a
12 مرداد 1392
3483

واژگان نحوی و معنایی افعال مرکب فارسی (PersPred) مجموعه‌ای است چندزبانه شامل اطلاعات نحوی و معنایی افعال مرکب زبان فارسی، ترجمه انگلیسی و فرانسوی افعال و حداقل یک جمله مثال برای هر فعل. اطلاعات نحوی بر اساس دیدگاه گروس و اطلاعات معنایی بر اساس دیدگاه لوین تهیه شده‌اند. نسخهٔ اول این مجموعه که توسط محققان دانشگاه سوربن جدید فرانسه تهیه و عرضه شده است شامل اطلاعات مربوط به بیش از ۶۰۰  فعل مرکب شامل همکرد «زدن» است.

D3920418a
26 تیر 1392
2526

پیکره دوزبانه فارسی-انگلیسی امیرکبیر (AFEC) پیکره‌ای موازی از جملات فارسی و انگلیسی است که در آزمایشگاه فناوری زبان انسانی دانشگاه صنعتی امیرکبیر و با حمایت پژوهشگاه فضای مجازی به عنوان یکی از خروجی‌های پروژه ترجمه ماشینی تهیه شده است. برای تهیهٔ این مجموعه که حاوی حدود ۱۵میلیون کلمه برای هر زبان است، از ترجمه‌های موجود در فضای وب، کتاب‌های ترجمه‌شده، زیرنویس فیلم‌ها و ... استفاده شده است. علاوه بر آن، متونی به صورت دستی ترجمه شده و به پیکره افزوده شده است. همچنین تعدادی از پیکره‌های موازی انگلیسی - فارسی که پیش از این تهیه شده بودند نیز به این پیکره الحاق شده‌اند.

D3920411a
17 تیر 1392
3249

مجموعه ارقام دستنویس هدی مجموعه بزرگی از ارقام دستنویس فارسی است که مشتمل بر ۱۰۲۳۵۳ نمونه دست‌نوشته سیاه سفید می‌باشد. این مجموعه طی انجام یک پروژه کارشناسی ارشد در دانشگاه تربیت مدرس برای بازشناسی فرم‌های دستنویس تهیه شده است. داده‌های این مجموعه از حدود ۱۲۰۰۰ فرم ثبت نام آزمون سراسری کارشناسی ارشد سال ۱۳۸۴ و آزمون کاردانی پیوسته دانشگاه جامع علمی کاربردی سال ۱۳۸۳ استخراج شده است. فرمهای مورد پردازش در این پروژه از طریق شرکت هوش مصنوعی هدی سیستم تهیه شده است.

D3920404a
10 تیر 1392
3026

پیکره درختی وابستگی فارسی اوپسالا (UPDT) مجموعه‌ای است از جملات فارسی که در آن روابط نحوی کلمات بر مبنای دستور وابستگی مشخص شده است. این پیکره که در دانشگاه اوپسالای سوئد تهیه شده است، حاوی ۶.۰۰۰ جمله برگفته از پیکره فارسی اوپسالا (UPC - نسخه‌ای تغییریافته از پیکره بی‌جن‌خان) می‌باشد و بر اساس قالب conll و طرح برچسب‌زنی Stanford Typed Dependencies تهیه شده است.

D3920326a
30 خرداد 1392
2832

پیکره متنی و زیرساختی که تحت عنوان «پیکره فرقان» برای قرآن کریم تولید گردیده است، حاصل بهره‌گیری از سامانه‌ای هوشمند است که در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد، طراحی و پیاده‌سازی شده است. این پیکره با بیش از 587 مگابایت داده، حاوی کلیه اطلاعات قرآنی، آماری، متن و ترجمه فارسی و انگلیسی آیات و برچسب‌گذاری صرفی و نحوی متن عربی، فارسی و انگلیسی آیات، ریشه‌یابی کلمات آنها و بسیاری موارد دیگر در قالب RDF است و امکان استفاده و کاوش را برای هرگونه پژوهش و پردازش هوشمند ایجاد کرده است.

D3920320a
21 خرداد 1392
2585

دادگان درختی فارسی در چارچوب دستور ساخت سازه‌ای هسته‌بنیان (HPSG) مجموعه‌ای است شامل بیش از ۱۰۰۰ جمله برچسب‌خورده با اطلاعات نحوی. ازجمله ویژگی‌های دستور ساخت سازه‌ای هسته‌بنیان این است که علاوه بر ارائه توصیف ساختاری سلسله مراتبی سازه‌ها، دانش واژگانی واژه‌ها مورد استفاده قرار می‌گیرد، و روابط بین واژه‌های یک سازه به طور واضح و صریح مشخص می‌گردد.

D3920230a
1 خرداد 1392
2832

پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران (UTPECC) از دو مجموعه اخبار متفاوت از دو مبدأ مجزا یعنی اخبار فارسی خبرگزاری همشهری و اخبار انگلیسی خبرگزاری بی‌بی‌سی ساخته شده است. همچنین برای هم‌ترازی اسناد این دو زبان، علاوه بر تاریخ انتشار اخبار، شباهت محتوای اسناد نیز در نظر گرفته شده است. این پیکره در آزمایشگاه پژوهشی سیستم‌های هوشمند اطلاعات دانشگاه تهران تهیه شده است.

D3920228a
28 اردیبهشت 1392
2727

تنزیل یک پروژه بین‌المللی قرآنی است که با هدف فراهم‌سازی نسخه‌ای دقیق از قرآن کریم ایجاد شده است. در این پروژه علاوه بر ارائه نسخه رقومی دقیقی از متن قرآن، بالغ بر ۱۰۰ ترجمه از قرآن کریم برای بیش از ۴۰ زبان دنیا از جمله ۱۱ ترجمه فارسی ارائه شده است. داده‌های مربوط به متن قرآن و ترجمه‌های آن از طریق وبگاه پروژهٔ تنزیل و در قالب‌های مختلف عرضه می‌شود و می‌توان از این داده‌ها برای اهداف پردازشی و پژوهشی استفاده نمود.

D3920221a
22 اردیبهشت 1392
5076

پیکره میزان مجموعه‌ای است حاوی بیش از ۱ میلیون جمله از متون انگلیسی (اغلب در حوزه ادبیات کلاسیک) و ترجمه این جملات به فارسی که توسط دبیرخانه شورای عالی اطلاع‌رسانی تهیه شده است. از این پیکره می‌توان در کاربردهای مختلف پردازش زبان طبیعی و به ویژه در ترجمه ماشینی استفاده کرد.