فهرست داده‌ها
D3920418a
26 تیر 1392
3134

پیکره دوزبانه فارسی-انگلیسی امیرکبیر (AFEC) پیکره‌ای موازی از جملات فارسی و انگلیسی است که در آزمایشگاه فناوری زبان انسانی دانشگاه صنعتی امیرکبیر و با حمایت پژوهشگاه فضای مجازی به عنوان یکی از خروجی‌های پروژه ترجمه ماشینی تهیه شده است. برای تهیهٔ این مجموعه که حاوی حدود ۱۵میلیون کلمه برای هر زبان است، از ترجمه‌های موجود در فضای وب، کتاب‌های ترجمه‌شده، زیرنویس فیلم‌ها و ... استفاده شده است. علاوه بر آن، متونی به صورت دستی ترجمه شده و به پیکره افزوده شده است. همچنین تعدادی از پیکره‌های موازی انگلیسی - فارسی که پیش از این تهیه شده بودند نیز به این پیکره الحاق شده‌اند.

D3920411a
17 تیر 1392
4161

مجموعه ارقام دستنویس هدی مجموعه بزرگی از ارقام دستنویس فارسی است که مشتمل بر ۱۰۲۳۵۳ نمونه دست‌نوشته سیاه سفید می‌باشد. این مجموعه طی انجام یک پروژه کارشناسی ارشد در دانشگاه تربیت مدرس برای بازشناسی فرم‌های دستنویس تهیه شده است. داده‌های این مجموعه از حدود ۱۲۰۰۰ فرم ثبت نام آزمون سراسری کارشناسی ارشد سال ۱۳۸۴ و آزمون کاردانی پیوسته دانشگاه جامع علمی کاربردی سال ۱۳۸۳ استخراج شده است. فرمهای مورد پردازش در این پروژه از طریق شرکت هوش مصنوعی هدی سیستم تهیه شده است.

D3920404a
11 تیر 1392
3862

پیکره درختی وابستگی فارسی اوپسالا (UPDT) مجموعه‌ای است از جملات فارسی که در آن روابط نحوی کلمات بر مبنای دستور وابستگی مشخص شده است. این پیکره که در دانشگاه اوپسالای سوئد تهیه شده است، حاوی ۶.۰۰۰ جمله برگفته از پیکره فارسی اوپسالا (UPC - نسخه‌ای تغییریافته از پیکره بی‌جن‌خان) می‌باشد و بر اساس قالب conll و طرح برچسب‌زنی Stanford Typed Dependencies تهیه شده است.

D3920326a
30 خرداد 1392
3542

پیکره متنی و زیرساختی که تحت عنوان «پیکره فرقان» برای قرآن کریم تولید گردیده است، حاصل بهره‌گیری از سامانه‌ای هوشمند است که در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد، طراحی و پیاده‌سازی شده است. این پیکره با بیش از 587 مگابایت داده، حاوی کلیه اطلاعات قرآنی، آماری، متن و ترجمه فارسی و انگلیسی آیات و برچسب‌گذاری صرفی و نحوی متن عربی، فارسی و انگلیسی آیات، ریشه‌یابی کلمات آنها و بسیاری موارد دیگر در قالب RDF است و امکان استفاده و کاوش را برای هرگونه پژوهش و پردازش هوشمند ایجاد کرده است.

D3920320a
22 خرداد 1392
3222

دادگان درختی فارسی در چارچوب دستور ساخت سازه‌ای هسته‌بنیان (HPSG) مجموعه‌ای است شامل بیش از ۱۰۰۰ جمله برچسب‌خورده با اطلاعات نحوی. ازجمله ویژگی‌های دستور ساخت سازه‌ای هسته‌بنیان این است که علاوه بر ارائه توصیف ساختاری سلسله مراتبی سازه‌ها، دانش واژگانی واژه‌ها مورد استفاده قرار می‌گیرد، و روابط بین واژه‌های یک سازه به طور واضح و صریح مشخص می‌گردد.

D3920230a
2 خرداد 1392
3536

پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران (UTPECC) از دو مجموعه اخبار متفاوت از دو مبدأ مجزا یعنی اخبار فارسی خبرگزاری همشهری و اخبار انگلیسی خبرگزاری بی‌بی‌سی ساخته شده است. همچنین برای هم‌ترازی اسناد این دو زبان، علاوه بر تاریخ انتشار اخبار، شباهت محتوای اسناد نیز در نظر گرفته شده است. این پیکره در آزمایشگاه پژوهشی سیستم‌های هوشمند اطلاعات دانشگاه تهران تهیه شده است.

D3920228a
28 اردیبهشت 1392
3428

تنزیل یک پروژه بین‌المللی قرآنی است که با هدف فراهم‌سازی نسخه‌ای دقیق از قرآن کریم ایجاد شده است. در این پروژه علاوه بر ارائه نسخه رقومی دقیقی از متن قرآن، بالغ بر ۱۰۰ ترجمه از قرآن کریم برای بیش از ۴۰ زبان دنیا از جمله ۱۱ ترجمه فارسی ارائه شده است. داده‌های مربوط به متن قرآن و ترجمه‌های آن از طریق وبگاه پروژهٔ تنزیل و در قالب‌های مختلف عرضه می‌شود و می‌توان از این داده‌ها برای اهداف پردازشی و پژوهشی استفاده نمود.

D3920214a
15 اردیبهشت 1392
3538

پیکره موازی انگلیسی فارسی تهران (TEP) مجموعه‌ای است حاوی بیش از ششصدهزار جمله هم‌ترازشده انگلیسی و فارسی که از زیرنویس ۱۶۰۰ فیلم استخراج شده‌اند. این پیکره در آزمایشگاه پردازش زبان طبیعی دانشگاه تهران تهیه شده است و در ماشین‌های ترجمه و دیگر سیستم‌های پردازش زبان طبیعی کاربرد دارد.

D3920124c
26 فروردین 1392
2909

دادگان فارس‌دات تلفنی (TFarsDat)، مجموعه‌ای از عبارات و جملات است که توسط گویندگان فارسی‌زبان از مناطق مختلف کشور از طریق خط تلفن بیان شده است. این دادگان در سطح واج (آوا) با دقت میلی‌ثانیه تقطیع و برچسب‌دهی شده و بصورت فایل‌های مجزا ذخیره گردیده است. تهیه این دادگان برای کانال ارتباطی تلفن، از اهمیت ویژه­ای برخوردار است.

D3920119a
25 فروردین 1392
13609

فارس نت (وردنت عمومی زبان فارسی) پایگاه دانشی است كه حاوی اطلاعات درمورد واژه‌ها و ترکیبات زبان (مفاهیم)، اطلاعات نحوی آنها و روابط معنایی میان آنها است. نسخۀ اول فارس‌نت شامل بیش از ۱۷هزار مدخل واژگانی از مقوله‌های اسم، فعل و صفت است. روابط تحت پوشش در این نسخه روابط درون‌مقوله‌ای مطرح در وردنت انگلیسی (نسخه ۲٫۱) می‌باشد و قابلیت اتصال به وردنت‌های دیگر از طریق نگاشت به وردنت پرینستون نسخۀ ۳٫۰ را نیز داراست. نسخه دوم فارس نت شامل بیش از ۳۰ هزار مدخل واژگانی از مقوله‌های اسم، فعل، صفت و قید است. علاوه بر روابط درون-مقوله‌ای مطرح در وردنت انگلیسی (نسخه ۲٫۱)، پنج رابطه میان-مقوله‌ای نیز مفاهیم را بهم پیوند می‌دهد و علاوه بر ویژگی‌های در نظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده است. این وردنت نیز قابلیت اتصال به وردنت‌های دیگر را از طریق نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست. مجموعه فارس نت توسط آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی و با حمايت پژوهشگاه ارتباطات و فناوری اطلاعات (مركز تحقيقات مخابرات ايران) تهيه شده است.