فهرست داده‌ها
D3920214a
15 اردیبهشت 1392
3682

پیکره موازی انگلیسی فارسی تهران (TEP) مجموعه‌ای است حاوی بیش از ششصدهزار جمله هم‌ترازشده انگلیسی و فارسی که از زیرنویس ۱۶۰۰ فیلم استخراج شده‌اند. این پیکره در آزمایشگاه پردازش زبان طبیعی دانشگاه تهران تهیه شده است و در ماشین‌های ترجمه و دیگر سیستم‌های پردازش زبان طبیعی کاربرد دارد.

D3920124c
26 فروردین 1392
2994

دادگان فارس‌دات تلفنی (TFarsDat)، مجموعه‌ای از عبارات و جملات است که توسط گویندگان فارسی‌زبان از مناطق مختلف کشور از طریق خط تلفن بیان شده است. این دادگان در سطح واج (آوا) با دقت میلی‌ثانیه تقطیع و برچسب‌دهی شده و بصورت فایل‌های مجزا ذخیره گردیده است. تهیه این دادگان برای کانال ارتباطی تلفن، از اهمیت ویژه­ای برخوردار است.

D3920124a
26 فروردین 1392
4622

دادگان فارس‌دات (FarsDat)، مجموعه‌ای از عبارات و جملات است که توسط گویندگان فارسی‌زبان از مناطق مختلف کشور بیان شده است. این دادگان در سطح واج (آوا) با دقت میلی‌ثانیه تقطیع و برچسب‌دهی شده و بصورت فایل‌های مجزا ذخیره گردیده است. این دادگان، به عنوان دادگان استاندارد گفتاری زبان فارسی در داخل و خارج کشور شناخته شده و برای آموزش سیستم‌های هوشمند تشخیص گفتار استفاده می‌شود. 

D3920121a
24 فروردین 1392
7247

پیکره متنی زبان فارسی، مجموعه‌ای از متون نوشتاری و گفتاری زبان فارسی به صورت رسمی است که از منابع واقعی همچون روزنامه‌ها، سایت‌ها و مستنداتِ از قبل تایپ شده، جمع‌آوری شده، تصحیح گردیده و برچسب خورده است. حجم این دادگان حدوداً ۱۰۰ میلیون کلمه است و از منابع مختلف تهیه گردیده و دارای تنوعات بسیار زیادی است. ۱۰ میلیون کلمه از این پیکره با استفاده از ۸۸۲ برچسب نحوی-معنایی به صورت دستی توسط دانشجویان رشته زبان‌شناسی برچسب‌دهی شده‌اند و هر پرونده بر حسب موضوع و منبع آن طبقه‌بندی شده است. این پیکره که توسط پژوهشکده پردازش هوشمند علائم تهیه شده است، برای استفاده در تعلیم مدل زبانی و سایر پروژه‌های مربوط به پردازش زبان طبیعی مناسب است.

D3920119a
26 فروردین 1392
13921

فارس نت (وردنت عمومی زبان فارسی) پایگاه دانشی است كه حاوی اطلاعات درمورد واژه‌ها و ترکیبات زبان (مفاهیم)، اطلاعات نحوی آنها و روابط معنایی میان آنها است. نسخۀ اول فارس‌نت شامل بیش از ۱۷هزار مدخل واژگانی از مقوله‌های اسم، فعل و صفت است. روابط تحت پوشش در این نسخه روابط درون‌مقوله‌ای مطرح در وردنت انگلیسی (نسخه ۲٫۱) می‌باشد و قابلیت اتصال به وردنت‌های دیگر از طریق نگاشت به وردنت پرینستون نسخۀ ۳٫۰ را نیز داراست. نسخه دوم فارس نت شامل بیش از ۳۰ هزار مدخل واژگانی از مقوله‌های اسم، فعل، صفت و قید است. علاوه بر روابط درون-مقوله‌ای مطرح در وردنت انگلیسی (نسخه ۲٫۱)، پنج رابطه میان-مقوله‌ای نیز مفاهیم را بهم پیوند می‌دهد و علاوه بر ویژگی‌های در نظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده است. این وردنت نیز قابلیت اتصال به وردنت‌های دیگر را از طریق نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست. مجموعه فارس نت توسط آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی و با حمايت پژوهشگاه ارتباطات و فناوری اطلاعات (مركز تحقيقات مخابرات ايران) تهيه شده است.

D3920117a
21 فروردین 1392
6369

مجموعه همشهری پیکره‌ای است حاوی ۳۱۸ هزار سند مربوط به اخبار سال‌های ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وب‌سایت همشهری و چندین مرحله پیش‌پردازش و برچسب‌گذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان می‌دهد هر سند در چه رده‌ای است (اقتصادی، سیاسی و...). نسخۀ دو پیکره همشهری توسط گروه تحقیقاتی پایگاه داده دانشگاه تهران و با حمایت مرکز تحقیقات مخابرات ایران تهیه شده است.

D3911212a
24 اسفند 1391
8723

فرهنگ ظرفیت نحوی افعال فارسی مجموعه‌ای است حاوی اطلاعات مربوط به ظرفیت نحوی بیش از ۴۵۰۰ فعل در زبان فارسی. در این فرهنگ، متمم‌های اجباری و اختیاری انواع فعل‌های ساده، مرکب، پیشوندی و عبارات فعلی مشخص شده است. فراوانی فعل‌های مرکب در زبان فارسی، نیاز به فرهنگ ظرفیت فعل را در این زبان دوچندان می‌نماید. چرا که شناخت فعل‌های مرکب چه از لحاظ انسانی و چه از لحاظ پردازشی کاری دشوار‌تر از شناخت فعل‌های ساده است و به همین خاطر فراهم آوردن فهرستی از فعل‌های زبان (که شامل فعل‌های مرکب نیز می‌شود) به همراه ساخت‌های ظرفیتی افعال، کمکی شایان برای کارهای پردازشی است. از سوی دیگر، بر اساس نظریه وابستگی، ساخت بنیادین جمله را می‌توان از روی ساخت ظرفیتی فعل جمله به دست آورد و به همین دلیل بر اهمیت دانستن ساخت‌های ظرفیتی فعل در متن‌های زبانی افزوده می‌شود.

D3911203c
4 اسفند 1391
3847
داده حاضر نسخه رقومی فرهنگ املايى خطّ فارسى براساس دستور خطّ فارسی مصوّب فرهنگستان زبان و ادب فارسی است. ازآنجاكه به‌خاطر سپردن تمام قواعدى كه در دستور خطّ فارسى مصوّب فرهنگستان زبان و ادب فارسى آمده براى همگان امكان‌پذير نيست، و ازسوى‌ديگر، عموم نويسندگان، اعم از محققان، نثرنويسان، شاعران، ويراستاران، روزنامه‌نگاران، منشيان و غيره، هنگام نوشتن كلمات مركّب و مشتق و بعضى كلمات دواملايى يا سه‌املايى ديگر دچار ترديد می‌شوند، فرهنگستان راه چاره را در آن ديد كه دست به انتشار يک فرهنگ املايى مبتنى بر قواعد دستور خطّ فارسى بزند و املاى كلماتى را كه در اين دستور به‌عهده سليقه و ذوق نويسندگان گذاشته‌بود، تاآنجاكه امكان دارد، بيشتر قاعده‌مند سازد، يا شيوه مرجّح خود را ـ در مواردی که کلمه دواملایی است ـ در آن بگنجاند. ازاين‌رو، مقرر شد که گروه دستور زبان فارسى مجموعه‌ای از كلمات رايج فارسى امروز را با قواعد دستور خطّ فارسى منطبق و منتشر کند.
D3911203a
5 اسفند 1391
3942

دادگان گفتاری حاضر شامل حدود ۵۸۰۰ فایل صوتی هجاهای زبان فارسی است که توسط پژوهشکده پردازش هوشمند علائم برای یک برنامه بازسازی گفتار فارسی از نوع بازسازی گفتار به شیوه همگذاری طراحی شده است. بخش اعظم هجا‌ها از صورت واجنویسی‌شده دادگان بزرگ زبان فارسی گفتاری «فارسدات بزرگ» به دست آمده است و بخش دیگر با مراجعه به شش جلد فرهنگ فارسی معین و استخراج کلمه‌های تک‌هجایی، جمع‌آوری و به فهرست هجا‌ها اضافه شده‌اند.

D3911124a
27 بهمن 1391
51795

این داده نسخه رقومی فرهنگ جامع واژگان مترادف و متضاد زبان فارسی (تألیف فرج‌الله خداپرستی) است که متشکل از ۱۵۰۰۰ مدخل، ۲۷۴۰۰ حوزه معنایی و ۱۳۵۰۰۰ واژه می‌باشد. نحوه تنظیم لغات الفبایی بوده و در برابر هر واژه ابتدا مترادفات آن و سپس واژگان متضاد آمده است.