فهرست داده‌ها
D3920117a
21 فروردین 1392
6038

مجموعه همشهری پیکره‌ای است حاوی ۳۱۸ هزار سند مربوط به اخبار سال‌های ۱۳۷۵ تا ۱۳۸۶ که با خزش (Crawl) وب‌سایت همشهری و چندین مرحله پیش‌پردازش و برچسب‌گذاری حاصل آمده است. همه اسناد مجموعه همشهری دارای برچسب «Cat» هستند که نشان می‌دهد هر سند در چه رده‌ای است (اقتصادی، سیاسی و...). نسخۀ دو پیکره همشهری توسط گروه تحقیقاتی پایگاه داده دانشگاه تهران و با حمایت مرکز تحقیقات مخابرات ایران تهیه شده است.

D3911212a
24 اسفند 1391
8394

فرهنگ ظرفیت نحوی افعال فارسی مجموعه‌ای است حاوی اطلاعات مربوط به ظرفیت نحوی بیش از ۴۵۰۰ فعل در زبان فارسی. در این فرهنگ، متمم‌های اجباری و اختیاری انواع فعل‌های ساده، مرکب، پیشوندی و عبارات فعلی مشخص شده است. فراوانی فعل‌های مرکب در زبان فارسی، نیاز به فرهنگ ظرفیت فعل را در این زبان دوچندان می‌نماید. چرا که شناخت فعل‌های مرکب چه از لحاظ انسانی و چه از لحاظ پردازشی کاری دشوار‌تر از شناخت فعل‌های ساده است و به همین خاطر فراهم آوردن فهرستی از فعل‌های زبان (که شامل فعل‌های مرکب نیز می‌شود) به همراه ساخت‌های ظرفیتی افعال، کمکی شایان برای کارهای پردازشی است. از سوی دیگر، بر اساس نظریه وابستگی، ساخت بنیادین جمله را می‌توان از روی ساخت ظرفیتی فعل جمله به دست آورد و به همین دلیل بر اهمیت دانستن ساخت‌های ظرفیتی فعل در متن‌های زبانی افزوده می‌شود.

D3911203a
5 اسفند 1391
3826

دادگان گفتاری حاضر شامل حدود ۵۸۰۰ فایل صوتی هجاهای زبان فارسی است که توسط پژوهشکده پردازش هوشمند علائم برای یک برنامه بازسازی گفتار فارسی از نوع بازسازی گفتار به شیوه همگذاری طراحی شده است. بخش اعظم هجا‌ها از صورت واجنویسی‌شده دادگان بزرگ زبان فارسی گفتاری «فارسدات بزرگ» به دست آمده است و بخش دیگر با مراجعه به شش جلد فرهنگ فارسی معین و استخراج کلمه‌های تک‌هجایی، جمع‌آوری و به فهرست هجا‌ها اضافه شده‌اند.

D3911108c
9 بهمن 1391
8025

دادگان عروض مجموعه‌ای است شامل حدود ۱۳۰۰ بیت از اشعار مولانا و حافظ به همراه کد وزن آن‌ها که می‌تواند جهت تشخیص خودکار وزن عروضی اشعار فارسی مورد استفاده قرار گیرد.

D3911108a
9 بهمن 1391
3016

به دلیل روند رو به گسترش تولید و استفاده از سیستم‌های مبتنی بر نویسه‌خوانی نوری (OCR)، اهمیت وجود بانک‌های اطلاعات تصاویر نوشتار فارسی بیش از پیش احساس می‌شود. این بانک‌های اطلاعاتی هم به منظور توسعه و آموزش الگوریتم‌های آموزش‌پذیر و هم به منظور ارزیابی سیستم‌های ساخته شده، استفاده می‌شوند. متن دست‌نویس گسسته‌‌‌ همان نوشته‌هایی است که حروف آن جدا از هم و به صورت گسسته نوشته شده‌اند، مثل نام و نام‌خانوادگی که در فرم‌های آزمون ثبت‌نام به صورت هر حرف داخل یک کادر نوشته می‌شوند. بانک اطلاعاتی حروف گسسته دست‌نویس مشتمل بر ۱۰ میلیون و ۲۳۶ هزار و ۴۰ نمونه تصویر است که حجم کل آن حدود ۱۲۰ گیگابایت می‌باشد. تصاویر موجود در این بانک در قالب BMP، با وضوح تصویر ۳۰۰ نقطه در اینچ و به‌صورت خاکستری ۲۵۶ سطحی عرضه شده‌اند.

D3911105c
7 بهمن 1391
5898

این داده نسخه رقومی کتاب «فرهنگ طیفی» با طبقه‌بندی بر اساس ارتباط معنایی ۴۵ هزار لغت و ۹۲ هزار معنی و تداعی آن لغات است. کتاب فرهنگ طیفی نخستین تزاروس طبقه‌بندی لغات و اصطلاحات رایج زبان فارسی است که به صورت طبقه‌بندی شده، ذیل ۹۹۱ مقوله اصلی و حدود ۷۵۰۰ مقوله فرعی، بر اساس ارتباط معنایی در کنار هم آورده شده است. مقولات فرعی شامل یک یا چند اسم، صفت، مصدر فعل و قیدهای مرتبط با مقوله اصلی هستند و ذیل هر مدخل، طیفی از معانی مترادف، نزدیک، مشابه و یا صرفاً مرتبط از نظر تداعی، به ترتیب سایه روشن‌های معنایی مرتب شده‌اند. این مجموعه شامل حدود ۴۵ هزار لغت و عبارت مرکب و اصطلاح و حدود ۹۲ هزار معنی و تداعی آن لغات و اصطلاحات است.

D3911105a
8 بهمن 1391
5125

واژگان زایای زبان فارسی واژگانی است شامل حدود ۵۵ هزار مدخل که هر مدخل دارای اطلاعات مربوط به صورت نوشتاری واژه در خط فارسی، ساخت واجی، مقولهٔ واژگانی، الگوی تکیه، و بسامد واژه می‌باشد. برای تهیهٔ واژگان زایا، یک پیکره متنی ۱۰ میلیون کلمه‌ای ملاک استخراج واژه‌ها قرار گرفته است. واژگان زایا از حدود ۱۰۰ هزار کلمه با بسامدهای متفاوت تشکیل شده است. بعد از حذف صورت‌های تصریفی از فهرست فوق، حدود ۴۴ هزار واژه به مفهوم علمی آن به دست آمد. در بررسی فهرست واژه‌های حاصل از پیکره متنی معلوم شد که برخی واژه‌های عامیانه و برخی واژه‌های کاملاً علمی در فهرست ۴۴ هزار مدخلی غایب هستند. برای رفع این کاستی فهرست فوق با فرهنگ فارسی امروز (صدری‌افشار، ۱۳۸۱) مقایسه شد و حدود ۱۱ هزار مدخل جدید به فهرست واژه‌ها اضافه شد و واژگان ۵۵ هزار مدخلی به دست آمد.

D3911103a
28 اسفند 1393
8644

پیکرهٔ وابستگی نحوی زبان فارسی مجموعه‌ای است شامل حدود ۳۰ هزار جملهٔ برچسب‌خورده با اطلاعات نحوی و ساخت‌واژی. این پیکره می‌تواند به عنوان زیرساختی اساسی در پردازش رایانه‌ای زبان فارسی به کار رود. مهم‌ترین دلائل استفاده از دستور وابستگی در این پیکرهٔ نحوی عبارتند از: نتایج رضایت‌بخش در یادگیری خودکار و سازگاری مناسب با طبیعت زبان‌های بی‌ترتیب همچون زبان فارسی. در نسخهٔ جدید پیکرهٔ وابستگی نحوی زبان فارسی (نسخه ۱.۱.۱) تغییراتی چون حذف جملات تکراری، یکسان‌سازی نویسه‌ها، رفع برخی خطاهای برچسب‌زنی و تغییر نسبت داده‌های آموزش، توسعه و آزمون اعمال شده است.