فهرست داده‌ها
D3911108c
9 بهمن 1391
7387

دادگان عروض مجموعه‌ای است شامل حدود ۱۳۰۰ بیت از اشعار مولانا و حافظ به همراه کد وزن آن‌ها که می‌تواند جهت تشخیص خودکار وزن عروضی اشعار فارسی مورد استفاده قرار گیرد.

D3911108a
9 بهمن 1391
2423

به دلیل روند رو به گسترش تولید و استفاده از سیستم‌های مبتنی بر نویسه‌خوانی نوری (OCR)، اهمیت وجود بانک‌های اطلاعات تصاویر نوشتار فارسی بیش از پیش احساس می‌شود. این بانک‌های اطلاعاتی هم به منظور توسعه و آموزش الگوریتم‌های آموزش‌پذیر و هم به منظور ارزیابی سیستم‌های ساخته شده، استفاده می‌شوند. متن دست‌نویس گسسته‌‌‌ همان نوشته‌هایی است که حروف آن جدا از هم و به صورت گسسته نوشته شده‌اند، مثل نام و نام‌خانوادگی که در فرم‌های آزمون ثبت‌نام به صورت هر حرف داخل یک کادر نوشته می‌شوند. بانک اطلاعاتی حروف گسسته دست‌نویس مشتمل بر ۱۰ میلیون و ۲۳۶ هزار و ۴۰ نمونه تصویر است که حجم کل آن حدود ۱۲۰ گیگابایت می‌باشد. تصاویر موجود در این بانک در قالب BMP، با وضوح تصویر ۳۰۰ نقطه در اینچ و به‌صورت خاکستری ۲۵۶ سطحی عرضه شده‌اند.

D3911105c
7 بهمن 1391
3902

این داده نسخه رقومی کتاب «فرهنگ طیفی» با طبقه‌بندی بر اساس ارتباط معنایی ۴۵ هزار لغت و ۹۲ هزار معنی و تداعی آن لغات است. کتاب فرهنگ طیفی نخستین تزاروس طبقه‌بندی لغات و اصطلاحات رایج زبان فارسی است که به صورت طبقه‌بندی شده، ذیل ۹۹۱ مقوله اصلی و حدود ۷۵۰۰ مقوله فرعی، بر اساس ارتباط معنایی در کنار هم آورده شده است. مقولات فرعی شامل یک یا چند اسم، صفت، مصدر فعل و قیدهای مرتبط با مقوله اصلی هستند و ذیل هر مدخل، طیفی از معانی مترادف، نزدیک، مشابه و یا صرفاً مرتبط از نظر تداعی، به ترتیب سایه روشن‌های معنایی مرتب شده‌اند. این مجموعه شامل حدود ۴۵ هزار لغت و عبارت مرکب و اصطلاح و حدود ۹۲ هزار معنی و تداعی آن لغات و اصطلاحات است.

D3911105a
7 بهمن 1391
4081

واژگان زایای زبان فارسی واژگانی است شامل حدود ۵۵هزار مدخل که هر مدخل دارای اطلاعات مربوط به صورت نوشتاری واژه در خط فارسی، ساخت واجی، مقولهٔ واژگانی، الگوی تکیه، و بسامد واژه می‌باشد. برای تهیهٔ واژگان زایا، یک پیکره متنی ۱۰میلیون کلمه‌ای ملاک استخراج واژه‌ها قرار گرفته است. این پیکره از حدود ۱۰۰هزار کلمه با بسامدهای متفاوت تشکیل شده است. بعد از حذف صورت‌های تصریفی از فهرست فوق، حدود ۴۴هزار واژه به مفهوم علمی آن به دست آمد. در بررسی فهرست واژه‎های حاصل از پیکره متنی معلوم شد که برخی واژه‌های عامیانه و برخی واژه‌های کاملاً علمی در فهرست ۴۴هزار مدخلی غایب هستند. برای رفع این کاستی فهرست فوق با فرهنگ فارسی امروز (صدری‌افشار، ۱۳۸۱) مقایسه شد و حدود ۱۱هزار مدخل جدید به فهرست واژه‌ها اضافه شد و واژگان ۵۵هزار مدخلی به دست آمد.

D3911103a
27 اسفند 1393
6983

پیکره وابستگی نحوی زبان فارسی مجموعه‎ای است شامل حدود ۳۰ هزار جمله برچسب‌خورده با اطلاعات نحوی و ساخت‌واژی. این پیکره می‌تواند به عنوان زیرساختی اساسی در پردازش رایانه‌ای زبان فارسی به کار رود. مهم‌ترین دلائل استفاده از دستور وابستگی در این پیکره نحوی عبارتند از: نتایج رضایت‌بخش در یادگیری خودکار و سازگاری مناسب با طبیعت زبان‌های بی‌ترتیب همچون زبان فارسی. در نسخه جدید پیکره وابستگی نحوی زبان فارسی (نسخه ۱.۱.۱) تغییراتی چون حذف جملات تکراری، یکسان‌سازی نویسه‌ها، رفع برخی خطاهای برچسب‌زنی و تغییر نسبت داده‌های آموزش، توسعه و آزمون اعمال شده است.