فهرست داده‌ها
D3951016
17 دی 1395
3828

لغتنامه احساس لِکسی پرس (LexiPers)، شامل زیر مجموعه‌ای از واژگان نسخه دوم فارس‌نت است که با روشی خودکار و با سه برچسب مثبت، منفی و خنثی برچسب‌گذاری شده‌اند. فاز اول این پروژه در حال حاضر به اتمام رسیده و طی فازهای بعدی، کیفیت برچسب‌های فعلی بهبود داده خواهد شد. هرچند، طی فاز اول، به عنوان بخشی از فرایند ابتدایی پروژه، کلیه مجموعه‌های ترادف دارای نقش صفت، تعداد ۴۲۶۱ مجموعه، به صورت دستی و با هوش انسانی تحت عنوان مجموعه دانه (seed set) برچسب‌گذاری شده‌اند. این مجموعه دانه می‌تواند به عنوان یک استاندارد طلایی (gold standard) و حتی یک مجموعه دانه اولیه برای توسعه و یا آزمودن سیستم‌های برچسب‌گذاری لغات و دسته‌بندی اسناد مورد استفاده قرار گیرد. ذکر این نکته نیز ضروری است که هر ورودی در این مجموعه، شناسه متناظر (synset id) در مجموعه فارس‌نت را نیز به همراه خود دارد، بنابراین به راحتی می‌توان مجموعه متناظر هر ورودی در این مجموعه دانه در فارس نت را یافت.

D3950208
9 اردیبهشت 1395
5053

پیکره واژگان فارسی دارای برچسب قطبیت که در آزمایشگاه سیستم‌های هوشمند اطلاعات دانشگاه تهران از دو مجموعه داده تشکیل شده است:
۱. مجموعه استخراج شده از صفت‌های برچسب خورده فارسی:
این مجموعه از روی مجموعه صفت‌های زبان فارسی استخراج شده از فارس‌نت ساخته شده است. هر ورودی در این مجموعه می‌تواند برچسب مثبت منفی و یا خنثی داشته باشد. برای این کار بیش از ۳۵۸۸ صفت استخراج و توسط چهار ارزیاب مستقل ارزیابی شده است. پس از تجمیع نظرات چهار ارزیاب سه مجموعه مثبت منفی و خنثی استخراج شده است که به ترتیب شامل ۹۶۸ ۹۶۲ ۱۵۷۲ کلمه می باشند. از بین صفت‌های ارزیابی شده تنها صفت‌هایی در مجموعه باقی مانده‌اند که یا توسط هر چهار ارزیاب برچسب یکسان گرفته‌اند و یا سه ارزیاب در مورد صفت نظر یکسان داشته‌اند و ارزیاب چهارم به این صفت برچسب مخالف نداده‌است.
۲. مجموعه صفت، فعل و اسم:
این مجموعه از روی مجموعه صفت‌ها، فعل‌ها و اسم‌های موجود در فارس‌نت استخراج شده‌اند. به هر کلمه از این مجموعه توسط یک روش مبتنی بر یادگیری ماشین نیمه ناظر یک مقدار عددی نسبت داده می‌شود. این عدد در‌واقع تعیین کننده میزان قطبیت هر کلمه است. به کلمات مثبت، عددی بزرگ‌تر از صفر و به اعداد منفی، عددی کوچکتر از صفر نسبت داده می‌شود. در این مجموعه، کلمات خنثی به صراحت تعیین نمی‌شوند و می‌توان کلمات خنثی را بر اساس یک حد آستانه بین کلمات مثبت و منفی تعیین کرد. این مجموعه شامل ۳۵۸۸ صفت ۴۰۷۳ فعل و ۷۳۲۵ اسم می باشد. قابل ذکر است که کلیه کلمات از روی نسخه ۱ فارس‌نت استخراج شده‌اند.

D3941119a
19 بهمن 1394
12894

پیکرهٔ حاضر مجموعه‌ای است از متون مذهبی شامل قرآن، انجیل، رساله‌های عملیه، سایر کتب مذهبی، وبگاه‌های مذهبی و ... به دو زبان فارسی و انگلیسی که در سطح جمله موازی‌سازی شده‌اند. حجم پیکره حدود ۲۰ میلیون واژه برای هر زبان است.

D3941111a
11 بهمن 1394
3603

واژگان زایای زبان کردی سورانی به صورت نیمه‌خودکار استخراج شده است و شامل حدود ۳۵ هزار مدخل با ۲۸ برچسب مقولهٔ واژگانی است. واژگان به مجموعهٔ واژه‌های درون ذهن گویشوران اطلاق می‌گردد که یکی از منابع مهم در تولید و ساخت فناوری‌های پردازش زبان طبیعی مانند بازشناسی خودکار گفتار، تبدیل رایانه‌ای متن به گفتار، ترجمهٔ ماشینی و ... است.

D3940917a
18 آذر 1394
2708

تشخیص واحدهای اسمی (یا تشخیص موجودیت‌های نامدار) یکی از موضوعات پردازش زبان طبیعی است که نیاز به پیکره دارد. پیکرهٔ واحدهای اسمی آرمان که توسط شرکت آرمان رایان شریف تولید شده است شامل ۴۰۰ هزار کلمه (۴۹۱۷ جمله برگرفته از پیکرهٔ بی‌جن‌خان) است و سه ردهٔ شخص (مثال: سید علی قاضی)، مکان (مثال: پارک آب و آتش) و سازمان (مثال: مجلس شورای اسلامی) در آن برچسب خورده است (با فرمت IOB). لازم به ذکر است که این پیکره واحدهای اسمی فارسی در حال توسعه به ۴ میلیون کلمه است و نسخهٔ جدید دارای برچسب‌های مربوط به ۶ رده (مکان، سازمان، شخص، محصول، امکانات و رویداد) خواهد بود.

D3940825a
25 آبان 1394
2442

«فااسپل» متشکل از دو ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺑﺮﺍی ﺍﺭﺯﯾﺎﺑﯽ ﺭوﺵ‌های خطایابی املایی است. گروه اول شامل خطاهای معمول است که از دانش‌آموزان مدارس و همچنین خطاهای املایی در هنگام تایپ فارسی جمع‌آوری شده‌اند. این گروه شامل ۵۵۰۰ خطا و کلمهٔ تصحیح‌شده است. گروه دوم شامل ۸۰۰ جفت کلمه با خطای املایی و نوشتار صحیح آن است که از خروجی یک سیستم نویسه‌خوان نوری (OCR) جمع‌آوری شده است.

D3940531a
2 شهریور 1394
2587

پیکره حاضر که با هدف ارزیابی سامانه‌های تقلب‌یاب تهیه شده است مشتمل بر بیش از ۱۵۰۰ سند فارسی از ویکیپدیا است که ۴۱۱ نمونه تقلب در آن‌ها گنجانده شده است. در قسمت‌های حاوی تقلب فرایندهایی چون جابجایی کلمات، حذف و اضافه نمودن کلمات و جایگزین نمودن کلمات با کلمات هم‌معنا اعمال شده است.

D3940423a
27 تیر 1394
4297

پیکره سِنتی‌پِرس شامل مجموعه‌ای از جملات فارسی با برچسب‌های حاوی بار معنایی است که در پردازش زبان طبیعی و به طور مشخص در زمینه تحلیل احساس یا عقیده‌کاوی کاربرد دارد. با توجه به ویژگی‌های این پیکره، می‌توان آن را در نوع خود اولین پیکره تحلیل احساس برای زبان فارسی با چنین مشخصاتی به شمار آورد. گفتنی است که دامنه جملات موجود در پیکره مربوط به حوزه کالاهای دیجیتال است. همچنین این پیکره شامل جملاتی، هم به صورت رسمی و هم به صورت نوشتاری عامیانه یا غیررسمی است.

D3940406a
6 تیر 1394
2652

پیکره پی.سی.ای.سی ۲۰۰۸ (PCAC-2008 Persian Coreferentially Annotated Corpus) مجموعه‌ای است شامل ۳۱ متن برگرفته از پیکره بی‌جن‌خان که در آن نزدیک‌ترین مرجع اسمی ۲۰۷۹ ضمیر مشخص شده است. دسترسی به اطلاعات مربوط به مرجع ضمیر در بسیاری از کاربردهای پردازش زبان طبیعی چون ترجمه ماشینی، پرسش و پاسخ خودکار و خلاصه‌سازی خودکار دارای اهمیت است.

D3940317a
17 خرداد 1394
3181

وردنت فارسی حوزه فاوا مجموعه‌ای است شامل بیش از ۳۰.۰۰۰ مدخل واژگانی در حوزه تخصصی فاوا از مقوله‌های اسم، فعل، صفت و قید. در این وردنت علاوه بر روابط درون-مقوله‌ای، روابط میان-مقوله‌ای نیز مفاهیم را بهم پیوند می‌دهد و علاوه بر ویژگی‌های در نظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده است. این وردنت قابلیت اتصال به وردنت‌های دیگر را از طریق نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست. وردنت فارسی حوزه فاوا با همكاری پژوهشگاه ارتباطات و فناوری اطلاعات و دانشگاه بوعلی‌سینای همدان تهیه شده است.