فهرست داده‌ها
D3951016
17 دی 1395
2131

لغتنامه احساس لِکسی پرس (LexiPers)، شامل زیر مجموعه‌ای از واژگان نسخه دوم فارس‌نت است که با روشی خودکار و با سه برچسب مثبت، منفی و خنثی برچسب‌گذاری شده‌اند. فاز اول این پروژه در حال حاضر به اتمام رسیده و طی فازهای بعدی، کیفیت برچسب‌های فعلی بهبود داده خواهد شد. هرچند، طی فاز اول، به عنوان بخشی از فرایند ابتدایی پروژه، کلیه مجموعه‌های ترادف دارای نقش صفت، تعداد ۴۲۶۱ مجموعه، به صورت دستی و با هوش انسانی تحت عنوان مجموعه دانه (seed set) برچسب‌گذاری شده‌اند. این مجموعه دانه می‌تواند به عنوان یک استاندارد طلایی (gold standard) و حتی یک مجموعه دانه اولیه برای توسعه و یا آزمودن سیستم‌های برچسب‌گذاری لغات و دسته‌بندی اسناد مورد استفاده قرار گیرد. ذکر این نکته نیز ضروری است که هر ورودی در این مجموعه، شناسه متناظر (synset id) در مجموعه فارس‌نت را نیز به همراه خود دارد، بنابراین به راحتی می‌توان مجموعه متناظر هر ورودی در این مجموعه دانه در فارس نت را یافت.

D3950319
19 خرداد 1395
2683

پیکرهٔ تشخیص خودکار جنسیت شامل دو بخش اصلی است که عبارتند از: ۱- بخش متون رسمی که با مشخص کردن جنسیت نویسندگان متون داستانی موجود در پیکرهٔ بی‌جن‌خان و داستان‌های دیگر برگرفته از اینترنت به دست آمد. برای حذف تاثیر عامل جنسیت مترجم بر روی متن اصلی اثر، تمامی داستان‌ها و رمان‌های غیرفارسی از مجموعه حذف شد. در نهایت در هر دو دسته زن و مرد تعداد مساوی ۲۵۴ داستان در مجموعه قرار داده شد. 2 - بخش متون غیررسمی. برای تهیه این بخش، از رویکرد وب برای پیکره استفاده شد. مهم‌ترین چالش، شناسایی سایتی فارسی بود که اولا محتوی متنی آن توسط خود کاربر نوشته شده باشد و ثانیا نام نویسنده هر متن نیز مشخص شده باشد. برای این منظور از نظرات کاربران در سایت «هلو کیش» استفاده شد. برای استخراج نظرات مرتبط با نظردهندگان زن و مرد، ابتدا لیستی از اسامی فارسی زن و مرد تفکیک‌شده تهیه گشت. سپس نام نویسنده نظر با این لیست اسامی تطبیق داده شد و نظرات برحسب این لیست تفکیک‌شده، در دو دسته زن و مرد قرار گرفت.

D3950208
9 اردیبهشت 1395
3616

پیکره واژگان فارسی دارای برچسب قطبیت که در آزمایشگاه سیستم‌های هوشمند اطلاعات دانشگاه تهران از دو مجموعه داده تشکیل شده است:
۱. مجموعه استخراج شده از صفت‌های برچسب خورده فارسی:
این مجموعه از روی مجموعه صفت‌های زبان فارسی استخراج شده از فارس‌نت ساخته شده است. هر ورودی در این مجموعه می‌تواند برچسب مثبت منفی و یا خنثی داشته باشد. برای این کار بیش از ۳۵۸۸ صفت استخراج و توسط چهار ارزیاب مستقل ارزیابی شده است. پس از تجمیع نظرات چهار ارزیاب سه مجموعه مثبت منفی و خنثی استخراج شده است که به ترتیب شامل ۹۶۸ ۹۶۲ ۱۵۷۲ کلمه می باشند. از بین صفت‌های ارزیابی شده تنها صفت‌هایی در مجموعه باقی مانده‌اند که یا توسط هر چهار ارزیاب برچسب یکسان گرفته‌اند و یا سه ارزیاب در مورد صفت نظر یکسان داشته‌اند و ارزیاب چهارم به این صفت برچسب مخالف نداده‌است.
۲. مجموعه صفت، فعل و اسم:
این مجموعه از روی مجموعه صفت‌ها، فعل‌ها و اسم‌های موجود در فارس‌نت استخراج شده‌اند. به هر کلمه از این مجموعه توسط یک روش مبتنی بر یادگیری ماشین نیمه ناظر یک مقدار عددی نسبت داده می‌شود. این عدد در‌واقع تعیین کننده میزان قطبیت هر کلمه است. به کلمات مثبت، عددی بزرگ‌تر از صفر و به اعداد منفی، عددی کوچکتر از صفر نسبت داده می‌شود. در این مجموعه، کلمات خنثی به صراحت تعیین نمی‌شوند و می‌توان کلمات خنثی را بر اساس یک حد آستانه بین کلمات مثبت و منفی تعیین کرد. این مجموعه شامل ۳۵۸۸ صفت ۴۰۷۳ فعل و ۷۳۲۵ اسم می باشد. قابل ذکر است که کلیه کلمات از روی نسخه ۱ فارس‌نت استخراج شده‌اند.

D3950204
4 اردیبهشت 1395
2389

پیکره چندزبانه رایانامه‌ها برای تشخیص ریسمان‌های گفتگوی چندزبانه در آزمایشگاه سیستم‌های هوشمند اطلاعات دانشگاه تهران تهیه شده است. نام این پیکره ‌«Multilingual-BC3» است که در حقیقت یک پیکرهٔ ساختگی چندزبانه است که حاصل ترجمه بخشی از پیکره تک‌زبانه BC3، توسط عامل انسانی است. پیکره اولیه BC3 به صورت تک‌زبانه و در زبان انگلیسی توسط آزمایشگاه هوش محاسباتی در دانشگاه British Columbia ساخته شده است. این پیکره، یک زیرمجموعه از پیکره W3C است که دارای برچسب‌های معنایی، نظیر حالت گفتار در سطح جمله و برچسب خلاصه‌سازی گفتگوها است. پیکرهConThread-BC3 یک نسخه از BC3 است که در آن‌، برچسب‌های نشان‌دهنده ساختار ریسمان‌های گفتگو و همچنین اطلاعات مربوط به برچسب متن اصلی و متن نقل‌قول رایانامه‌ها اضافه شده است. پیکرهٔ Multilingual-BC3، در دو نسخه تهیه شده که نسخه اول، گونه‌ای چند‌زبانه از نسخه اولیه BC3 و نسخه دوم گونه‌ای چند‌زبانه از ConThread-BC3 است. قابل ذکر است که اطلاعات برچسب‌های موجود در نسخه‌های تک‌زبانه مستقل از زبان بوده و قابل گسترش به Multilingual-BC3 خواهند بود.

D3941124a
24 بهمن 1394
2843

پیکرهٔ حاضر شامل تعداد ۸۴۰۰ جملهٔ برگرفته از پیکرهٔ متنی زبان فارسی است که در قالب استاندارد تجزیه نحوی سطحی یا همان فرمت IOB برچسب‌گذاری شده است. گروه‌های برچسب‌خورده در این پیکره به ترتیب فراوانی عبارتند از گروه اسمی، گروه حرف اضافه، گروه فعلی، گروه حرف ربط، گروه قیدی، گروه حرف اضافه پسین (را)، گروه صفتی و گروه لیست. تجزیهٔ سطحی نسبت به تجزیهٔ کامل سریع‌تر است و در پردازش زبان طبیعی کاربردهای بسیاری دارد.

D3941121a
22 بهمن 1394
2557

پیکرهٔ زبان‌آموز فارسی با عنوان PLC (برای Persian Learner Corpus) مجموعه‌ای است شامل تعداد ۱۵۰ متن نگارشی که به صورت نمونه و تصادفی از میان بایگانی انشاهای فارسی‌آموزانی که از کشورهای مختلف با سابقهٔ زبان اول مختلف (ترکی، هندی، انگلیسی، عربی، چینی و ...) بود‌ه‌اند انتخاب شده است و خطاهای زبانی در آن برچسب خورده است. کاربرد اصلی این پیکره بررسی خطاهای فارسی‌آموزان با توجه به نوع زبان اول ایشان است. داده‌های مورد نظر این پیکره از متون نگارشی فارسی‌آموزان سطوح میانی و پیشرفته از مرکز آموزش زبان فارسی المهدی، وابسته به جامعه المصطفی (ص) جمع‌آوری و تهیه شده و موضوع‌متن‌های نگارشی متفاوت و عمدتاً در راستای اهداف زبان‌آموزی ایشان یعنی یادگیری فارسی برای تحصیل علوم دینی بوده است.

D3941119a
19 بهمن 1394
11834

پیکرهٔ حاضر مجموعه‌ای است از متون مذهبی شامل قرآن، انجیل، رساله‌های عملیه، سایر کتب مذهبی، وبگاه‌های مذهبی و ... به دو زبان فارسی و انگلیسی که در سطح جمله موازی‌سازی شده‌اند. حجم پیکره حدود ۲۰ میلیون واژه برای هر زبان است.

D3941117a
17 بهمن 1394
2576

پیکرهٔ فارسی روز پیکره‌ای خام، یک‌زبانه و پیوسته، شامل ۱۲۷ متن فارسی است که تمام آن‌ها بین سال‌های ۱۳۸۰ تا ۱۳۹۲ نوشته شده‌اند و اغلب از میان داستان‌های کوتاه و رمان‌ها انتخاب شده‌اند. این پیکره برای تألیف اثری با عنوان «فرهنگ فارسی روز» گردآوری شده و برای استفاده از آن نرم‌افزاری ویژهٔ فرهنگ‌نویسی با عنوان پِرلِکس (Perlex) طراحی و آماده شده است. تعداد کل واژ‌های موجود در پیکرهٔ فارسی روز ۴.۲۷۴.۳۶۰ واژه است و ۱۴۴.۲۱۰ واژهٔ بدون تکرار در آن وجود دارد.

D3941111a
11 بهمن 1394
2473

واژگان زایای زبان کردی سورانی به صورت نیمه‌خودکار استخراج شده است و شامل حدود ۳۵ هزار مدخل با ۲۸ برچسب مقولهٔ واژگانی است. واژگان به مجموعهٔ واژه‌های درون ذهن گویشوران اطلاق می‌گردد که یکی از منابع مهم در تولید و ساخت فناوری‌های پردازش زبان طبیعی مانند بازشناسی خودکار گفتار، تبدیل رایانه‌ای متن به گفتار، ترجمهٔ ماشینی و ... است.

D3941015a
16 دی 1394
2615

بازیابی اطلاعات وب (Web Information Retrieval) یک زمینه تحقیقاتی است که در آن از فنون حوزه بازیابی اطلاعات برای برطرف‌سازی یک نیاز اطلاعاتی در محیط وب استفاده می‌شود. در این نوع بازیابی علاوه بر متون می‌توان از اطلاعات موجود در فرا‌داده (Meta Data) و ساختار پیوندی اسناد نیز استفاده نمود. در جهت پیشبرد تحقیقات در این زمینه و مخصوصاً برای ارزیابی اصولی سامانه‌هایی که در این حوزه کار می‌کنند نیاز به مجموعه‌ آزمایشی (Test Collection) است که علاوه بر متن ساختار پیوندی مشابه وب داشته باشد. در همین راستا، مجموعه آزمايش dotIR با خزش (Crawl) وب در حوزه ir. در گروه تحقیقاتی پایگاه داده دانشگاه تهران تهیه شد. اجزاء این مجموعه شامل یک پیکرهٔ استاندارد یک میلیون سندی، مجموعهٔ ۵۰ پرس و جوی استاندارد، بیش از ۱۸ هزار داوری ارتباط پرس و جوها به اسناد پیکره و ۵۰ هزار بردار ویژگی استخراج‌شده از اسناد است.