پیکره وابستگی نحوی زبان فارسی

آخرین نسخه: ۱.۱.۱

تاریخ عرضه: اسفند ۱۳۹۳ (عرضه نسخه ۱.۰: مرداد ۱۳۹۱)

حجم فایل: ۱۰.۵ مگابایت

پیکره وابستگی نحوی زبان فارسی
پیکره وابستگی نحوی زبان فارسی مجموعه‎ای است شامل حدود ۳۰ هزار جمله برچسب خورده با اطلاعات نحوی و ساخت‌واژی. این پیکره که نخستین پیکره وابستگی زبان فارسی است می‌تواند به عنوان زیرساختی اساسی در پردازش رایانه‌ای زبان فارسی به کار رود. همچنین اطلاعات موجود در این پیکره می‌تواند در پژوهش‌های زبان‌شناختی و آموزش و یادگیری زبان فارسی مورد استفاده قرار گیرد.
 

معرفی

یکی از نیازهای اساسی در پردازش رایانه‌ای زبان و فهم خودکار محتوا و معنا، تحلیل نحوی جملات است. چنین تحلیلی علاوه بر آنکه به خودی خود یاری‌گر رایانه در شناخت مفهوم است، پیش‌پردازشی برای تحلیل معنایی زبان نیز تلقی می‌شود.

 

گروه پژوهشی دادگان به منظور پاسخگویی به این نیاز در زبان فارسی، نخستین پیکره نحوی زبان فارسی را بر مبنای دستور وابستگی تهیه و عرضه نموده است. مهم‌ترین دلائل استفاده از دستور وابستگی در این پیکره نحوی عبارتند از: نتایج رضایت‌بخش در یادگیری خودکار و سازگاری مناسب با طبیعت زبان‌های بی‌ترتیب همچون زبان فارسی («من در مدرسه کتاب را به علی دادم»، «من در مدرسه به علی کتاب را دادم»، «من به علی در مدرسه کتاب را دادم»، «من کتاب را به علی در مدرسه دادم»).

 

متخصصان پردازش رایانه‌ای زبان می‌توانند با استفاده از این پیکره و بهره‌گیری از رویکردهای آماری و مبتنی بر هوش مصنوعی، تجزیه نحوی را در کاربردهای مختلف پردازش زبان فارسی به کار گیرند. بعلاوه، این پیکره اطلاعات ارزشمندی را در اختیار زبان‌شناسان و همچنین پژوهشگران حوزهٔ آموزش و یادگیری زبان فارسی قرار می‌دهد.

 

ویژگی‌ها

  • جملات پیکره برگرفته از منابع مختلفی از متون فارسی معاصر هستند.
  • تمامی جملات دارای برچسب روابط نحوی (بر مبنای دستور وابستگی) از قبیل فاعل، مفعول، مسند، مضاف‌الیه، بدل ... هستند.
  • تمامی جملات دارای برچسب اطلاعات ساخت‌واژی (برچسب اجزای سخن - POS) از قبیل فعل، اسم، صفت، قید، ضمیر ... هستند.
  • جملات توسط تیمی از زبان‌شناسان مجرب برچسب خورده‌اند و در چند مرحله بازبینی شده‌اند.
  • داده‌های پیکره بر اساس قالب همایش زبان‌شناسی رایانه‌ای و پردازش زبان طبیعی بر روی پیکره‌های وابستگی فراهم آمده است.
  • داده‌های پیکره به صورت تصادفی به داده‌های یادگیری (۸۰%)، آزمون (۱۰%) و ارزیابی (۱۰%) تقسیم شده است.

 

برخی آمار مربوط به پیکره:

 

  • تعداد کل جملات: ۲۹٫۹۸۲
  • تعداد کل واژه‌ها: ۴۹۸٫۰۸۱
  • تعداد واژه‌های منحصر به فرد: ۳۷٫۶۱۸
  • میانگین طول هر جمله: ۶۱/۱۶
  • تعداد افعال منحصر به فرد: ۴٫۷۸۲
  • میانگین حضور هر فعل: ۶۷/۱۲

نمونه جمله برچسب‌خورده

 

  • روابط وابستگی
  • اطلاعات ساخت‌واژی

 

مستندات

  •  Mohammad Sadegh Rasooli, Manouchehr Kouhestani, and Amirsaeid Moloodi. (2013). Development of a Persian Syntactic Dependency Treebank. In The 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT), Atlanta, USA. (دریافت)

  •  محمدصادق رسولی، منوچهر کوهستانی، و امیرسعید مولودی. (۱۳۹۳). پیکره نحوی زبان فارسی: پژوهشی بر اساس دستور وابستگی. تهران: دبیرخانهٔ شورای عالی اطلاع‌رسانی. (دریافت) ISBN/شابک:9789648846379

  • گزارش نهایی و راهنمای پیکره وابستگی نحوی زبان فارسی - فارسی / انگلیسی
  • دادگان زبان فارسی بر اساس دستور وابستگی - ارائه‌شده در گروه پردازش زبان طبیعی مرکز سامانه‌های یادگیری رایانه‌ای دانشگاه کلمبیا نیویورک (نوامبر ۲۰۱۲)
  • شرح کار پروژه دادگان وابستگی زبان فارسی - ارائه‌شده در سمینار معرفی پروژه در دانشگاه صنعتی شریف (۱۳ اردیبهشت ۱۳۹۱)
  • کارکرد پروژه دادگان و پردازش متون زبانی - مصاحبه روزنامه تهران امروز با مدیر پروژه (۱۶ بهمن ۱۳۹۰)
  • پیکره متنی بر اساس دستور وابستگی، راه‌کارها و چالش‌ها


  • تجزیه وابستگی - ارائه‌شده در کلاس پردازش زبان‌های طبیعی دانشکده مهندسی برق و کامپیوتر دانشگاه تهران (۱۷ اردیبهشت ۱۳۹۱)
  • تجزیه وابستگی - خلاصه‌ای از کتاب تجزیه وابستگی (۲۰۰۹) و مقالات موجود در مورد تجزیه وابستگی
  • معرفی منابع مفید در مورد تجزیه وابستگی

  • دستور وابستگی و زبان فارسی
  • پیکره و زبان‌شناسی پیکره‌‌ای
  • پیکرۀ وب

سرپرستی پروژه و پژوهش زبان‌شناسی رایانه‌ای

  • محمدصادق رسولی، کارشناسی ارشد هوش مصنوعی، دانشگاه علم و صنعت ایران

پژوهش و آموزش زبان‌شناسی

  • منوچهر کوهستانی، دانشجوی دکتری زبان‌شناسی، دانشگاه تربیت مدرس
  • امیرسعید مولودی، دانشجوی دکتری زبان‌شناسی، دانشگاه تهران

برچسب‌زنی زبان‌شناختی

  • سحر اولی‌پور، کارشناس ارشد زبان‌شناسی، دانشگاه تهران
  • فرزانه بختیاری، دانشجوی کارشناسی ارشد زبان‌شناسی، دانشگاه تهران
  • ندا پورمرتضی خامنه، کارشناس ارشد زبان و ادبیات فارسی، دانشگاه آزاد اسلامی
  • پریناز دادرس، دانشجوی کارشناسی ارشد زبان‌شناسی، دانشگاه تهران
  • سوده رسالت‌پو، کارشناسی ارشد زبان‌شناسی، دانشگاه آزاد اسلامی علوم و تحقیقات
  • مرتضی رضائی، دانشجوی کارشناسی ارشد زبان‌شناسی رایانشی، دانشگاه صنعتی شریف
  • سلیمه زمانی، کارشناس ارشد زبان‌شناسی، دانشگاه آزاد اسلامی علوم و تحقیقات
  • فاطمه شفیعی، کارشناس ارشد زبان‌شناسی، دانشگاه تهران
  • مریم فعال همدانچی، دکترای زبان‌شناسی، دانشگاه دوستی ملل روسیه
  • سعیده قدردوست نخچی، کارشناسی ارشد زبان‌شناسی، دانشگاه تهران
  • مصطفی مهدوی، دانشجوی دکتری زبان‌شناسی، پژوهشگاه علوم انسانی و مطالعات فرهنگی
  • آزاده میرزائی، دانشجوی دکتری زبان‌شناسی، دانشگاه علامه طباطبایی

برنامه‌نویسی

  • سید مهدی حسینی، کارشناسی ارشد هوش مصنوعی، دانشگاه علم و صنعت ایران
  • یاسر سوری، دانشجوی کارشناسی ارشد هوش مصنوعی، دانشگاه صنعتی شریف
  • علیرضا نوریان، دانشجوی کارشناسی ارشد هوش مصنوعی، دانشگاه علم و صنعت ایران

 

ابزار مرتبط

 

این سامانه هم‌اکنون امکان جستجوی برخط در پیکره وابستگی نحوی زبان فارسی و فرهنگ ظرفیت نحوی افعال فارسی را فراهم می‌کند و می‌تواند به عنوان منبعی برای مطالعات زبان‌شناختی و ابزاری برای آموزش زبان فارسی به کار رود. همچنین علاقه‌مندان به استفاده از داده‌های گروه پژوهشی دادگان برای اهداف پردازشی نیز می‌توانند با استفاده از این سامانه درک بهتری از انواع اطلاعات و روابط موجود در داده‌ها داشته باشند.

 

این تجزیه‌گر مبتنی بر گراف که تبدیلی از برنامه MST Parser به زبان برنامه‌نویسی سی‌شارپ است، می‌تواند با یادگیری روابط وابستگی از پیکره وابستگی نحوی زبان فارسی، جملات جدید را تجزیه و روابط وابستگی را در آن‌ها مشخص نماید.

در پروژه پیکره وابستگی زبان فارسی، جملات قبل از آنکه توسط زبان‌شناسان برچسب‌زنی شوند، توسط این تجزیه‌گر تحلیل می‌شدند و زبان‌شناسان اشتباهات موجود را اصلاح می‌کردند.

 

از آنجایی که کاراکتر فاصله در قالب CONLL مجاز نیست، این کد ساده که به زبان برنامه‌نویسی پایتون نوشته شده است افعالی مانند «گفته می‌شود» را به «گفته_می‌شود» تبدیل می‌کند.