Skip to content

Latest commit

 

History

History
57 lines (37 loc) · 4.32 KB

rasooli_proposals.md

File metadata and controls

57 lines (37 loc) · 4.32 KB
  به نام خدا

پیشنهادهای مرتبط با پردازش زبان طبیعی و یادگیری خودکار

برچسب‌زنی اجزای سخن با مدل پنهان مارکوف و پرسپترون ساخت‌یافته

‫ پیاده‌سازی کامل مقالهٔ کالینز ۲۰۰۲ بر روی پیکرهٔ دادگان.

پیوند مقاله

  • موارد زیر باید گزارش شود*

    • ‫ دقت پرسپترون معمولی بر روی بخش validation یا توسعهٔ پیکره
    • ‫ عملکرد averaged perceptron بر روی بخش توسعهٔ‌ پیکره
    • ‫ عملکرد averaged perceptron روی بخش آزمون یا test پیکره
    • ‫ تکرار گردش تکرار هر کدام از دو روش تا همگرا شدن

پیش‌نیاز برای پیاده‌سازی

*‌ ‫ تسلط بر مفهوم یادگیری برخط و الگوریتم پرسپترون

*‌ ‫ تسلط بر مفهوم برنامه‌سازی پویا (Dyanamic programming))

  • ‫ تسلط بر HMM

برچسب‌زنی بی‌ناظر اجزای سخن با استفاده از الگوریتم ای.ام.

این کار را بر روی پیکرهٔ فارسی دادگان امتحان کنید. ‫ برای این کار می‌توانید از الگوی مرتبهٔ ۲ یا bigram استفاده کنید و از الگوریتم Forward-Backward برای تخمین مقادیر احتمالی استفاده نمایید. مقادیر ممکن برای هر کلمه را به صورت واژه‌نامه‌ای روی از دادهٔ یادگیری تهیه کنید و با استفاده از همگرایی درست‌نمایی (likelihood) بر روی دادهٔ‌ توسعه تکرار یادگیری را متوقف کنید. نتیجه نهایی از روی مقداردهی اولیه با توزیع یکنواخت بر روی دادهٔ آزمون پیکره‌ٔ دادگان گزارش شود. نتیجهٔ‌ نهایی با حالتی که هر کلمه تنها یک برچسب اجزای سخن می‌گیرد و آن هم پرتکرارترین اجزای سخن آن کلمه است مقایسه شود.

پیش‌نیاز برای پیاده‌سازی

*‌ ‫ تسلط بر مفهوم یادگیری بی‌ناظر و الگوریتم EM

*‌ ‫ تسلط بر مفهوم برنامه‌سازی پویا (Dynamic programming))

  • ‫ تسلط بر HMM
  • ‫ تسلط بر الگوریتم Forward-Backward

مقالات مرتبط در این زمینه را می‌توانید از این مقاله بیابید

برای یادگیری الگوریتم فوروارد بک‌وارد http://www.cs.columbia.edu/~mcollins/fb.pdf

برچسب‌زنی بی‌ناظر اجزای سخن با الگوریتم نمونه‌بردای گیبز

‫ برای این کار می‌توانید از الگوی مرتبهٔ ۲ یا bigram استفاده کنید و برای تخمین پارامترها از نمونه‌گیری نقطه‌ای (pointwise). تعداد پارامترها را مساوی با تعداد برچسب‌ها در پیکرهٔ یادگیری قرار داده،‌ مقادیر ممکن برای هر کلمه را به صورت واژه‌نامه‌ای روی از دادهٔ یادگیری تهیه کنید و با استفاده از همگرایی درست‌نمایی (likelihood) بر روی دادهٔ‌ توسعه تکرار یادگیری را متوقف کنید. نتیجه نهایی از روی مقداردهی اولیه با توزیع یکنواخت بر روی دادهٔ آزمون پیکره‌ٔ دادگان گزارش شود. نتیجهٔ‌ نهایی با حالتی که هر کلمه تنها یک برچسب اجزای سخن می‌گیرد و آن هم پرتکرارترین اجزای سخن آن کلمه است مقایسه شود.

برای مطالعه و یادگیری در مورد نمونه‌برداری گیبز: مقاله ۱ مقاله ۲ مقاله ۳