به نام خدا
پیادهسازی کامل مقالهٔ کالینز ۲۰۰۲ بر روی پیکرهٔ دادگان.
-
موارد زیر باید گزارش شود*
- دقت پرسپترون معمولی بر روی بخش validation یا توسعهٔ پیکره
- عملکرد averaged perceptron بر روی بخش توسعهٔ پیکره
- عملکرد averaged perceptron روی بخش آزمون یا test پیکره
- تکرار گردش تکرار هر کدام از دو روش تا همگرا شدن
پیشنیاز برای پیادهسازی
* تسلط بر مفهوم یادگیری برخط و الگوریتم پرسپترون
* تسلط بر مفهوم برنامهسازی پویا (Dyanamic programming))
- تسلط بر HMM
این کار را بر روی پیکرهٔ فارسی دادگان امتحان کنید. برای این کار میتوانید از الگوی مرتبهٔ ۲ یا bigram استفاده کنید و از الگوریتم Forward-Backward برای تخمین مقادیر احتمالی استفاده نمایید. مقادیر ممکن برای هر کلمه را به صورت واژهنامهای روی از دادهٔ یادگیری تهیه کنید و با استفاده از همگرایی درستنمایی (likelihood) بر روی دادهٔ توسعه تکرار یادگیری را متوقف کنید. نتیجه نهایی از روی مقداردهی اولیه با توزیع یکنواخت بر روی دادهٔ آزمون پیکرهٔ دادگان گزارش شود. نتیجهٔ نهایی با حالتی که هر کلمه تنها یک برچسب اجزای سخن میگیرد و آن هم پرتکرارترین اجزای سخن آن کلمه است مقایسه شود.
پیشنیاز برای پیادهسازی
* تسلط بر مفهوم یادگیری بیناظر و الگوریتم EM
* تسلط بر مفهوم برنامهسازی پویا (Dynamic programming))
- تسلط بر HMM
- تسلط بر الگوریتم Forward-Backward
مقالات مرتبط در این زمینه را میتوانید از این مقاله بیابید
برای یادگیری الگوریتم فوروارد بکوارد http://www.cs.columbia.edu/~mcollins/fb.pdf
برای این کار میتوانید از الگوی مرتبهٔ ۲ یا bigram استفاده کنید و برای تخمین پارامترها از نمونهگیری نقطهای (pointwise). تعداد پارامترها را مساوی با تعداد برچسبها در پیکرهٔ یادگیری قرار داده، مقادیر ممکن برای هر کلمه را به صورت واژهنامهای روی از دادهٔ یادگیری تهیه کنید و با استفاده از همگرایی درستنمایی (likelihood) بر روی دادهٔ توسعه تکرار یادگیری را متوقف کنید. نتیجه نهایی از روی مقداردهی اولیه با توزیع یکنواخت بر روی دادهٔ آزمون پیکرهٔ دادگان گزارش شود. نتیجهٔ نهایی با حالتی که هر کلمه تنها یک برچسب اجزای سخن میگیرد و آن هم پرتکرارترین اجزای سخن آن کلمه است مقایسه شود.
برای مطالعه و یادگیری در مورد نمونهبرداری گیبز: مقاله ۱ مقاله ۲ مقاله ۳