Konzolna aplikacija razvijena u Python-u koja generiše transkripte epizoda Regular Show.
Rešava se problem generisanja Regular Show transkripata epizoda putem treniranog transformer modela.
Glavna motivacija je upoznavanje sa radom sa radom transformer LLM modela, njihovog treniranja i evaluacije. Izabrali smo Regular Show za generisanje jer su epizode obično kratke, radnja je epizodna i zato što bismo hteli još epizoda iako je serija završena.
Neobrađen skup podataka se nalazi na web sajtu Regular Show Wiki. Obim skupa je 269 epizoda.
Budući da su instance podataka u vidu HTML-a, potrebno ih je web scrape-ovati i sačuvati za tokenizaciju.
Koristiće se pre-trained transformer model (GPT2 ili neki drugi) koji će potom biti fine-tunovan sa epizodama (80%) iz skupa podataka koje su prošle proces tokenizacije. Istreniran model će kao izlaz imati transkript generisane epizode upisan u tekstualnu datoteku.
Evaluacija modela će biti sprovedena kroz Rouge (Recall Oriented Understudy for Gisting Evaluation) metriku koja će da proverava relevantnost generisanog teksta i predikcija. Iz skupa podataka će biti izdvojeno 53 epizode (20%) za svrhe evaluacije modela.
Implementacija projekta bi bila u Python-u. Web scraping će biti sprovedeno koriščenjem ugrađene Python biblioteke urllib. Za kreiranje, tokenizaciju, evaluciju modela i tokenizaciju ulaznog skupa podataka biće korišćena biblioteka Hugging face.