Skip to content

Console application for generating Regular Show episodes using transformer model.

Notifications You must be signed in to change notification settings

ftn-projects/regular-show-generator

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 

Repository files navigation

regular-show-generator

Konzolna aplikacija razvijena u Python-u koja generiše transkripte epizoda Regular Show.

Definicija problema

Rešava se problem generisanja Regular Show transkripata epizoda putem treniranog transformer modela.

Motivacija

Glavna motivacija je upoznavanje sa radom sa radom transformer LLM modela, njihovog treniranja i evaluacije. Izabrali smo Regular Show za generisanje jer su epizode obično kratke, radnja je epizodna i zato što bismo hteli još epizoda iako je serija završena.

Skup podataka

Neobrađen skup podataka se nalazi na web sajtu Regular Show Wiki. Obim skupa je 269 epizoda.

Pretprocesiranje podataka

Budući da su instance podataka u vidu HTML-a, potrebno ih je web scrape-ovati i sačuvati za tokenizaciju.

Metodologija

Koristiće se pre-trained transformer model (GPT2 ili neki drugi) koji će potom biti fine-tunovan sa epizodama (80%) iz skupa podataka koje su prošle proces tokenizacije. Istreniran model će kao izlaz imati transkript generisane epizode upisan u tekstualnu datoteku.

Evaluacija

Evaluacija modela će biti sprovedena kroz Rouge (Recall Oriented Understudy for Gisting Evaluation) metriku koja će da proverava relevantnost generisanog teksta i predikcija. Iz skupa podataka će biti izdvojeno 53 epizode (20%) za svrhe evaluacije modela.

Tehnologije

Implementacija projekta bi bila u Python-u. Web scraping će biti sprovedeno koriščenjem ugrađene Python biblioteke urllib. Za kreiranje, tokenizaciju, evaluciju modela i tokenizaciju ulaznog skupa podataka biće korišćena biblioteka Hugging face.

Literatura

Python Docs urllib Hugging Face Docs

About

Console application for generating Regular Show episodes using transformer model.

Topics

Resources

Stars

Watchers

Forks

Languages