Replies: 1 comment
-
Ναι, πράγματι, το θέμα των συστηματικών αυτοματοποιημένων αξιολογήσεων είναι ένα θέμα που έχουμε θίξει εκτεταμένα στην αρθρογραφία και το θεωρούμε εξίσου σημαντικό με την δεοντολογική απόκτηση ενός αντιπροσωπευτικού, ανοιχτού σώματος κειμενικών δεδομένων. Για την αυτόματη μετάφραση επιφυλλάσσομαι, καθώς τα μοντέλα υστερούν και σε αυτό, με αποτέλεσμα και αυτό να επιθέτει φόρτο εργασίας. Αν υπάρξει τέτοιο community 10 περίπου ατόμων που λέτε, τότε σίγουρα θα μπορούμε να κάνουμε περισσότερα πράγματα και σε αυτήν την περιοχή και στις υπόλοιπες. |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
Καλησπέρα,
το project φαίνεται πολύ ενδιαφέρον. Μια απορία μου είναι αν έχετε κάποιο πλάνο για την (συστηματική) αξιολόγηση του μοντέλου που θα εκπαιδευτεί, καθώς επίσης και τη σύγκριση του με άλλα open-source μοντέλα (π.χ. Mistral, Llama) στα ελληνικά. Ένα σχετικό project που παρακολουθώ είναι το YugoGPT, όπου για την αξιολόγηση του μοντέλου έφτιαξαν πρώτα κάποια benchmarks στα Σέρβικα γιατί δεν υπήρχαν πριν. Σχετικές λεπτομέρειες υπάρχουν σε αυτό το blog.
TL;DR: Επιλογή English evaluation benchmarks που χρησιμοποιούνται συχνά και έχουν νόημα για non-English NLP (π.χ. όχι κώδικας) -> Google Translate -> GPT-4 refinement των μεταφράσεων.
Τα 2ο βήμα πρακτικά μπορεί να γίνει χωρίς κάποιο κόστος αν υπάρχει ένα μικρό community ~10 ατόμων, σε αντίθεση με το 3ο βήμα. Ενδεχομένως αντί για το GPT-4, θα μπορούσαμε να δοκιμάσουμε κάποιο open-source pretrained LLM μοντέλο με prompt engineering ή και να κάνουμε πρώτα κάποιο efficient (single/dual-GPU) fine-tuning (π.χ. QLoRA) του open-source μοντέλου σε κάποιο English to Greek translation dataset.
Beta Was this translation helpful? Give feedback.
All reactions