Я написала статистическую модель на n-граммах и обернула ее в дружелюбного Telegram bot'а, генерирующего текст. В нем легко можно менять параметры генерации.
Способ приближения вероятности следующего токена в модели очень прост:
Также для этой модели вручную был написан BPE токенизатор, с символом '#' для обозначения начала\конца слова.
Обучение проходило на датасете русской литературы.
- /start - запуск бота
- /help - список всех команд
- /params - посмотреть текущие параметры генерации
- /repeat - повторить генерацию предложения (чтобы искать подходящие параметры)
- temperature = value - установит температуру = value