Skip to content

Latest commit

 

History

History
12 lines (12 loc) · 1.45 KB

README.md

File metadata and controls

12 lines (12 loc) · 1.45 KB

LM Assistant

Я написала статистическую модель на n-граммах и обернула ее в дружелюбного Telegram bot'а, генерирующего текст. В нем легко можно менять параметры генерации.
Способ приближения вероятности следующего токена в модели очень прост: $$p(x_t | x_{t-k}, x_{t-k + 1}, \ldots, x_{t - 1}) = \frac{N(x_{t-k}, x_{t-k + 1}, \ldots, x_{t - 1}, x_t) + \alpha}{N(x_{t-k}, x_{t-k + 1}, \ldots, x_{t - 1}) + \alpha |V|}$$ Здесь $k$ - размер контекста, |V| - размер словаря, N - количество.
Также для этой модели вручную был написан BPE токенизатор, с символом '#' для обозначения начала\конца слова.
Обучение проходило на датасете русской литературы.

Команды

  • /start - запуск бота
  • /help - список всех команд
  • /params - посмотреть текущие параметры генерации
  • /repeat - повторить генерацию предложения (чтобы искать подходящие параметры)
  • temperature = value - установит температуру = value