LM Assistant

Я написала статистическую модель на n-граммах и обернула ее в дружелюбного Telegram bot'а, генерирующего текст. В нем легко можно менять параметры генерации.
Способ приближения вероятности следующего токена в модели очень прост: $$p(x_t | x_{t-k}, x_{t-k + 1}, \ldots, x_{t - 1}) = \frac{N(x_{t-k}, x_{t-k + 1}, \ldots, x_{t - 1}, x_t) + \alpha}{N(x_{t-k}, x_{t-k + 1}, \ldots, x_{t - 1}) + \alpha |V|}$$ Здесь $k$ - размер контекста, |V| - размер словаря, N - количество.
Также для этой модели вручную был написан BPE токенизатор, с символом '#' для обозначения начала\конца слова.
Обучение проходило на датасете русской литературы.

Команды

/start - запуск бота
/help - список всех команд
/params - посмотреть текущие параметры генерации
/repeat - повторить генерацию предложения (чтобы искать подходящие параметры)
temperature = value - установит температуру = value

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
stat_lm		stat_lm
README.md		README.md
__init__.py		__init__.py
main.py		main.py
model_wrapper.py		model_wrapper.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LM Assistant

Команды

About

Releases

Packages

Languages

neirosetochka/text-generating-bot

Folders and files

Latest commit

History

Repository files navigation

LM Assistant

Команды

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages