Структура проекта:
- В папке
config
- файлы для хранения конфигурации/параметров для выполнения скриптов - В папке
data
- сырые данные, итоговый датасет для модели - В папке
model
- сохраненная текущая модель (сейчас в формате "соленый огурец") - В папке
scripts
- основные ноуты для EDA, ответа на основные вопросы задания + скрипты для запуска предсказания/добучения
Оптимизируемая метрика
MAE -- мы решили не пересчитывать модельный риск в денежный эквивалент, поскольку такую метрику будет сложно впрямую экстраполировать на аномалии и переходные периоды при разладке, где модель не советуется применять, и рекомендуется управление в ручном режиме. Тем не менее, мы не считаем выявленные аномалии при подсчете метрики, и обрабатываем их отдельно.
Пайплайн
- Обрабатываем полученные значения ряда за новый день
- Выявляем аномалии и разладку
- Если выявлена аномалия, выдаем предупреждение с рекомендацией ручного управления
- Если выявлена разладка, делаем refit -- отбираем фичи и оцениваем параметры модели на данных без аномалий, начиная с выявленного момента разладки
- Делаем предсказание на следующий день.