Целью этого проекта является демонстрация решения задачи регрессии для предсказания стоимости домов.
!(Это не конечная версия проекта! Сейчас он содержит все записи в ноутбуке, там уже продемонстрированы основные функции, но следующие шаги в доработке можно прочесть в одноимённом пункте)!
В работе рассмаотрены различные этапы и методы, применяющиеся в регрессии:
- Разведывательный анализ данных (EDA);
- Предобработка данных:
- Работа с пропущенными значениями;
- Преобразование категориальных признаков.
- Работа с моделями:
- Применение различных моделей и оценка их результатов;
- Стандартизация данных;
- Выбор лучшей модели, применяя кросс-валидацию;
- Отбор признаков по "важности";
- Отбор и настройка гиперпараметров модели;
- Интерпретация результатов модели.
- Предсказывание "исхода" для специального набора данных.
-
Модели:
- Нормализация данных для методов knn;
- Работа с моделями градиентного бустинга и xgboost;
- Проверка других моделей;
-
Написание функций/методов и скриптов для удобного обращения в ноутбуке;
-
Структурирование внутри проекта;
-
Построение пайплайнов;
-
feature engineering;
-
Streamlit;
-
Оформление:
- Оформление README.md;
- Оформление ноутбуков;
Датасет: - House Prices из Kaggle соревнования.
datasets:
notebooks:
scripts:
- Код был написан на Python 3.13
- Зависимости из файла
requirements.txt