#Work with teacher
Интернет-магазин «В один клик» продаёт разные товары: для детей, для дома, мелкую бытовую технику, косметику и даже продукты. Отчёт магазина за прошлый период показал, что активность покупателей начала снижаться. Привлекать новых клиентов уже не так эффективно: о магазине и так знает большая часть целевой аудитории. Возможный выход — удерживать активность постоянных клиентов. Сделать это можно с помощью персонализированных предложений.
Целью работы является:
- построить модель, которая предскажет вероятность снижения покупательской активности клиента в следующие три месяца.
- включить дополнительные данные финансового департамента о прибыльности клиента: какой доход каждый покупатель приносил компании за последние три месяца.
- нужно выделить сегменты покупателей и разработать для них персонализированные предложения.
Для выполнения работы предоставлены данные со следующими признаками:
market_file.csv - данные о поведении покупателя на сайте, о коммуникациях с покупателем и его продуктовом поведении:
id— номер покупателя в корпоративной базе данных.Покупательская активность— рассчитанный класс покупательской активности (целевой признак): «снизилась» или «прежний уровень».Тип сервиса— уровень сервиса, например «премиум» и «стандарт».Разрешить сообщать— информация о том, можно ли присылать покупателю дополнительные предложения о товаре. Согласие на это даёт покупатель.Маркет_актив_6_мес— среднемесячное значение маркетинговых коммуникаций компании, которое приходилось на покупателя за последние 6 месяцев. Это значение показывает, какое число рассылок, звонков, показов рекламы и прочего приходилось на клиента.Маркет_актив_тек_мес— количество маркетинговых коммуникаций в текущем месяце.Длительность— значение, которое показывает, сколько дней прошло с момента регистрации покупателя на сайте.Акционные_покупки— среднемесячная доля покупок по акции от общего числа покупок за последние 6 месяцев.Популярная_категория— самая популярная категория товаров у покупателя за последние 6 месяцев.Средний_просмотр_категорий_за_визит— показывает, сколько в среднем категорий покупатель просмотрел за визит в течение последнего месяца.Неоплаченные_продукты_штук_квартал— общее число неоплаченных товаров в корзине за последние 3 месяца.Ошибка_сервиса— число сбоев, которые коснулись покупателя во время посещения сайта.Страниц_за_визит— среднее количество страниц, которые просмотрел покупатель за один визит на сайт за последние 3 месяца.
market_money.csv - данные о выручке, которую получает магазин с покупателя, то есть сколько покупатель всего потратил за период взаимодействия с сайтом.:
id— номер покупателя в корпоративной базе данных.Период— название периода, во время которого зафиксирована выручка.Выручка— сумма выручки за период.
market_time.csv - данные о времени (в минутах), которое покупатель провёл на сайте в течение периода.:
id— номер покупателя в корпоративной базе данных.Период— название периода, во время которого зафиксировано общее время.минут— значение времени, проведённого на сайте, в минутах.
money.csv - данные о среднемесячной прибыли покупателя за последние 3 месяца: какую прибыль получает магазин от продаж каждому покупателю:
id— номер покупателя в корпоративной базе данных.Прибыль— значение прибыли.
Для поиска лучших параметров использовались модели DecisionTreeClassifier, KNeighborsClassifier, LogisticRegression и SVC. Лучшие результаты показала модель LogisticRegression со следующими характеристиками C=2, penalty='l1', random_state=42, solver='liblinear' Самая высокая точность из всех построенных моделей: 0.8986085548358276 Метрика ROC-AUC: 0.9232867918472155