Kyivstar Big Data School 5.0

Kyivstar Big Data School 5.0 task of 2'nd stage of the selection

Перевіряємо, що було завантажено і навіщо.

Архів містить 4 файли:

tabular_data.csv
hashed_feature.csv
train.csv
test.csv

Для чого вони?

Ці файли допоможуть вирішити аналітичну задачу. Необхідно побудувати модель, що виявлятиме сегмент водіїв серед абонентів ПрАТ «Київстар».

Це задача бінарної класифікації:
«1» – абонент являється водієм (відноситься до сегменту водіїв), «0» – абонент не є водієм (не відноситься до сегменту водіїв).

Файли tabular_data.csv і hashed_feature.csv ̶ тут описові характеристики щодо 4084 абонентів («ID» – це ідентифікатор абонента). Файл train.csv ̶ це дані щодо цільової мітки (чи належить абонент до сегменту водіїв). Файл test.csv ̶ це список абонентів, для яких необхідно зробити прогноз, за яким ми й будемо оцінювати якість ваших моделей.

А тепер детальніше:

Файл tabular_data.csv містить числові дані щодо активності абонента за 12 періодів.
- period – номер періоду (періоди послідовні, 1 – найновіший);
- id – ідентифікатор абонента;
- feature_0 – feature_49 – дані щодо активності абонента у відповідний період.
Файл hashed_feature.csv – тут набір захешованих значень однієї категоріальної змінної для абонента.
- id – ідентифікfeature_50 – хеш від значення категоріальної змінної.атор абонента;
- feature_50 – хеш від значення категоріальної змінної.
Файл train.csv – тут дані з цільовою міткою.
- id – ідентифікатор абонента;
- target – значення цільової мітки (1 – належить до сегменту водіїв, 0 – не належить до сегменту водіїв).
Файл test.csv – список абонентів, для яких потрібно зробити передбачення за допомогою ваших моделей.
- id – ідентифікатор абонента;
- score – ймовірність того, що абонент належить до сегменту водіїв (класу «1»). Цю ймовірність визначає ваша модель

До речі, моделі ми будемо оцінювати за такою метрикою – ROC-AUC.

У чому ж завдання?

Потрібно побудувати модель на абонентах, цільова мітка по яким міститься у файлі train.csv.

Для цього вам необхідно використати дані з файлів tabular_data.csv та hashed_feature.csv. Після цього, використовуючи вашу модель, потрібно для абонентів з файлу test.csv заповнити колонку score – ймовірність того, що абонент відноситься до сегменту водіїв. Зверніть увагу, що необхідно спрогнозувати факт відношення до сегменту водіїв, без прив'язки до періоду.

Оформлення рішення – зберігаємо результати

Зберігаємо передбачене значення score для тестової вибірки у файл MoyePrizvyshcheMoyeImya_test.csv, де MoyePrizvyshcheMoyeImya = ваше прізвище і ваше ім'я.

Ми хочемо, щоб ви назвали свій файл унікально, про всяк випадок :)

Оформлення рішення – зберігаємо код

Зберігаємо код програми в файл MoyePrizvyshcheMoyeImyaPROGRAM.? Залежно від мови програмування, у файлі буде відповідне розширення: .R, або .py або .txt або ще яке-небудь.

Наприклад:

MoyePrizvyshcheMoyeImyaPROGRAM.R,
MoyePrizvyshcheMoyeImyaPROGRAM.py,
MoyePrizvyshcheMoyeImyaPROGRAM.txt і т.д.

Надсилаємо рішення

Готове рішення (файли з результатом та кодом) завантажуємо одним архівом у форматах .zip або .rar у спеціальну форму на сайті.

Чекаємо на результати

Тепер можна відпочивати і чекати від нас листа :)

Що буде в листі?

За результатами перевірки завдання вам може бути запропоновано пройти наступний етап тестування.

Лише після проведення 2-х етапів тестування будуть розіслані остаточні відповіді – про зарахування до школи чи відмову.

Орієнтовна дата розсилки листів для співбесіди – 13 жовтня.
Дати проведення співбесід – 14-16 жовтня.

Тож усі відповіді ви отримаєте до 23 жовтня.

FAQ:

Які інструменти я можу використовувати для вирішення тестового завдання?

Для виконання тестового завдання ви можете використовувати будь-які інструменти та алгоритми. У свою чергу, ми рекомендуємо використовувати імплементовані у Python чи R.

Деякі значення є пропущеними. Що з ними робити?

Нас цікавить, як ви будете вирішувати проблему пропуску даних. Тому це повністю ваш вибір.

Як будуть порівнюватись результати моделей?

Метрика, за якою ми будемо оцінювати якість ваших моделей, – ROC-AUC.

Бажаємо гарного і творчого настрою та з нетерпінням чекаємо на ваші результати!

Залишаймось на зв’язку,
Big Data School від Київстар.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Kyivstar Big Data School 5.0

Перевіряємо, що було завантажено і навіщо.

Для чого вони?

А тепер детальніше:

У чому ж завдання?

Оформлення рішення – зберігаємо результати

Оформлення рішення – зберігаємо код

Надсилаємо рішення

Чекаємо на результати

Що буде в листі?

FAQ:

Які інструменти я можу використовувати для вирішення тестового завдання?

Деякі значення є пропущеними. Що з ними робити?

Як будуть порівнюватись результати моделей?

About

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
README.md		README.md
hashed_feature.csv		hashed_feature.csv
tabular_data.csv		tabular_data.csv
test.csv		test.csv
train.csv		train.csv

povstenko/kyivstar-bigdata-5

Folders and files

Latest commit

History

Repository files navigation

Kyivstar Big Data School 5.0

Перевіряємо, що було завантажено і навіщо.

Для чого вони?

А тепер детальніше:

У чому ж завдання?

Оформлення рішення – зберігаємо результати

Оформлення рішення – зберігаємо код

Надсилаємо рішення

Чекаємо на результати

Що буде в листі?

FAQ:

Які інструменти я можу використовувати для вирішення тестового завдання?

Деякі значення є пропущеними. Що з ними робити?

Як будуть порівнюватись результати моделей?

About

Topics

Resources

Stars

Watchers

Forks