Skip to content
This repository has been archived by the owner on Jul 19, 2024. It is now read-only.

Материалы курса «Python для анализа данных»

Notifications You must be signed in to change notification settings

igumnov-daniel/HOCK_FEBRUARY_2024

Repository files navigation

HOCK_FEBRUARY_2024

Записи курса находятся на платформе hockmyweb.

Основы программирования на python

Занятие 1. Введение в программирование

  • как работают программы;
  • высокоуровневые и низкоуровневые языки программирования;
  • интерпретатор и компилятор;
  • anaconda и jupyter;
  • атомарные типы данных (int, float, str);
  • приём значений от пользователя через input, печать данных через print, конвертация типов данных;
  • навигация в терминале и клонирование git-репозитория.

Ссылка на контест: https://contest.yandex.ru/contest/52826/standings.

Занятие 2. Условия и цикл for

Занятие 3. Цикл while. Списки. Методы строк

Занятие 4. Чтение и запись файлов. Словари. Функции

Занятие 5. Классы

  • Задания для практики в ноутбуке

Основы анализа данных

Занятие 6. Учимся быстро считать и рисовать

  • Библиотека для векторизованных расчетов NumPy;
  • Библиотека matplotlib.pyplot для статичной визуализации.

Занятие 7. Базовая теория вероятностей и математическая статистика

  • Понятие дискретной и непрерывной случайной величин;
  • Распределения, связанные с нормальным;
  • Создание и работа с генераторми распределений с помощью SciPy;
  • Классическая формулировка ЦПТ, сценарии использования в реальной жизни.

Занятие 8. Работа с табличными данными. Доверительные интервали

  • ЦПТ;
  • Понятие стандартной ошибки;
  • Использование ЦПТ для вывода дисперсии выборочного среднего для разных распределений;
  • Доверительный интервал для выборочного среднего, доли, разницы средних;
  • Подсчёт числа наблюдений для построения доверительного интервала определенной длины на определенном уровне значимости;
  • Основы работы с табличными данными с помощью Pandas.

Занятие 9. Работа с таблиуцами

  • Соединение таблиц (merge, join, concat);
  • Широкий и длинный формат таблиц, пивотирование;
  • Группировка (groupby);
  • Работа с датой и группировка по дате (resample);
  • Статическая визуализация с помощью Seaborn;

Занятие 10. Проверка статистических гипотез

  • Постановка нулевой и альтернативной гипотез;
  • Уровень значимости и p-value;
  • z-тест и t-тест для средних (одновыборочный, двувыборочный)
  • Процедура проведения А/Б теста.

Занятие 11. Классическое машинное обучение. Линейые модели.

  • Постановка задачи линейной регрессии;
  • Способы решения задачи;
  • Базовые классы Scikit-learn: estimatorm, transformer;
  • Решение задачи линейной регрессии через sklearn;
  • Решение задачи линейной регрессии через statsmodels;
  • Разбиение данных на трейн и тест;
  • Метрики для оценки моделейы.

Полезные ссылки

  • Интерактивный учебник pythontutor.ru.
    Здесь собрана краткая теория по базовому питону и задачи для закрепления патериала. Рекомендую для дополнительной практики. *(Чтобы ваши решения сохранялись и была возможность проверять их на всех доступных тестах, нужно зарегистрироваться)

About

Материалы курса «Python для анализа данных»

Resources

Stars

Watchers

Forks