Дата мероприятия: 01.10.2020.
Формат мероприятия: online.
Автор: Артем Селезнев, Senior Data Engineer, Сбербанк.
Материалы первого доклада:
- Запись выступления на YouTube.
- Презентация в формате PDF.
- Демо. Jupyter notebook с примерами кода.
Отличные коробочные решения, которые дата инженер использует в своей деятельности, хороши для уже отлаженного процесса и подходят для случаев, когда "не надо думать" над инфраструктурой, а надо "брать и делать". Но как сделать шаг в сторону от "черного ящика" и развернуть кластер самому? Мы вместе совершим путешествие по обновленной Data Engineer Roadmap 2020 и подробно остановимся на новом этапе в этой карте: "кластерная инфраструктура".
В своем докладе я расскажу, как развернуть свою песочницу – кластер на основе Apache framework'ов – и как настроить их работать совместно. Но это не только про Spark и Hadoop, в докладе будут рассмотрены два дополнительных инструмента:
- Специальное приложение для упрощения администрирования и управлением кластером.
- Отличный framework для реализации feature storage, чтобы в своей песочнице научиться быть полезным для аналитиков данных.
Автор: Андрей Вихров, Главный системный аналитик, Связной.
Материалы второго доклада:
- Запись выступления на YouTube.
- Презентация в формате PDF.
Тема data governance выглядит хайповой, но при этом сложной, дорогой и немного мистифицированной. Может сложиться впечатление, что для нее необходимы большое подразделение, дорогой софт и изучить непростые body of knowledge.
В своем докладе я расскажу, в чем практическая суть этой функции, как минимальными усилиями начать использовать ее там, где это принесет первоочередную выгоду, а также куда потом развиваться. В докладе будет рассмотрен опыт построения DG в ОМК и Связном, а также наиболее запомнившиеся мне российские и мировые практики.
Основное внимание будет уделено построению бизнес-глоссария, а также базовым приемам обеспечения качества данных.