Skip to content

Latest commit

 

History

History

04

DE or DIE #4

Дата мероприятия: 01.10.2020.
Формат мероприятия: online.

Доклады

Своя песочница – как сделать кластер для инженера данных

Автор: Артем Селезнев, Senior Data Engineer, Сбербанк.

Материалы первого доклада:

О чем первый доклад

Отличные коробочные решения, которые дата инженер использует в своей деятельности, хороши для уже отлаженного процесса и подходят для случаев, когда "не надо думать" над инфраструктурой, а надо "брать и делать". Но как сделать шаг в сторону от "черного ящика" и развернуть кластер самому? Мы вместе совершим путешествие по обновленной Data Engineer Roadmap 2020 и подробно остановимся на новом этапе в этой карте: "кластерная инфраструктура".

В своем докладе я расскажу, как развернуть свою песочницу – кластер на основе Apache framework'ов – и как настроить их работать совместно. Но это не только про Spark и Hadoop, в докладе будут рассмотрены два дополнительных инструмента:

  1. Специальное приложение для упрощения администрирования и управлением кластером.
  2. Отличный framework для реализации feature storage, чтобы в своей песочнице научиться быть полезным для аналитиков данных.

Data governance – что это, зачем, и с чего начать

Автор: Андрей Вихров, Главный системный аналитик, Связной.

Материалы второго доклада:

О чем второй доклад

Тема data governance выглядит хайповой, но при этом сложной, дорогой и немного мистифицированной. Может сложиться впечатление, что для нее необходимы большое подразделение, дорогой софт и изучить непростые body of knowledge.

В своем докладе я расскажу, в чем практическая суть этой функции, как минимальными усилиями начать использовать ее там, где это принесет первоочередную выгоду, а также куда потом развиваться. В докладе будет рассмотрен опыт построения DG в ОМК и Связном, а также наиболее запомнившиеся мне российские и мировые практики.

Основное внимание будет уделено построению бизнес-глоссария, а также базовым приемам обеспечения качества данных.