Name		Name	Last commit message	Last commit date
parent directory ..
Andrey Vikhrov – Data governance.pdf		Andrey Vikhrov – Data governance.pdf
Artem Seleznev – DE sandbox.pdf		Artem Seleznev – DE sandbox.pdf
README.md		README.md
spark_resources.ipynb		spark_resources.ipynb

README.md

DE or DIE #4

Дата мероприятия: 01.10.2020.
Формат мероприятия: online.

Доклады

Своя песочница – как сделать кластер для инженера данных

Автор: Артем Селезнев, Senior Data Engineer, Сбербанк.

Материалы первого доклада:

Запись выступления на YouTube.
Презентация в формате PDF.
Демо. Jupyter notebook с примерами кода.

О чем первый доклад

Отличные коробочные решения, которые дата инженер использует в своей деятельности, хороши для уже отлаженного процесса и подходят для случаев, когда "не надо думать" над инфраструктурой, а надо "брать и делать". Но как сделать шаг в сторону от "черного ящика" и развернуть кластер самому? Мы вместе совершим путешествие по обновленной Data Engineer Roadmap 2020 и подробно остановимся на новом этапе в этой карте: "кластерная инфраструктура".

В своем докладе я расскажу, как развернуть свою песочницу – кластер на основе Apache framework'ов – и как настроить их работать совместно. Но это не только про Spark и Hadoop, в докладе будут рассмотрены два дополнительных инструмента:

Специальное приложение для упрощения администрирования и управлением кластером.
Отличный framework для реализации feature storage, чтобы в своей песочнице научиться быть полезным для аналитиков данных.

Data governance – что это, зачем, и с чего начать

Автор: Андрей Вихров, Главный системный аналитик, Связной.

Материалы второго доклада:

Запись выступления на YouTube.
Презентация в формате PDF.

О чем второй доклад

Тема data governance выглядит хайповой, но при этом сложной, дорогой и немного мистифицированной. Может сложиться впечатление, что для нее необходимы большое подразделение, дорогой софт и изучить непростые body of knowledge.

В своем докладе я расскажу, в чем практическая суть этой функции, как минимальными усилиями начать использовать ее там, где это принесет первоочередную выгоду, а также куда потом развиваться. В докладе будет рассмотрен опыт построения DG в ОМК и Связном, а также наиболее запомнившиеся мне российские и мировые практики.

Основное внимание будет уделено построению бизнес-глоссария, а также базовым приемам обеспечения качества данных.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

04

04

README.md

DE or DIE #4

Доклады

Своя песочница – как сделать кластер для инженера данных

О чем первый доклад

Data governance – что это, зачем, и с чего начать

О чем второй доклад

Files

04

Directory actions

More options

Directory actions

More options

Latest commit

History

04

Folders and files

parent directory

README.md

DE or DIE #4

Доклады

Своя песочница – как сделать кластер для инженера данных

О чем первый доклад

Data governance – что это, зачем, и с чего начать

О чем второй доклад