Uma lib simples para você poder criar arquivos de CDC a partir de um dataset no Kaggle.
Com base nos dados do kaggle (que você encontra aqui), criamos os arquivos de Change Data Capture (CDC).
A ideia é comprar os dois databases:
- database.db: Dados da versão atual do banco de dados do nosso sistema de pontos
- database_old.db: Dados da versão anterior do nosso sistema de pontos
Com bases nos arquivos criados, voc6e pode realizar ingestão de dados utilizando esses arquivos _.parquet_s.
- Playlist sobre consumo do CDC no datalake com Spark Streaming + Upsert: Lago do Mago
- Crie um ambiente novo com ajuda do anaconda:
conda create --name cdc-loyalty python=3.12
- Instale as bibliotecas necessárias:
pip install -r requirements.txt
- Configure a autenticação da api do Kaggle:
Confira esse artigo disponível no Kaggle para você criar sua API key www.kaggle.com/docs/api
Para executar CDC, basta executar o comando abaixo:
cd src; python main.py
Este comando executará os seguintes passos:
- Download dos dados do Kaggle
- Identificação das mudanças existentes em cada tabela, gerando os arquivos de CDC no seguinte caminho:
data/cdc/nome_tabela.arquivo_com_data.parquet