Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Job qui importe les données csv d'une S3 dans un base de donnée #1

Closed
19 tasks done
jdauphant opened this issue Feb 8, 2022 · 0 comments
Closed
19 tasks done
Assignees
Labels

Comments

@jdauphant
Copy link
Contributor

jdauphant commented Feb 8, 2022

Subscriptions :

  • Les données de date doivent être importé dans un champs date
  • Tester le merge sur des petites données (3 lignes)
  • Tester le merge sur des grosses données (prod)
    • scale up la taille de la DB ? -> l'upsert met mois de 5 min, ca va comme ca.
  • format de dates ?
  • champs NOT NULL dans le schema
  • timer le job pour voir si ca met plus que 24h
  • enlever les espaces apres les virgules, qui apparaissent au debut des strings
  • Mettre le cron une fois par jour à 6h du mat
  • checker que les fichiers sur le filesystem scalingo sont supprimés à chaque run du cron job

Events :

  • schema : memes champs que pour aggregate + type VARCHAR
  • enlever les espaces apres les virgules, qui apparaissent au debut des strings
  • enlever "(1234567 rows)" a la fin du fichier d'export
  • decider du format final du csv : events,type,domain,hour,instance ou events,domain,hour,instance,type ?
    -> ca sera events,type,domain,hour,instance
  • Tester le merge sur des petites données (3 lignes)
  • Tester le merge sur des grosses données (prod)
  • timer le job pour voir si ca met plus que 24h
    First insert in empty table, 3051210 rows : real 10m8.808s - surtout sur l'INSERT, le COPY dans la TEMPORARY TABLE prend dans les 5-10s.
    Second insert (adds 1 row) : real 0m48.927s. (??)

A la fin :

  • Mettre sur la machine de prod

Plus tard :

@jdauphant jdauphant changed the title Job qui importe les données csv d'un S3 dans un base de donnée Job qui importe les données csv d'une S3 dans un base de donnée Feb 8, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

4 participants