🛡️ Protéger la data avec la ci #3

adriens · 2024-03-06T02:55:12Z

❔ Contexte

le jeu de données a été poussé cf :

🚀 Saisir les données #1

Mais il est nécessaire de protéger les données afin de fournir une stabilité et une UX optimale pour les utilisateurs de ce dataset.

💡 Objectif

👉 Le but de cette issue est d'avancer sur le sujet en protégeant les données avec de la CI et ainsi rendre possible un onboarding efficace de contributeurs.

🎯 Actions

Via la CI
, par exemple :

Avec la GH action marketplace/actions/duckdb-setup :
Ou en pur python

Protéger main en s'assurant que:

Fournir les sql : @adriens
id_acronym est toujours en majuscules
~~id_acronym est unique~~ : il ne l'est pas 😅
description est unique
description n'est pas NULL ou vide
s'assurer que les lignes sont bien classées par id_acronym (ça facilite la lecture du fichier et c'est fidèle à la version pdf) car en attente de l'implémentation de l'option SORTED

The text was updated successfully, but these errors were encountered:

adriens · 2024-03-07T19:29:56Z

Surprise : on a au moins un doublon sur CAO:

adriens · 2024-03-07T19:46:11Z

Creation et load de la table

-- Creation de la tabl
create or replace table acronyms(
    id varchar not null,
    description varchar not null unique
);

-- load de la table
insert into acronyms
    select id,
        description
        from read_csv('acronyms_optnc.csv',
        delim = ',',
        header = true,
        columns = {
            'id': 'VARCHAR',
            'description': 'VARCHAR'
        });

Reporting des doublons

select id,
        count(*) as nb_duplicates
from acronyms
group by id
having nb_duplicates > 1
order by nb_duplicates desc,
    id asc;

select description,
        count(*) as nb_duplicates
from acronyms
group by description
having nb_duplicates > 1
order by nb_duplicates desc,
    description asc;

adriens · 2024-03-07T19:51:10Z

Pour le tri je creuse ceci:

SORTED Constraint duckdb/duckdb#2548

adriens · 2024-03-07T19:59:36Z

L'option SORTED a éé migrée en discussion:

SORTED Constraint duckdb/duckdb#8444

adriens · 2024-03-07T20:02:57Z

SORTED Constraint duckdb/duckdb#8444 (comment)

adriens · 2024-03-07T21:44:09Z

Si tu veux du code live @mbarre :

https://www.kaggle.com/optnouvellecaldonie/acronymes-opt-nc-for-dummies

adriens · 2024-03-09T04:00:12Z

Pour checker l'ordre alphabétique des ids :

import pandas as pd

def test_id_acronym_order():
    df = pd.read_csv('/kaggle/input/lexique-des-acronymes-de-lopt-nc/data/acronyms_optnc.csv', na_values=['NA'])
    df.dropna(subset=['id_acronym'], inplace=True)
    id_acronym = df['id_acronym'].astype(str).tolist()
    sorted_id_acronym = sorted(id_acronym)
    if id_acronym != sorted_id_acronym:
        # Find indices where the values differ
        differing_indices = [i for i, (a, b) in enumerate(zip(id_acronym, sorted_id_acronym)) if a != b]
        print(f"The id_acronym column is not sorted at indices: {differing_indices}")
        print("Original values:", [id_acronym[i] for i in differing_indices])
        print("Sorted values:", [sorted_id_acronym[i] for i in differing_indices])

# call the test
test_id_acronym_order()

The id_acronym column is not sorted at indices: [100, 101, 102, 103, 104]
Original values: ['SID', 'SIG', 'SI MOBILE', 'SIRH', 'SI TELECOMS']
Sorted values: ['SI MOBILE', 'SI TELECOMS', 'SID', 'SIG', 'SIRH']

cf #3

adriens · 2024-03-28T05:33:26Z

Ajout de TJM #4

adriens · 2024-04-05T01:17:12Z

cf pour le tri :

doc(ressources) : How to keep a column sorted setup-duckdb-action#95

ref: #3

adriens mentioned this issue Mar 6, 2024

🚀 Saisir les données #1

Closed

6 tasks

adriens pinned this issue Mar 6, 2024

adriens assigned mbarre Mar 6, 2024

adriens added the BUILD Toute activité liée à la création de nouvelles fonctionnalités label Mar 6, 2024

adriens changed the title ~~Protéger la data avec la ci~~ 🛡️ Protéger la data avec la ci Mar 6, 2024

adriens self-assigned this Mar 7, 2024

adriens removed their assignment Mar 7, 2024

adriens added a commit that referenced this issue Mar 9, 2024

Update acronyms_optnc.csv

cd57ae0

cf #3

adriens mentioned this issue Mar 28, 2024

Ajout de TJM #4

Merged

2 tasks

mbarre added a commit that referenced this issue Apr 10, 2024

feat(data): check data

e301bfc

ref: #3

mbarre closed this as completed Apr 10, 2024

mbarre added a commit that referenced this issue Apr 10, 2024

fix(sort): fix sort issue when same id_acronym

afcb503

ref: #3

mbarre added a commit that referenced this issue Apr 10, 2024

fix(sort): fix sort issue when same id_acronym

6923ddc

ref: #3

adriens unpinned this issue Apr 21, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

🛡️ Protéger la data avec la ci #3

🛡️ Protéger la data avec la ci #3

adriens commented Mar 6, 2024 •

edited by mbarre

Loading

adriens commented Mar 7, 2024

adriens commented Mar 7, 2024 •

edited

Loading

adriens commented Mar 7, 2024

adriens commented Mar 7, 2024

adriens commented Mar 7, 2024

adriens commented Mar 7, 2024 •

edited

Loading

adriens commented Mar 9, 2024 •

edited

Loading

adriens commented Mar 28, 2024

adriens commented Apr 5, 2024 •

edited

Loading

🛡️ Protéger la data avec la ci #3

🛡️ Protéger la data avec la ci #3

Comments

adriens commented Mar 6, 2024 • edited by mbarre Loading

❔ Contexte

💡 Objectif

🎯 Actions

adriens commented Mar 7, 2024

adriens commented Mar 7, 2024 • edited Loading

Creation et load de la table

Reporting des doublons

adriens commented Mar 7, 2024

adriens commented Mar 7, 2024

adriens commented Mar 7, 2024

adriens commented Mar 7, 2024 • edited Loading

adriens commented Mar 9, 2024 • edited Loading

adriens commented Mar 28, 2024

adriens commented Apr 5, 2024 • edited Loading

adriens commented Mar 6, 2024 •

edited by mbarre

Loading

adriens commented Mar 7, 2024 •

edited

Loading

adriens commented Mar 7, 2024 •

edited

Loading

adriens commented Mar 9, 2024 •

edited

Loading

adriens commented Apr 5, 2024 •

edited

Loading