-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
🛡️ Protéger la data avec la ci #3
Labels
BUILD
Toute activité liée à la création de nouvelles fonctionnalités
Comments
adriens
added
the
BUILD
Toute activité liée à la création de nouvelles fonctionnalités
label
Mar 6, 2024
Creation et load de la table-- Creation de la tabl
create or replace table acronyms(
id varchar not null,
description varchar not null unique
);
-- load de la table
insert into acronyms
select id,
description
from read_csv('acronyms_optnc.csv',
delim = ',',
header = true,
columns = {
'id': 'VARCHAR',
'description': 'VARCHAR'
}); Reporting des doublonsselect id,
count(*) as nb_duplicates
from acronyms
group by id
having nb_duplicates > 1
order by nb_duplicates desc,
id asc; select description,
count(*) as nb_duplicates
from acronyms
group by description
having nb_duplicates > 1
order by nb_duplicates desc,
description asc; |
Pour le tri je creuse ceci: |
L'option |
Si tu veux du code live @mbarre : https://www.kaggle.com/optnouvellecaldonie/acronymes-opt-nc-for-dummies |
Pour checker l'ordre alphabétique des ids : import pandas as pd
def test_id_acronym_order():
df = pd.read_csv('/kaggle/input/lexique-des-acronymes-de-lopt-nc/data/acronyms_optnc.csv', na_values=['NA'])
df.dropna(subset=['id_acronym'], inplace=True)
id_acronym = df['id_acronym'].astype(str).tolist()
sorted_id_acronym = sorted(id_acronym)
if id_acronym != sorted_id_acronym:
# Find indices where the values differ
differing_indices = [i for i, (a, b) in enumerate(zip(id_acronym, sorted_id_acronym)) if a != b]
print(f"The id_acronym column is not sorted at indices: {differing_indices}")
print("Original values:", [id_acronym[i] for i in differing_indices])
print("Sorted values:", [sorted_id_acronym[i] for i in differing_indices])
# call the test
test_id_acronym_order()
|
adriens
added a commit
that referenced
this issue
Mar 9, 2024
cf pour le tri : |
mbarre
added a commit
that referenced
this issue
Apr 10, 2024
mbarre
added a commit
that referenced
this issue
Apr 10, 2024
mbarre
added a commit
that referenced
this issue
Apr 10, 2024
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
❔ Contexte
le jeu de données a été poussé cf :
Mais il est nécessaire de protéger les données afin de fournir une stabilité et une UX optimale pour les utilisateurs de ce dataset.
💡 Objectif
👉 Le but de cette issue est d'avancer sur le sujet en protégeant les données avec de la CI et ainsi rendre possible un onboarding efficace de contributeurs.
🎯 Actions
Via la CI
, par exemple :
marketplace/actions/duckdb-setup
:Protéger main en s'assurant que:
id_acronym
est toujours en majuscules: il ne l'est pas 😅id_acronym
est uniquedescription
est uniquedescription
n'est pasNULL
ou videid_acronym
(ça facilite la lecture du fichier et c'est fidèle à la version pdf) car en attente de l'implémentation de l'optionSORTED
The text was updated successfully, but these errors were encountered: