- Entreprise : Santé publique France
- Logo :
- Jeu de données : Site officiel ou Téléchargement direct
- Description des variables : Site officiel
- Les informations générales sur la fiche du produit : nom, date de modification, etc.
- Un ensemble de tags : catégorie du produit, localisation, origine, etc.
- Les ingrédients composant les produits et leurs additifs éventuels.
- Des informations nutritionnelles : quantité en grammes d’un nutriment pour 100 grammes du produit.
- Mission : Trouver une idée innovante d’application en lien avec l'alimentation.
- Librairies principales : Pandas, Numpy, Seaborn, Matplotlib, tqdm, Random, missingno, scipy, MinMaxScaler...
- Etapes réalisées :
-
Ouverture des données.
-
Analyse des données (NaNs (Missingno) et autres informations générales).
-
Choix des variables et des lignes en fonction de l'objectif et du remplissage (pays, type de nutriment ou d'additifs) puis étude de la corrélation entre les variables :
-
Idée d'application : Ajouter au nutriscore un environnementscore pour un produit sain et bon pour l'environnement
-
Divers graphiques :
-
Différents tests de prédiction du Nutrition Grade via les modèles de ML : KNN, Kmeans, Decision Tree et Régression Logistic
-
Etude de mon Environnement Grade en KMeans
-
Analyse des différents groupes réalisés par le KMeans : Radar Chart et analyse statistique par Tuckey.
-