- Entreprise : Place de marché
- Logo :
- Activité : marketplace e-commerce
- But : Attribuer automatiquement des noms de catégorie aux produits vendus par les clients (grâce aux photos ou aux descriptions)
- Jeux de données : Les Données
- Missions :
- L'attribution de la catégorie d'un article est effectuée manuellement par les vendeurs, et est donc peu fiable.
- Nécessité d'automatiser cette tâche.
- Etudier la faisabilité d'un moteur de classification des articles en différentes catégories, avec un niveau de précision suffisant, via les images et la description.
- Etudier la faisabilité de récupérer les informations de différents produits de consommation via une API.
- Librairies principales : Wordcloud, PIL, seaborn, différents modèles de ML, requests, json
- Etapes réalisées :
-
Prétraitements :
-
Ouverture des données et analyse du remplissage de la DataFrame
-
Etude de l'arbre de classification des produits (Les classifications se feront sur le niveau 1)
-
Nettoyage des données (Tokenisation, Suppression des stops words et ponctuations, Stemming/Lemmatizing) textuelles (Titres et descriptions) et visualisation :
- Etude du nombre de mots dans la totalité de la DataFrame :
-
-
NLP :
- Types d'analyses NLP : CountVectorizer, Tfidf, Word2Vec, BERT et USE
- Pour chaque type d'analyse j'ai réalisé :
-
Une étude visuelle des groupes réels vs groupes crées en KMeans via TSNE pour n'avoir que deux variables et une matrice de confusion pour observer la pertinance des prédictions :
-
Une étude en Machine Learning via différents modèles pour déterminer si une classification des produits est réalisable via NLP :
-
-
Images :
- Types d'analyse d'images : SIFT et CNN transfert learning
- Pour chaque type d'analyse j'ai réalisé :
-
Une étude visuelle des groupes réels vs groupes créés en KMeans via TSNE pour n'avoir que deux variables et une matrice de confusion pour observer la pertinance des prédictions :
-
Une étude en Machine Learning via différents modèles pour déterminer si une classification des produits est réalisable via extractions des features depuis des images :
-
-
API Epicerie Fine :
- L'API : Lien vers l'API
- Extraction des informations sur le champagne :
-