Skip to content

Modèle de maturité de la mise à disposition de données

Remi81 edited this page May 3, 2024 · 1 revision

Ce document décrit un ensemble de bonnes pratiques à l'usage des apporteurs qui veulent s'assurer que leurs données soient facilement réutilisables par des tiers via un traitement automatisé.

Échelle de maturité du partage des données

On peut définir une échelle indicative de maturité technique permettant d'évaluer la facilité de réutilisation des données publiées par un producteur, s'inspirant du modèle proposé par Tim Berners-Lee.

Niveau 0 : Les données ne sont pas publiées du tout.

Niveau 1 : Les données sont publiées dans un format qui interdit toute mise en place d'un processus de traitement automatisé. Exemple : publications de documents word contenant des scans de compte-rendus papier.

Niveau 2 : Les données sont publiées dans un format qui rend la mise en place d'un traitement quasi-impossible ou immensément coûteux. Exemple : publications de données non structurées dans des fichiers pdfs.

Niveau 3 : Les données sont publiées dans un format non structuré mais permettant leur récupération automatique. Exemple : publication non structurée sur un site Web.

Niveau 4 : Les données sont publiées dans un format structuré mais nécessitant un traitement lourd spécifique. Exemple : publication sur page Web correctement référencée et dûment balisée, publication de fichiers excel correctement construits, etc.

Niveau 5 : Les données sont correctement structurées, identifiées, et publiées dans un format dédié au traitement machine. Exemple : publication de données au format Json, xml, etc.

Niveau 6 : Les données sont structurées, publiées dans un format dédié au traitement machine et manipulables grâce à une API spécifique. Exemple : mise en place d'un endpoint REST.

Checklist à l'intention des éditeurs de données

Cette liste est destinée à des éditeurs de données qui voudraient améliorer la qualité et la réutilisabilité de leurs données publiées.

Accès aux données

  • les Aides sont listées à un emplacement centralisé (API, fichier json, page Web, etc.)
  • les Aides sont publiées dans un format ouvert et structuré (API, json, xml, pas de excel)
  • les Aides sont accessible via un traitement automatisable (e.g pas de pagination en ajax, pas de captcha)

Identification des Aides

  • chaque Aide est identifiable grâce à une référence unique (identifiant numérique, référence…).
  • la date de publication initiale de l'Aide est indiquée.
  • la date de dernière mise à jour de l'Aide est indiquée.

Structuration des données

  • la donnée est structurée en différents « champs » dûment étiquetés (champ spécifique dans l'api, colonne csv, balisage dédiée sur la page web, etc.).
  • la donnée est découpée avec une granularité suffisante (Ex: dans les informations de contact, on peut distinguer, le téléphone, l'email, le nom de la personne à contacter, etc.).
  • la donnée est « propre » (e.g pas de scripts, de html à balises spécifiques dans la description de l'Aide)
  • les données sont fournies dans des formats standardisés (e.g ISO 8601 pour les dates, format international pour les téléphones, etc.)

Condition de partage des données

  • les conditions de récupération des données sont dûment stipulées (e.g présence d'une licence de partage ouverte)
  • les Aides disposent d'url dédiées qui permettent d'établir des liens vers la donnée originale
  • d'éventuelles modifications du format de partage / de l'api ne cassent pas les scripts d'import existants