Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[ETL] Nettoyage des données Spire et création des positions #330

Open
marthevienne opened this issue Dec 3, 2024 · 0 comments
Open

[ETL] Nettoyage des données Spire et création des positions #330

marthevienne opened this issue Dec 3, 2024 · 0 comments
Labels
backend enhancement New feature or request P3

Comments

@marthevienne
Copy link
Collaborator

marthevienne commented Dec 3, 2024

PAS PRIORITAIRE

Le bon nettoyage des données Spire va notamment régler le problème des segments négatifs #283 => ce problème est en parti lié à la non unicité des messages AIS et du spoofing que l'on peut filtrer du mieux possible ici.

=> Assurer l'unicité des messages AIS (1 message AIS par MMSI et par timestamp)
Uniquement 6 navires sont concernés depuis mai :

263442272
244750560
224445000
232025014
263581000
263236000

Cause : démantèlement et transfert de MMSI, spoofing, autre, ...

=> Filtrer les messages multiples avec l'IMO, le callsign (IRCS), le ship name et l'external marking (fuzzy matching avec le nom du navire dans les messages AIS).

=> Sur tous les messages AIS : s'assurer que les données AIS soient cohérentes avec les données dans dim_vessel => flagger les éventuels changements ?
Exemple : transfert de MMSI 244810000

Aujourd'hui, 53 navires flaggés (transfert MMSI, démantèlement et arrêt d'activité AIS, mauvais MMSI dans le registre de la flotte)

=> Création des nouvelles positions UNIQUEMENT à partir des messages qui ont passé les filtres et éventuellement stopper la création de nouvelles positions pour les MMSI flaggés en attendant une validation manuelle => procédure de vérification et validation à réfléchir, ne doit pas forcément être super user-friendly.

Ressource : pipeline de GFW pour nettoyer le jeu de données https://github.com/GlobalFishingWatch

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
backend enhancement New feature or request P3
Projects
None yet
Development

No branches or pull requests

1 participant