Un Fichier Complet des Bornes de Recharge pour Véhicules Électriques

Un Fichier Complet des Bornes de Recharge pour Véhicules Électriques

Le jeu de données IRVE est complexe, nécessitant un processus spécifique de production et de consolidation des données. Cependant, l’intégrité de ces données est souvent remise en question. Cette étude vise à faciliter la réutilisation des données en améliorant leur qualité et en permettant une meilleure compréhension de leur structure.

Les Données IRVE

Les données IRVE sont décrites dans un schéma de données qui spécifie chaque champ qu’elles contiennent. Cependant, ce schéma ne fournit pas une vue d’ensemble permettant de comprendre les relations entre les différents champs. Pour cela, un modèle de données est utilisé pour identifier les principales entités et les relations entre elles.

Par exemple, une borne de recharge (pdc) est représentée par le champ ‘id_pdc_itinerance’ et est associée à une seule station (représentée par le champ ‘id_station_itinerance’). Une station est elle-même associée à une seule localisation (représentée par le champ ‘coordonneesXY’).

État des Lieux

Le jeu de données actuel, datant du 03/03/2023, contient 51 000 lignes associées à des bornes de recharge en itinérance réparties sur 18 500 stations. Cependant, l’application des règles d’intégrité met en évidence un faible niveau d’intégrité des données.

En effet, seules 32 000 lignes respectent les règles d’intégrité, tandis que 18 000 lignes présentent des écarts. Ce faible niveau d’intégrité soulève des questions sur la qualité des données.

Parmi les raisons expliquant ce faible niveau d’intégrité, on peut souligner le fait que les règles d’intégrité ne sont pas exprimées dans le schéma de données et ne sont pas contrôlées lors du processus de consolidation. De plus, le processus de mise à jour des données permet la conservation des anciennes versions, ce qui génère des incohérences.

À lire aussi  Offrez à votre enfant le Mercedes G63 12 Volts, un mini 4×4 impressionnant !

Mise en Cohérence des Données

L’analyse a identifié un écart majeur concernant le non-respect de la règle d’unicité des bornes de recharge (pdc). Après élimination des doublons, le nombre de lignes en écart est réduit à 2 170. De plus, la présence d’anciennes bornes de recharge dans des stations mises à jour génère 380 autres écarts. En supprimant ces anciens pdc, le nombre total d’écarts est réduit à 1 610.

Après ces opérations, le jeu de données “nettoyé” comprend 42 000 bornes de recharge associées à 18 500 stations, dont 1 600 présentent encore des écarts par rapport aux règles d’intégrité, soit un taux de 3,8 %.

Documentation

Pour accéder aux données et aux documents associés à cette étude, voici les fichiers disponibles :

Données

  • Fichier d’origine (consolidation du 03/03/2023) : consolidation-etalab-schema-irve-statique-v-2.2.0-20230303.csv
  • Fichier d’origine avec deux champs booléens supplémentaires ‘lignes_a_corriger’ et ‘doublons_a_supprimer’ : IRVE_itinerance_complet2023-03-03.csv
  • Fichier des lignes à corriger avec un champ (booléen) par contrôle (12 champs) : IRVE_itinerance_residuel2023-03-03.csv
  • Fichier des données validées : IRVE_itinerance_valide2023-03-03.csv
  • Fichier des doublons à supprimer : IRVE_itinerance_doublons2023-03-03.csv

Documents

  • Présentation de l’étude : IRVE_analyse.pdf
  • Modèle de données : IRVE_modele.ipynb

Code source

  • Jupyter Notebook : IRVE_v3.ipynb