Qu’est-ce qu’un Data Warehouse ?

Dernière mise à jour: 04/07/2023

Dans cet article, nous examinerons ce qu’est un Data Warehouse et les éléments clés à prendre en compte lors de l’évaluation de votre solution de Data Warehousing pour le Big Data. De plus, nous verrons les avantages des DWH dans le Cloud et les options disponibles. Ne manquez pas ça!

Table des matières

Un Data Warehouse est un entrepôt de données structurées qui agit comme la seule source de vérité dans l’organisation. Il contient des données de qualité telles que les données clients, les données des employés ou des ventes. Il est créé dans le but d’effectuer des analyses de données et des rapports.

Le Data Warehouse doit suivre une norme commune pour organiser les données provenant de différentes équipes. Il contient des données historiques qui peuvent être mises à jour au fil du temps. En général, les données dans le Data Warehouse ne sont ni modifiées ni supprimées et sont souvent agrégées ou segmentées pour faciliter leur analyse ou leur rapport.

Le Data Warehouse comprend les composants du Data Lake chargés de traiter les données structurées. Si vous souhaitez plus de détails sur les différences, nous les analysons dans cet article sur les Data Lakes.

“Les revenus du marché du Data Warehouse dépasseront les 30 milliards de dollars d’ici 2025”
Global Market Insights, Inc.

Le Data Warehousing fait également référence au processus de compréhension des données, d’analyse, de nettoyage et de modélisation des données. Le résultat de ce processus est des données prêtes à être utilisées (Data Warehouse). Ces données sont utilisées pour traiter les KPI.

Data Warehouse dans le Cloud

Initialement, les Data Warehouses des organisations étaient déployés sur site. Cependant, avec l’augmentation des options cloud disponibles aujourd’hui, il est possible de réduire les coûts et la maintenance en utilisant ces services.

Beaucoup de technologies proposées par les fournisseurs de cloud pour les Data Warehouses ont été conçues dans ce but. Ce sont des systèmes développés avec l’élasticité et la scalabilité à l’esprit.

Ils exploitent également le traitement parallèle (MPP) pour répartir la charge sur de nombreux nœuds et accélérer les requêtes et les transformations des données. De plus, cela permet d’augmenter le nombre d’utilisateurs simultanés utilisant le système.

Exemples de Cloud Data Warehouse

Il existe de nombreuses options de Data Warehouses chez les fournisseurs de cloud les plus connus comme Azure, AWS ou GCP. Certaines de ces options peuvent être déployées indépendamment du fournisseur. D’autres, comme Redshift ou Synapse Analytics, sont spécifiques à AWS ou Azure.

Amazon Redshift: C’est un Data Warehouse disponible sur AWS avec un stockage colonne. Il peut distribuer les données sur des nœuds de stockage et exploiter le traitement MPP.
Azure Synapse Analytics: Auparavant appelé Azure SQL Data Warehouse. Il nous fournit des capacités MPP, un langage de requête SQL et tout un écosystème de construction de pipelines et une compatibilité avec Apache Spark.
BigQuery: Data Warehouse sur la plateforme Google GCP. Il peut déployer les ressources nécessaires à la demande en séparant le calcul du stockage. De plus, il utilise SQL comme langage de requête.
Snowflake: Peut être déployé sur d’autres fournisseurs de cloud. Il sépare le calcul du stockage pour une mise à l’échelle indépendante.

Comment évaluer un Data Warehouse pour le Big Data ?

Voici les exigences à prendre en compte lorsque vous évaluez une solution ou des technologies de Data Warehouse pour stocker de gros volumes de données dans votre organisation.

1. Minimiser la latence

De nombreuses plateformes nécessitent des temps de réponse inférieurs à une seconde dans leurs tableaux de bord d’analyse. Le Data Warehouse doit être capable de fournir plusieurs niveaux de mise en cache, y compris l’ensemble des résultats.

2. Maximiser la concurrence des utilisateurs

La concurrence est la capacité de gérer un grand nombre de requêtes provenant de plusieurs utilisateurs en même temps.

Toute entreprise a plusieurs groupes d’utilisateurs indépendants, chacun ayant des exigences de traitement différentes. Il devrait être possible d’exécuter plusieurs charges de travail analytiques indépendantes.

Le Data Warehouse doit séparer les charges de travail et maintenir l’équilibre des ressources disponibles pour les groupes d’utilisateurs, tels que les processus ETL et les utilisateurs finaux.

3. Fournir une valeur rapidement

Les systèmes d’ingestion ne doivent plus s’arrêter, ils doivent effectuer leur travail presque en temps réel. Ainsi, il est nécessaire d’avoir la capacité de diffuser des données en temps réel tout en maintenant une cohérence transactionnelle complète ACID.

4. Gestion des données semi-structurées

Les solutions Hadoop et NoSQL sont nées du besoin de traiter des données semi-structurées, telles que des données au format JSON. Le Data Warehouse gérerait les données structurées et semi-structurées de manière native. Il serait possible d’écrire des requêtes pour combiner les données structurées et semi-structurées à partir du même emplacement.

5. Performances pour l’intelligence d’affaires

Le Data Warehouse doit maximiser la quantité totale de travail accompli (plutôt que les performances des requêtes individuelles) en exécutant plusieurs flux de charge parallèles et en équilibrant la demande avec les besoins des utilisateurs.

L’intelligence d’affaires (BI) a besoin d’exécuter des rapports complexes pour fournir une vision de l’entreprise. Pour respecter les délais impartis, ils ont besoin de performances de calcul élevées, notamment pour les rapports mensuels ou annuels.

Les requêtes et les processus analytiques sont très différents des transactions. Les transactions affectent généralement un nombre limité d’enregistrements pour insérer, mettre à jour ou supprimer des données. En revanche, les processus analytiques impliquent un grand nombre d’enregistrements et de tables, effectuant des opérations d’agrégation et de jointure. Cela peut bénéficier du stockage des données par colonnes et d’un schéma tel que le schéma en flocon de neige (Snowflake Schema).

6. Évolutif et élastique

Le système doit pouvoir être dimensionné de manière incrémentielle ou élastique. Il devrait être possible d’ajouter des ressources de calcul et de stockage supplémentaires au fur et à mesure des besoins, sans aucune interruption, restructuration ou redistribution des données avec une utilisation intensive du calcul.

De plus, il doit implémenter des mécanismes de haute disponibilité (HA), de sauvegarde et de récupération après sinistre.

7. Coût réduit et facilité d’administration

La solution ne doit pas impliquer de dépenses ou d’engagements en capital initiaux et doit être peu coûteuse à exploiter en fonction de son utilisation.

Elle devrait également être simple, avec peu de possibilités d’erreurs importantes, et facile à gérer et à administrer.

8. Consolidé

Évitez l’utilisation disparate de Data Warehouses car cela risque de provoquer des incohérences et d’avoir un impact sur les délais de livraison. Toutes les données doivent être consolidées dans un seul Data Warehouse et accessibles à tous les utilisateurs.

9. Technique d’accès aux échanges de données

La plateforme idéale permettrait un accès sécurisé à tout client autorisé, n’importe où dans le monde, pour exécuter ses propres rapports et analyses.

La solution doit également prendre en charge SQL en tant que norme de l’industrie pour les utilisateurs, plutôt qu’une API seule.

Il ne doit pas non plus être une option de passer à une plateforme matérielle plus grande tous les quelques années. Par conséquent, la solution doit fournir une capacité de stockage de données infinie et la technologie doit être suffisamment mûre.

Prochaines étapes et formations sur les Data Warehouses

Apprendre ce qu’est un Data Warehouse et comment le mettre en œuvre est essentiel pour un professionnel du Big Data. Voici deux cours sur les Data Warehouses vivement recommandés pour continuer à apprendre :

Questions Fréquemment Posées sur les Data Warehouses – FAQ

J’ai créé une nouvelle vidéo-résumé avec les principaux éléments à comprendre sur les exigences d’un Data Warehouse dans le domaine du Big Data.

GUIDE

Qu’est-ce qu’un Data Warehouse ?