Snowflake développe la première “Cloud Data Warehouse” qui combine la puissance d’une Data Warehouse avec la flexibilité du Cloud. Apprenez tout ce que vous devez savoir à son sujet.
Pour stocker et analyser leurs données, de nombreuses entreprises utilisent des Data Warehouses. Malheureusement, les entrepôts de données “sur site” présentent plusieurs inconvénients. Elles sont souvent complexes, coûteuses, mal sécurisées et peuvent limiter la croissance de l’entreprise. Pour remédier à ce problème, Snowflake propose la première “Cloud Data Warehouse”.
Snowflake : qu’est-ce que c’est ?
Il s’agit d’une Data Warehouse proposée sous forme de SaaS (logiciel en tant que service). Cela signifie que l’utilisateur n’a pas besoin de choisir, d’installer, de configurer ou de gérer de matériel, ni d’installer, de configurer ou de gérer de logiciel. La maintenance, la gestion et la configuration sont entièrement prises en charge par Snowflake.
Tous les composants s’exécutent sur une infrastructure de Cloud public. Les calculs sont effectués sur des instances virtuelles, et le stockage des données est assuré par le service de stockage de Snowflake.
Cette Cloud Data Warehouse repose sur un nouveau moteur de base de données SQL reposant sur une architecture spécialement conçue pour le Cloud.
Snowflake : une architecture hybride qui fait toute la différence
Le principal point fort de Snowflake est son architecture brevetée. Il s’agit d’une architecture hybride entre les architectures de bases de données traditionnelles à disque partagé et les architectures de bases de données “shared-nothing”.
Ainsi, tout comme sur une architecture de disque partagé, Snowflake utilise un répertoire de données central pour les données persistantes accessibles depuis tous les nœuds de calcul de la Data Warehouse. Cependant, les requêtes sont traitées par le biais de clusters de calcul de traitement massivement parallèle, comme dans le cas des architectures “shared-nothing”.
Cela permet de combiner la simplicité d’une architecture “shared-disk” avec les performances et l’élasticité d’une architecture “shared-nothing”.
Comment fonctionne cette architecture ?
Cette architecture unique en son genre repose sur trois composants principaux : le stockage de base de données, le traitement de requêtes et les services Cloud. Lorsque les données sont chargées vers Snowflake, elles sont automatiquement réorganisées dans un format propriétaire compressé, optimisé et stocké sur le Cloud.
L’organisation, la taille, la structure, la compression des fichiers, ainsi que les métadonnées, les statistiques et les autres aspects du stockage des données sont pris en charge par Snowflake. Les objets stockés par Snowflake ne sont pas directement visibles ou accessibles par les utilisateurs, mais uniquement accessibles par le biais de requêtes SQL exécutées à l’aide de Snowflake.
Les requêtes sont traitées à l’aide de “warehouses virtuelles”. Chacune d’entre elles est un cluster de calcul massivement parallèle composé de multiples nœuds de calcul. Chaque warehouse est indépendante et ne partage pas ses ressources de calcul avec les autres warehouses virtuelles, ce qui permet une indépendance des performances.
Quels sont les avantages de Snowflake ?
Avec Snowflake, les entreprises peuvent profiter des performances d’une Data Warehouse combinée à la flexibilité du Cloud. Ainsi, les utilisateurs peuvent obtenir des informations à partir des données instantanément. De plus, l’utilisation est facturée à la seconde, ce qui permet une scalabilité infinie et une réduction des coûts. Les performances sont également élastiques et peuvent s’adapter aux besoins des utilisateurs.
Le partage des données peut être effectué en temps réel et en toute sécurité, ce qui permet aux entreprises de collaborer avec leurs partenaires sans prendre de risque. De plus, les données peuvent être répliquées entre plusieurs régions et fournisseurs de Cloud pour assurer une disponibilité permanente et sans interruption. Snowflake est compatible avec les Clouds AWS, Microsoft Azure et Google Cloud Platform.
Les partenaires technologiques de Snowflake
Snowflake se distingue également par son large écosystème de partenaires technologiques. Voici quelques-unes des technologies qui complètent la Cloud Data Warehouse :
Matillion, la solution de transformation de données pour Snowflake
Partenaire majeur de Snowflake, Matillion propose une solution d’intégration et d’analyse de données de différents formats en provenance de multiples Clouds. La migration, la préparation et tout le processus de transformation des données vers Snowflake sont prises en charge. Le modèle de facturation “pay-as-you-go” permet de réduire considérablement les coûts.
Fivetran, des connecteurs de données pour faciliter les requêtes
Avec Fivetran, les utilisateurs peuvent répliquer toutes leurs données sous forme de schémas “ready-to-query” sur Snowflake. Les connecteurs de données ne nécessitent aucune maintenance et peuvent être configurés en moins de cinq minutes. Cette solution permet aux utilisateurs de se concentrer sur l’analyse des données plutôt que sur la gestion des pipelines.
Wherescape, une solution d’automatisation pour Snowflake
Wherescape permet d’automatiser le design, le développement, le déploiement et l’exploitation des projets Snowflake. Cette solution permet aux utilisateurs de profiter plus facilement et plus rapidement des avantages de la Cloud Data Warehouse. Le cycle de développement peut être considérablement réduit, et le processus de codage est automatisé à 95%. De plus, elle élimine les tâches répétitives et chronophages.
Qubole, quand le Machine Learning rencontre Snowflake
Avec Qubole, la solution de big data-as-a-service, les utilisateurs peuvent utiliser Apache Spark sur les données stockées sur Snowflake. De plus, les modèles de Machine Learning ou d’intelligence artificielle peuvent être développés, entraînés et mis en production avec Spark grâce aux informations stockées sur Snowflake.
Il s’agit là de quelques exemples de partenaires technologiques de Snowflake. Au total, la société compte plus de 50 partenaires. Il est également important de mentionner Alooma, Segment et Locker parmi les autres partenaires de Snowflake.
Les concurrents de Snowflake : les meilleures alternatives
Snowflake n’est pas la seule Cloud Data Warehouse sur le marché. Face à la demande massive des entreprises de tous les secteurs, plusieurs géants de la tech proposent des offres similaires. On peut citer Microsoft Azure Synapse Analytics, Amazon Redshift sur AWS, Google Cloud BigQuery, IBM Db2 Database, Oracle Autonomous Warehouse et SAP Data Warehouse Cloud, pour n’en nommer que quelques-uns.
Il existe également plusieurs entreprises de moindre envergure proposant des alternatives, comme YellowBrick Data, Teradata Integrated Data Warehouse et Panoply. Tous proposent des plateformes de Data Warehousing et des services gérés.
Néanmoins, Snowflake bénéficie du soutien de plusieurs fournisseurs Cloud de renom tels que Salesforce. Il devra continuer à évoluer et à s’améliorer pour rester compétitif sur un marché en constante évolution.
Tout savoir sur Snowflake Inc.
L’entreprise Snowflake Inc, fondée dans la Silicon Valley par les Français Benoit Dageville et Thierry Cruanes, a développé la plateforme Snowflake pour permettre aux entreprises d’exploiter tout le potentiel de leurs données. Les utilisateurs ont profité d’un retour sur investissement moyen de plus de 600%. En septembre 2020, Snowflake est entrée en bourse au New York Stock Exchange avec une capitalisation boursière initiale de 70,4 milliards de dollars, la plus grande pour un éditeur de logiciel.
Image crédit : Snowflake