Snowflake : Découvrez la première Cloud Data Warehouse

Snowflake : Découvrez la première Cloud Data Warehouse

Snowflake développe la première “Cloud Data Warehouse” permettant de combiner la puissance d’une Data Warehouse avec la flexibilité du Cloud. Plongeons dans tout ce qu’il faut savoir à son sujet.

Snowflake : Qu’est-ce que c’est ?

Il s’agit d’une Data Warehouse proposée sous la forme d’un SaaS (logiciel en tant que service). Cela signifie que l’utilisateur n’a pas besoin de choisir, d’installer, de configurer ou de gérer de matériel, ni d’installer, de configurer ou de gérer de logiciel. La maintenance, la gestion et la configuration sont entièrement prises en charge par Snowflake.

Tous les composants sont exécutés sur une infrastructure de Cloud public. Les calculs sont effectués sur des instances virtuelles, et le stockage de données est assuré par le service de stockage de Snowflake.

Cette Cloud Data Warehouse n’est pas basée sur une base de données existante ou sur une plateforme logicielle comme Hadoop. En fait, elle repose sur un nouveau moteur de base de données SQL reposant sur une architecture spécialement conçue pour le Cloud.

Snowflake : Une architecture hybride qui fait toute la différence

Le principal avantage de Snowflake réside dans son architecture brevetée. Il s’agit d’une architecture hybride entre les architectures de bases de données traditionnelles à disque partagé et les architectures de bases de données “shared-nothing”.

Ainsi, tout comme sur une architecture de disque partagé, Snowflake utilise un répertoire de données central pour les données persistantes accessibles depuis tous les nœuds de calcul de la Data Warehouse. Cependant, comme dans le cas des architectures “shared-nothing”, les requêtes sont traitées par le biais de clusters de calcul de traitement massivement parallèle.

Cela signifie que chaque nœud du cluster stocke une partie de l’ensemble de données localement. Ceci permet de combiner la simplicité d’une architecture “shared-disk” avec les performances et l’élasticité d’une architecture “shared-nothing”.

LIRE  Häufig gestellte Fragen sur les expériences animales

Comment fonctionne cette architecture ?

Cette architecture unique repose sur trois composants principaux : le stockage de la base de données, le traitement des requêtes et les services Cloud. Lorsque les données sont chargées dans Snowflake, elles sont automatiquement réorganisées dans un format propriétaire compressé, optimisé et stocké sur le Cloud.

L’organisation, la taille, la structure, la compression des fichiers, ainsi que les métadonnées, les statistiques et les autres aspects du stockage des données sont pris en charge par Snowflake. Les objets stockés par Snowflake ne sont pas directement visibles ou accessibles par les utilisateurs, mais uniquement accessibles par le biais de requêtes SQL exécutées à l’aide de Snowflake.

Les requêtes sont traitées à l’aide de “warehouses virtuelles”. Chacune d’entre elles est un cluster de calcul massivement parallèle composé de multiples nœuds de calcul. Chaque warehouse est indépendante et ne partage pas ses ressources de calcul avec les autres warehouses virtuelles. Ceci permet une indépendance des performances.

Quels sont les avantages de Snowflake ?

Avec Snowflake, les entreprises peuvent profiter des performances d’une Data Warehouse combinée à la flexibilité du Cloud. Ainsi, les utilisateurs peuvent obtenir des informations à partir des données de manière instantanée. De plus, l’utilisation est facturée à la seconde. Ceci permet une scalabilité infinie et une réduction des coûts. Les performances sont également élastiques et peuvent s’adapter aux besoins des utilisateurs.

Le partage de données peut être effectué en temps réel et en toute sécurité, ce qui permet aux entreprises de collaborer avec leurs partenaires sans prendre de risque. De plus, les données peuvent être répliquées entre plusieurs régions et fournisseurs de Cloud pour assurer une disponibilité permanente et sans interruption. Snowflake est compatible avec les Clouds AWS, Microsoft Azure et depuis peu avec la Google Cloud Platform.

Quels sont les inconvénients de Snowflake ?

Les entrepôts de données Snowflake présentent quelques inconvénients, mais cela ne signifie pas que les utilisateurs doivent les considérer comme un système d’entrepôt de données de premier ordre.

Prise en charge des données non structurées

Actuellement, Snowflake prend en charge les données structurées et semi-structurées. Cependant, les données non structurées seront prises en charge à l’avenir.

Chargement de données en masse

Pour migrer des données vers Snowflake, cela peut être un défi. Snowflake fournit Snowpipe pour le chargement continu de données, mais ce n’est pas le meilleur choix dans la plupart des cas. Par exemple, une solution plus robuste est Mitto de Zuar. Mitto reçoit des données de centaines de sources potentielles dans Snowflake, et tout peut être automatisé.

LIRE  Lutter contre les punaises de lit : conseils, traitements et prévention

Aucune contrainte en matière de données

Si Snowflake offre une grande évolutivité et permet aux utilisateurs de ne payer que pour ce dont ils ont besoin, il n’existe aucune limite de données qui s’applique à la fois au calcul et au stockage. Pour de nombreuses organisations, il peut être trop facile de dépasser les limites de leurs services pour se rendre compte du problème au moment de la facturation.

Pourquoi la plateforme Snowflake est une révolution ?

À l’ère de la numérisation de l’entreprise et grâce à l’essor des nouvelles technologies, les organisations génèrent de plus en plus de données. Désormais, toutes les industries croulent sous de vastes volumes d’informations. Le Big Data submerge les systèmes informatiques traditionnels, à tel point que ces données restent trop souvent inexploitées.

Une plateforme de type Data Warehouse permet de stocker, de traiter et d’analyser les données en provenance de multiples sources afin d’en dégager une valeur et de les exploiter. Toutefois, Snowflake propose de profiter de cet avantage sous la forme d’un service Cloud.

Les utilisateurs profitent d’un accès simplifié et d’une élasticité des ressources. La capacité de stockage et la puissance de traitement sont théoriquement illimitées. De plus, la maintenance et les opérations de mises à jour sont prises en compte par le fournisseur de service.

Des milliers d’entreprises utilisent désormais Snowflake. Parmi les utilisateurs, on compte aussi bien des petites entreprises que des géants du Fortune 500.

Un vaste écosystème de partenaires technologiques

Snowflake se distingue également par son large écosystème de partenaires technologiques. Voici quelques-unes des technologies qui viennent compléter la Cloud Data Warehouse.

Matillion, la solution de transformation de données pour Snowflake

Partenaire majeur de Snowflake, Matillion propose une solution d’intégration et d’analyse de données de différents formats en provenance de multiples Clouds. La migration, la préparation et tout le processus de transformation des données vers Snowflake sont prises en charge.

Ainsi, le processus de transformation s’en trouve fortement accéléré par rapport aux autres solutions ETL. Les utilisateurs peuvent donc utiliser Snowflake plus rapidement. L’interface intuitive facilite également la tâche. De plus, le modèle de facturation “pay-as-you-go” permet de réduire considérablement les coûts.

Fivetran, des connecteurs de données pour faciliter les requêtes

Avec Fivetran, les utilisateurs peuvent répliquer toutes leurs données sous la forme de schémas “ready-to-query” sur Snowflake. Les connecteurs de données ne nécessitent aucune maintenance et prennent moins de cinq minutes à configurer.

LIRE  Location de voiture à l’Aéroport de Milan Linate (LIN)

Les utilisateurs peuvent donc se concentrer sur l’analyse de données plutôt que sur la gestion du pipeline. Cette solution facilite l’exécution des requêtes sur la Data Warehouse à l’aide de SQL ou d’autres outils de Business Intelligence.

Wherescape, une solution d’automatisation pour Snowflake

Wherescape permet d’automatiser le design, le développement, le déploiement et l’exploitation des projets Snowflake. Cette solution permet aux utilisateurs de profiter plus facilement et plus rapidement des avantages de la Cloud Data Warehouse.

Le cycle de développement peut être considérablement raccourci, et le processus de codage est automatisé à 95%. De plus, elle élimine les tâches répétitives et chronophages. Le prototypage rapide permet également aux utilisateurs business d’accéder plus rapidement aux solutions analytiques.

Qubole, quand le Machine Learning rencontre Snowflake

Avec Qubole, la solution de big data-as-a-service, les utilisateurs peuvent utiliser Apache Spark sur les données sur Snowflake. En outre, les modèles de Machine Learning ou d’intelligence artificielle peuvent être développés, entraînés et mis en production avec Spark grâce aux informations stockées sur Snowflake.

De plus, les Data Engineers peuvent utiliser les fonctionnalités d’intégration des tâches de préparation des données avancées, comme le Data Wrangling, l’augmentation ou le raffinement des données.

Il ne s’agit là que de quelques exemples de partenaires technologiques de Snowflake. Au total, la firme californienne compte plus de 50 partenaires. On peut également citer Alooma qui permet de rassembler les données en provenance de multiples sources, Segment dont l’API permet de simplifier la collecte de données, ou encore Locker qui permet aux entreprises de devenir data-driven en ouvrant l’accès aux données.

Qui sont les concurrents de Snowflake ? Les meilleures alternatives

Snowflake est loin d’être la seule Data Warehouse Cloud sur le marché. Face à la demande massive des entreprises de tous les secteurs, plusieurs géants de la tech proposent des offres similaires.

On peut notamment citer Microsoft Azure Synapse Analytics (anciennement SQL Data Warehouse), Amazon Redshift sur AWS, Google Cloud BigQuery, IBM Db2 Database, Oracle Autonomous Warehouse, ou encore SAP Data Warehouse Cloud.

Il existe également plusieurs entreprises de moindre envergure proposant des alternatives. C’est le cas de YellowBrick Data, Teradata Integrated Data Warehouse, ou encore Panoply. Tous proposent des plateformes de Data Warehousing et des services gérés.

Néanmoins, Snowflake profite du soutien de plusieurs fournisseurs Cloud de renom tels que Salesforce. Il faudra toutefois que la plateforme continue à évoluer et à s’améliorer pour faire face à une concurrence toujours plus rude…

Tout savoir sur Snowflake Inc.

L’entreprise Snowflake Inc, fondée dans la Silicon Valley par les Français Benoit Dageville et Thierry Cruanes, a développé la plateforme Snowflake afin de permettre aux entreprises d’exploiter tout le potentiel des données à leur disposition.

Par ailleurs, les utilisateurs bénéficient d’un retour sur investissement de plus de 600% en moyenne. En septembre 2020, Snowflake est entrée en bourse au New York Stock Exchange. Le prix de l’offre initiale était de 120 dollars. Dès la fin du premier jour, le prix de l’action a dépassé 250 dollars. La capitalisation de l’entreprise a donc atteint 70,4 milliards de dollars, ce qui représente la plus grande capitalisation boursière initiale pour un éditeur de logiciel…