Découvrez Azure Databricks : la plateforme d’analyse unifiée pour l’IA et les données

Azure Databricks est une plateforme d’analyse unifiée et ouverte qui vous permet de construire, déployer, partager et entretenir des solutions de données, d’analyse et d’IA de qualité entreprise à grande échelle. La plateforme Azure Databricks Lakehouse s’intègre au stockage et à la sécurité cloud de votre compte, et gère et déploie l’infrastructure cloud en votre nom.

Table des matières

À quoi sert Azure Databricks ?

Nos clients utilisent Azure Databricks pour traiter, stocker, nettoyer, partager, analyser, modéliser et monétiser leurs ensembles de données avec des solutions allant de la BI à l’apprentissage automatique. Utilisez la plateforme Azure Databricks pour créer et déployer des workflows d’ingénierie des données, des modèles d’apprentissage automatique, des tableaux de bord d’analyse, et bien plus encore.

L’espace de travail Azure Databricks offre une interface et des outils unifiés pour la plupart des tâches liées aux données, notamment :

Planification et gestion des flux de travail de traitement des données
Travailler en SQL
Générer des tableaux de bord et des visualisations
Ingestion des données
Gestion de la sécurité, de la gouvernance et de la haute disponibilité/reprise après sinistre
Découverte, annotation et exploration des données
Gestion des ressources de calcul
Modélisation et suivi de l’apprentissage automatique (ML)
Mise en service des modèles d’apprentissage automatique
Contrôle de source avec Git

En plus de l’interface de l’espace de travail, vous pouvez interagir avec Azure Databricks de manière programmable avec les outils suivants :

API REST
Interface de ligne de commande (CLI)
Terraform

Intégration gérée avec open source

Databricks s’engage fortement envers la communauté open source. Databricks gère les mises à jour des intégrations open source dans les versions de Databricks Runtime. Les technologies suivantes sont des projets open source fondés par des employés de Databricks :

Delta Lake
Delta Sharing
MLflow
Apache Spark et Structured Streaming
Redash

Azure Databricks maintient plusieurs outils propriétaires qui intègrent et étendent ces technologies pour ajouter des performances optimisées et une facilité d’utilisation, tels que les éléments suivants :

Workflows
Catalogue Unity
Delta Live Tables
Databricks SQL
Photon

Comment Azure Databricks fonctionne-t-il avec Azure ?

L’architecture de la plateforme Azure Databricks se compose de deux parties principales :

L’infrastructure utilisée par Azure Databricks pour déployer, configurer et gérer la plateforme et les services.
L’infrastructure appartenant au client et gérée en collaboration par Azure Databricks et votre entreprise.

Contrairement à de nombreuses entreprises de données, Azure Databricks ne vous oblige pas à migrer vos données vers des systèmes de stockage propriétaires pour utiliser la plateforme. Au lieu de cela, vous configurez un espace de travail Azure Databricks en configurant des intégrations sécurisées entre la plateforme Azure Databricks et votre compte cloud, puis Azure Databricks déploie des clusters de calcul à l’aide des ressources cloud de votre compte pour traiter et stocker les données dans le stockage d’objets et les autres services intégrés que vous contrôlez.

Le catalogue Unity étend encore cette relation, vous permettant de gérer les autorisations d’accès aux données en utilisant la syntaxe SQL familière depuis Azure Databricks.

Les espaces de travail Azure Databricks répondent aux exigences de sécurité et de mise en réseau de certaines des plus grandes entreprises les plus soucieuses de la sécurité au monde. Azure Databricks facilite le démarrage des nouveaux utilisateurs sur la plateforme. Il élimine bon nombre des contraintes et des préoccupations liées à la gestion de l’infrastructure cloud, sans limiter les personnalisations et le contrôle nécessaires pour les équipes expérimentées en données, en exploitation et en sécurité.

Quels sont les cas d’utilisation courants d’Azure Databricks ?

Les cas d’utilisation d’Azure Databricks sont aussi variés que les données traitées sur la plateforme et les nombreuses personnes qui travaillent avec les données en tant que partie essentielle de leur travail. Les cas d’utilisation suivants mettent en évidence la façon dont les utilisateurs de votre organisation peuvent tirer parti d’Azure Databricks pour accomplir des tâches essentielles au traitement, au stockage et à l’analyse des données qui pilotent les fonctions et les décisions stratégiques de l’entreprise.

Créer un “data lakehouse” d’entreprise

Le “data lakehouse” combine les avantages des entrepôts de données d’entreprise et des data lakes pour accélérer, simplifier et unifier les solutions de données d’entreprise. Les ingénieurs en données, les data scientists, les analystes et les systèmes de production peuvent tous utiliser le “data lakehouse” comme source unique de vérité, permettant un accès rapide à des données cohérentes et réduisant les complexités de la construction, de la maintenance et de la synchronisation de nombreux systèmes de données distribués. Découvrez ce qu’est le “Databricks Lakehouse”.

ETL et ingénierie des données

Que vous génériez des tableaux de bord ou que vous alimentiez des applications d’intelligence artificielle, l’ingénierie des données fournit l’ossature des entreprises axées sur les données en veillant à ce que les données soient disponibles, propres et stockées dans des modèles de données permettant une découverte et une utilisation efficaces. Azure Databricks combine la puissance d’Apache Spark avec Delta Lake et des outils personnalisés pour offrir une expérience ETL (extraction, transformation, chargement) inégalée. Vous pouvez utiliser SQL, Python et Scala pour composer la logique ETL, puis orchestrer le déploiement des tâches planifiées en quelques clics seulement.

Delta Live Tables simplifie encore davantage l’ETL en gérant intelligemment les dépendances entre les ensembles de données et en déployant automatiquement et en mettant à l’échelle l’infrastructure de production pour garantir une livraison précise et rapide des données selon vos spécifications.

Azure Databricks propose plusieurs outils personnalisés pour l’ingestion des données, notamment Auto Loader, un outil efficace et évolutif pour le chargement incrémentiel et idempotent des données à partir du stockage d’objets et des data lakes dans le “data lakehouse”.

Apprentissage automatique, IA et science des données

L’apprentissage automatique d’Azure Databricks étend les fonctionnalités de base de la plateforme avec une suite d’outils adaptés aux besoins des data scientists et des ingénieurs en apprentissage automatique, notamment MLflow et le Databricks Runtime for Machine Learning. Découvrez l’apprentissage automatique avec Databricks.

Modèles de langage volumineux et IA générative

Le Databricks Runtime for Machine Learning inclut des bibliothèques telles que Hugging Face Transformers, qui vous permettent d’intégrer des modèles pré-entraînés existants ou d’autres bibliothèques open source dans votre flux de travail. L’intégration de MLflow facilite l’utilisation du service de suivi MLflow avec les pipelines de transformation, les modèles et les composants de traitement. De plus, vous pouvez intégrer des modèles OpenAI ou des solutions de partenaires tels que John Snow Labs dans vos flux de travail Databricks.

Avec Azure Databricks, vous pouvez personnaliser un modèle de langage volumineux (LLM) sur vos données pour une tâche spécifique. Avec le support d’outils open source tels que Hugging Face et DeepSpeed, vous pouvez efficacement prendre un LLM de base et commencer l’entraînement avec vos propres données pour une plus grande précision dans votre domaine et votre charge de travail.

De plus, Azure Databricks propose des fonctions d’IA que les analystes de données SQL peuvent utiliser pour accéder aux modèles LLM, y compris ceux d’OpenAI, directement dans leurs pipelines et flux de travail de données. Découvrez les fonctions d’IA sur Azure Databricks.

Entreposage de données, analyse et BI

Azure Databricks combine des interfaces conviviales avec des ressources de calcul économiques et un stockage évolutif et abordable pour offrir une plateforme puissante pour exécuter des requêtes analytiques. Les administrateurs configurent des clusters de calcul évolutifs en tant qu’entrepôts SQL, permettant aux utilisateurs de lancer des requêtes sans se soucier des complexités liées au travail dans le cloud. Les utilisateurs SQL peuvent exécuter des requêtes sur les données du “data lakehouse” à l’aide de l’éditeur de requêtes SQL ou dans des notebooks. Les notebooks prennent en charge Python, R, Scala ainsi que SQL, et permettent aux utilisateurs d’intégrer les mêmes visualisations disponibles dans les tableaux de bord, ainsi que des liens, des images et des commentaires rédigés en Markdown.

Gouvernance des données et partage sécurisé des données

Le catalogue Unity offre un modèle de gouvernance des données unifié pour le “data lakehouse”. Les administrateurs cloud configurent et intègrent des autorisations de contrôle d’accès pour le catalogue Unity, puis les administrateurs Azure Databricks peuvent gérer les autorisations pour les équipes et les individus. Les privilèges sont gérés avec des listes de contrôle d’accès (ACL) grâce à des interfaces conviviales ou à la syntaxe SQL, ce qui facilite la sécurisation de l’accès aux données sans avoir besoin de mettre à l’échelle la gestion des identités et des accès (IAM) et la mise en réseau propres au cloud.

Le catalogue Unity facilite l’exécution d’analyses sécurisées dans le cloud et offre une répartition des responsabilités qui limite la nécessité de former ou de mettre à niveau les compétences pour les administrateurs et les utilisateurs finaux de la plateforme. Découvrez ce qu’est le catalogue Unity.

Le “lakehouse” facilite le partage des données au sein de votre organisation en permettant simplement d’accorder l’accès aux requêtes à une table ou à une vue. Pour le partage en dehors de votre environnement sécurisé, le catalogue Unity propose une version gérée de Delta Sharing.

DevOps, CI/CD et orchestration des tâches

Les cycles de développement des pipelines ETL, des modèles d’apprentissage automatique et des tableaux de bord analytiques présentent chacun leurs propres défis uniques. Azure Databricks permet à tous vos utilisateurs de tirer parti d’une seule source de données, ce qui réduit les efforts redondants et les rapports désynchronisés. En fournissant en plus une suite d’outils communs pour la version, l’automatisation, la planification et le déploiement de code et de ressources de production, vous pouvez simplifier vos tâches de surveillance, d’orchestration et d’exploitation. Les workflows planifient les notebooks Azure Databricks, les requêtes SQL et tout autre code arbitraire. Les dépôts vous permettent de synchroniser les projets Azure Databricks avec plusieurs fournisseurs Git populaires. Pour un aperçu complet des outils, consultez les outils et les conseils pour les développeurs.

Analyse en temps réel et streaming

Azure Databricks exploite Apache Spark Structured Streaming pour travailler avec des données en streaming et des modifications de données incrémentielles. Structured Streaming s’intègre étroitement à Delta Lake, et ces technologies constituent les bases à la fois de Delta Live Tables et d’Auto Loader. Découvrez le streaming avec Azure Databricks.

GUIDE