Architecture d’analytique moderne avec Azure Databricks

Azure Data Factory

Azure Data Lake Storage

Azure Databricks

Azure Synapse Analytics

Power BI

Idées de solution

Cet article présente une idée de solution. Si vous souhaitez nous voir développer le contenu avec d’autres informations, telles que des cas d’usage potentiels, d’autres services, des considérations d’implémentation ou un guide des prix, faites-le-nous savoir avec les Commentaires de GitHub.

Cette solution décrit une architecture de données moderne. Azure Databricks forme le cœur de la solution. Cette plateforme fonctionne parfaitement avec d’autres services comme Azure Data Lake Storage Gen2, Azure Data Factory, Azure Synapse Analytics et Power BI.

Apache® et Apache Spark™ sont soit des marques déposées, soit des marques commerciales d’Apache Software Foundation aux États-Unis et/ou dans d’autres pays. L’utilisation de ces marques n’implique aucune approbation de l’Apache Software Foundation.

Architecture

Téléchargez un fichier Visio de cette architecture.

Dataflow

Azure Databricks ingère les données en streaming brutes à partir d’Azure Event Hubs.
Data Factory charge les données par lots brutes dans Data Lake Storage Gen2.
Pour le stockage des données :
- Data Lake Storage Gen2 héberge des données de tous types (structurées, non structurées et semi-structurées). Il stocke également les données par lots et en streaming.
- Delta Lake forme la couche organisée du lac de données. Il stocke les données affinées dans un format open source.
- Azure Databricks fonctionne bien avec une architecture en médailles qui organise les données en couches :
  - Bronze : contient les données brutes.
  - Argent : contient les données filtrées et nettoyées.
  - Or : stocke les données agrégées qui sont utiles pour l’analytique métier.
La plateforme analytique ingère les données à partir de sources de données en streaming et par lots disparates. Les scientifiques des données utilisent ces données pour effectuer les tâches suivantes :
- Préparation des données.
- Exploration des données.
- Préparation du modèle.
- Entraînement du modèle.
MLflow gère le suivi des paramètres, des métriques et des modèles dans les exécutions de code de science des données. Les possibilités de développement sont flexibles :
- Le code peut être en SQL, Python, R et Scala.
- Le code peut utiliser des bibliothèques et frameworks open source connus, tels que Koalas, Pandas et scikit-learn, qui sont préinstallés et optimisés.
- Les praticiens peuvent optimiser les performances et le coût grâce à des options de calcul mononœud et à multinœud.
Les modèles Machine Learning sont disponibles dans plusieurs formats :
- Azure Databricks stocke les informations sur les modèles dans le registre de modèles MLflow. Le registre rend les modèles disponibles via des API de traitement par lots, de streaming et REST.
- La solution peut également déployer les modèles sur Azure Kubernetes Service (AKS) ou les services web Azure Machine Learning.
Les services qui utilisent les données se connectent à une source de données sous-jacente unique pour garantir la cohérence. Par exemple, les utilisateurs peuvent exécuter des requêtes SQL sur le lac de données avec Azure Databricks SQL Analytics. Ce service :
- Fournit un éditeur de requête et un catalogue, l’historique des requêtes, un tableau de bord de base et des alertes.
- Utilise la sécurité intégrée qui comprend des autorisations au niveau des lignes et des colonnes.
- Utilise un moteur Delta de technologie Photon pour accélérer les performances.
Power BI génère des rapports et des tableaux de bord analytiques et historiques à partir de la plateforme de données unifiée. Ce service utilise ces fonctionnalités quand il fonctionne avec Azure Databricks :
- Un connecteur Azure Databricks intégré pour la visualisation des données sous-jacentes.
- Les pilotes JDBC (Java Database Connectivity) et ODBC (Open Database Connectivity) optimisés.
Les utilisateurs peuvent exporter des jeux de données Or à partir du lac de données vers Azure Synapse via le connecteur Synapse optimisé. Les pools SQL dans Azure Synapse fournissent un environnement d’entreposage de données et de calcul.
La solution utilise les services Azure pour la collaboration, les performances, la fiabilité, la gouvernance et la sécurité :
- Microsoft Purview fournit des services de découverte des données, une classification des données sensibles et des insights de gouvernance sur le patrimoine de données.
- Azure DevOps offre une intégration continue et un déploiement continu (CI/CD) et d’autres fonctionnalités de gestion de versions intégrées.
- Azure Key Vault gère les secrets, les clés et les certificats de manière sécurisée.
- Microsoft Entra ID fournit l’authentification unique (SSO) pour les utilisateurs Azure Databricks. Azure Databricks prend en charge l’attribution automatique d’utilisateurs avec Microsoft Entra ID pour les tâches suivantes :
  - Créer des utilisateurs
  - Attribuer un niveau d’accès à chaque utilisateur
  - Supprimer des utilisateurs et leur refuser l’accès
- Azure Monitor collecte et analyse la télémétrie des ressources Azure. En identifiant les problèmes de manière proactive, ce service optimise les performances et la fiabilité.
- Azure Cost Management and Billing fournit des services de gouvernance financière pour les charges de travail Azure.

Composants

Cette solution utilise les composants suivants :

Composants principaux

Azure Databricks est une plateforme d’analytique des données. Ses clusters Spark complètement managés traitent de grands flux de données provenant de plusieurs sources. Azure Databricks nettoie et transforme les jeux de données non structurés. Il combine les données traitées avec les données structurées de bases de données opérationnelles ou d’entrepôts de données. En outre, Azure Databricks entraîne et déploie des modèles Machine Learning et Deep Learning scalables.
Event Hubs est une plateforme de streaming de Big Data. En tant que service PaaS (Platform as a service), ce service d’ingestion d’événements est complètement managé.
Data Factory est un service d’intégration de données hybrides. Vous pouvez utiliser cette solution serverless complètement managée pour créer, planifier et orchestrer des workflows de transformation de données.
Data Lake Storage Gen2 est un lac de données scalable et sécurisé, destiné aux charges de travail d’analytique hautes performances. Il peut traiter plusieurs pétaoctets d’informations tout en maintenant un débit de plusieurs centaines de gigabits. Les données peuvent être structurées, semi-structurées ou non structurées. Elles proviennent généralement de plusieurs sources hétérogènes, telles que des journaux, des fichiers et des médias.
Azure Databricks SQL Analytics exécute des requêtes sur les lacs de données. Ce service visualise également les données dans les tableaux de bord.
Machine Learning est un environnement cloud qui vous aide à créer, déployer et gérer des solutions d’analyse prédictive. Avec ces modèles, vous pouvez prévoir le comportement, les résultats et les tendances.
AKS est un service Kubernetes hautement disponible, sécurisé et complètement managé. AKS facilite le déploiement et la gestion des applications conteneurisées.
Azure Synapse est un service d’analytique conçu pour les entrepôts de données et les systèmes de Big Data. Ce service s’intègre à Power BI, Machine Learning et d’autres services Azure.
Les connecteurs Azure Synapse offrent un moyen d’accéder à Azure Synapse à partir d’Azure Databricks. Ces connecteurs transfèrent efficacement de gros volumes de données entre les clusters Azure Databricks et les instances Azure Synapse.
Les pools SQL fournissent un environnement d’entreposage de données et de calcul dans Azure Synapse. Les pools sont compatibles avec le Stockage Azure et Data Lake Storage Gen2.
Delta Lake est une couche de stockage qui utilise un format de fichier ouvert. Cette couche s’exécute sur le stockage cloud, par exemple Data Lake Storage Gen2. Delta Lake prend en charge le versioning des données, la restauration et les transactions pour la mise à jour, la suppression et la fusion de données.
MLflow est une plateforme open source pour le cycle de vie du Machine Learning. Ses composants supervisent les modèles de Machine Learning pendant l’entraînement et l’exécution. En outre, MLflow stocke les modèles et les charge en production.

Composants de création de rapports et de gouvernance

Power BI est une collection de services logiciels et d’applications. Ces services créent et partagent des rapports qui se connectent et visualisent des sources de données non liées. Avec Azure Databricks, Power BI peut fournir une détermination de la cause racine et une analyse des données brutes.
Microsoft Purview gère les données locales, multiclouds et SaaS (software as a service). Ce service de gouvernance gère les cartes de paysage des données. Les fonctionnalités incluent la découverte automatisée des données, la classification des données sensibles et la traçabilité des données.
Azure DevOps est une plateforme d’orchestration DevOps. Cette suite SaaS fournit des outils et des environnements pour la création, le déploiement et la collaboration sur des applications.
Azure Key Vault stocke et contrôle l’accès aux secrets tels que les jetons, mots de passe et clés API. Key Vault crée et contrôle également des clés de chiffrement et gère les certificats de sécurité.
Microsoft Entra ID offre des services de gestion des identités et des accès basés sur le cloud. Ces fonctionnalités permettent aux utilisateurs de se connecter et d’accéder aux ressources.
Azure Monitor collecte et analyse des données dans les environnements et ressources Azure. Ces données incluent la télémétrie des applications, comme les métriques de performances et les journaux d’activité.
Azure Cost Management and Billing gère les dépenses cloud. En utilisant des budgets et des recommandations, ce service organise les dépenses et montre comment réduire les coûts.

Détails du scénario

Les architectures de données modernes répondent à ces critères :

Unification des charges de travail de données, d’analytique et d’intelligence artificielle.
Exécution efficace et fiable à n’importe quelle échelle.
Fourniture d’insights par le biais de tableaux de bord analytiques, de rapports opérationnels ou d’analytiques avancées.

Cette solution décrit une architecture de données moderne qui atteint ces objectifs. Azure Databricks forme le cœur de la solution. Cette plateforme fonctionne de façon transparente avec d’autres services. Ensemble, ces services offrent une solution qui présente les qualités suivantes :

Simple : l’analytique unifiée, la science des données et le Machine Learning simplifient l’architecture des données.
Ouverte : la solution prend en charge le code open source, les standards ouverts et les frameworks ouverts. Elle fonctionne également avec les langages de programmation, les bibliothèques et les environnements de développement intégrés (IDE) connus. Par le biais des connecteurs natifs et des API, la solution fonctionne également avec un large choix d’autres services.
Collaborative : les ingénieurs Données, les scientifiques des données et les analystes travaillent en collaboration avec cette solution. Ils peuvent utiliser des tableaux de bord, des IDE, des notebooks collaboratifs et d’autres outils pour accéder aux données sous-jacentes communes et les analyser.

Cas d’usage potentiels

Le système créé par Swiss Re Group pour sa division Property & Casualty Reinsurance a inspiré cette solution. Outre le secteur de l’assurance, tout domaine qui utilise le Big Data ou le Machine Learning peut tirer parti de cette solution. Voici quelques exemples :

Secteur de l’énergie
Vente et e-commerce
Banque et finances
Médecine et soins de santé

Étapes suivantes

Tutoriel : Créer un pipeline de données de bout en bout dans Databricks.

Pour découvrir les solutions associées, consultez les informations suivantes :

Architecture d’analytique moderne avec Azure Databricks

Architecture

Dataflow

Composants

Composants principaux

Composants de création de rapports et de gouvernance

Détails du scénario

Cas d’usage potentiels

Étapes suivantes

Ressources associées

Guides sur l’architecture connexe

Architectures connexes

Commentaires

Commentaires

Ressources supplémentaires