Moderne Analysearchitektur mit Azure Databricks

Azure Data Factory

Azure Data Lake Storage

Azure Databricks

Azure Synapse Analytics

Power BI

Lösungsmöglichkeiten

Dieser Artikel ist ein Lösungsvorschlag. Wenn Sie möchten, dass wir diesen Artikel um weitere Informationen ergänzen, z. B. potenzielle Anwendungsfälle, alternative Dienste, Überlegungen zur Implementierung oder Preisempfehlungen, lassen Sie es uns über Feedback auf GitHub wissen.

Diese Lösung beschreibt eine moderne Datenarchitektur. Azure Databricks bildet den Kern der Lösung. Diese Plattform funktioniert nahtlos mit anderen Diensten, wie z. B. Azure Data Lake Storage Gen2, Azure Data Factory, Azure Synapse Analytics und Power BI.

Apache® und Apache Spark™ sind entweder eingetragene Marken oder Marken der Apache Software Foundation in den USA und/oder anderen Ländern. Die Verwendung dieser Markierungen impliziert kein Endorsement durch die Apache Software Foundation.

Aufbau

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

Azure Databricks erfasst Streaming-Rohdaten aus Azure Event Hubs.
Data Factory lädt Batch-Rohdaten in Data Lake Storage Gen2.
Für Datenspeicher:
- Data Lake Storage Gen2 beherbergt Daten aller Arten, wie strukturierte, unstrukturierte und halbstrukturierte. Es speichert auch Batch- und Streaming-Daten.
- Delta Lake bildet die kuratierte Schicht des Data Lake. Es speichert die verfeinerten Daten in einem Open-Source-Format.
- Azure Databricks arbeitet gut mit einer Medaillon-Architektur, die Daten in Schichten organisiert:
  - Bronze: Enthält Rohdaten.
  - Silber: Enthält bereinigte, gefilterte Daten.
  - Gold: Speichert aggregierte Daten, die für Geschäftsanalysen nützlich sind.
Die analytische Plattform erfasst die Daten aus den verschiedenen Batch- und Streaming-Quellen. Datenanalysten verwenden verschiedene Tools für diese Aufgaben.
- Datenaufbereitung
- Datenuntersuchung
- Modellvorbereitung
- Modelltraining
MLflow verwaltet die Parameter-, Metrik- und Modellverfolgung in Data-Science-Code-Läufen. Die Kodiermöglichkeiten sind flexibel:
- Code kann in SQL, Python, R und Scala sein.
- Der Code kann beliebte Open-Source-Bibliotheken und -Frameworks wie Koalas, Pandas und scikit-learn verwenden, die vorinstalliert und optimiert sind.
- Praktiker können Leistung und Kosten mit Single-Node- und Multi-Node-Rechenoptionen optimieren.
Machine-Learning-Modelle sind in verschiedenen Formaten verfügbar:
- Azure Databricks speichert Informationen über Modelle in der MLflow-Modellregistrierung. Die Registrierung stellt Modelle über Batch-, Streaming- und REST-APIs zur Verfügung.
- Die Lösung kann Modelle auch auf Azure Machine Learning Web Services oder Azure Kubernetes Service (AKS) bereitstellen.
Dienste, die mit den Daten arbeiten, stellen eine Verbindung mit einer einzelnen zugrunde liegenden Datenquelle her, um Konsistenz sicherzustellen. Zum Beispiel können Benutzer mit Azure Databricks SQL Analytics SQL-Abfragen auf dem Data Lake ausführen. Dieser Dienst:
- Bietet einen Abfrage-Editor und -Katalog, die Abfrage-Historie, grundlegendes Dashboarding und Warnungen.
- Verwendet integrierte Sicherheit, die Berechtigungen auf Zeilen- und Spaltenebene umfasst.
- Verwendet eine Photon-betriebene Delta-Engine, um die Leistung zu beschleunigen.
Power BI generiert analytische und historische Berichte und Dashboards aus der einheitlichen Datenplattform. Bei der Arbeit mit Azure Databricks verwendet dieser Dienst die folgenden Funktionen:
- Ein integrierter Azure Databricks-Konnektor zur Visualisierung der zugrunde liegenden Daten.
- Optimierte Java Database Connectivity-Treiber (JDBC) und ODBC-Treiber (Open Database Connectivity).
Benutzer können Gold-DataSets über den optimierten Synapse-Connector aus dem Data Lake in Azure Synapse exportieren. SQL-Pools in Azure Synapse stellen eine Data Warehousing- und Compute-Umgebung bereit.
Die Lösung verwendet Azure-Dienste für Zusammenarbeit, Leistung, Zuverlässigkeit, Governance und Sicherheit:
- Microsoft Purview bietet Datenermittlungsdienste, vertrauliche Datenklassifizierung und Governance-Erkenntnisse für den gesamten Datenbestand.
- Azure DevOps bietet Continuous Integration und Continuous Deployment (CI/CD) sowie andere integrierte Features zur Versionskontrolle.
- Azure Key Vault verwaltet Geheimnisse, Schlüssel und Zertifikate sicher.
- Microsoft Entra ID stellt einmaliges Anmelden (Single Sign-On, SSO) für Azure Databricks-Benutzer*innen bereit. Azure Databricks unterstützt die automatisierte Benutzerbereitstellung mit Microsoft Entra ID für diese Aufgaben:
  - Erstellen neuer Benutzer.
  - Zuweisen einer Zugriffsebene für jeden Benutzer.
  - Entfernen von Benutzern und Verweigern des Zugriffs.
- Azure Monitor erfasst und analysiert Azure-Ressourcentelemetriedaten. Durch die proaktive Identifizierung von Problemen maximiert dieser Dienst Leistung und Zuverlässigkeit.
- Azure Cost Management and Billing bietet Finanzgovernancedienste für Azure-Workloads.

Komponenten

Diese Lösung verwendet die folgenden Komponenten.

Kernkomponenten

Azure Databricks ist eine Datenanalyseplattform. Von den vollständig verwalteten Spark-Clustern der Plattform werden große Datenströme aus mehreren Quellen verarbeitet. Azure Databricks bereinigt und transformiert strukturlose Datensätze. Die verarbeiteten Daten werden mit strukturierten Daten aus Betriebsdatenbanken oder Data Warehouses kombiniert. Azure Databricks trainiert außerdem skalierbare Machine-Learning- und Deep-Learning-Modelle und stellt sie bereit.
Event Hubs ist eine Big Data-Streamingplattform. Als Platform as a Service (PaaS) wird dieser Ereigniserfassungsdienst vollständig verwaltet.
Data Factory ist ein hybrider Datenintegrationsdienst. Diese vollständig verwaltete, serverlose Lösung ermöglicht das Erstellen, Planen und Orchestrieren von Datentransformationsworkflows.
Data Lake Storage Gen2 ist ein skalierbarer und sicherer Data Lake für Hochleistungs-Analyseworkloads. Dieser Dienst kann mehrere Petabyte an Informationen verwalten und gleichzeitig Hunderte von Gigabyte an Durchsatz aufrechterhalten. Die Daten können strukturiert, halbstrukturiert oder unstrukturiert sein. Sie stammt in der Regel aus mehreren heterogenen Quellen wie Protokollen, Dateien und Medien.
Azure Databricks SQL Analytics führt Abfragen für Data Lakes aus. Dieser Dienst visualisiert auch Daten in Dashboards.
Machine Learning ist eine cloudbasierte Umgebung, mit der Sie Predictive-Analytics-Lösungen erstellen, bereitstellen und verwalten können. Mit diesen Modellen können Sie Verhalten, Ergebnisse und Trends prognostizieren.
AKS ist ein hochverfügbarer, sicherer und vollständig verwalteter Kubernetes-Dienst. AKS erleichtert das Bereitstellen und Verwalten containerisierter Anwendungen.
Azure Synapse ist ein Analysedienst für Data Warehouses und Big-Data-Systeme. Dieser Dienst ist in Power BI, Machine Learning und andere Azure-Dienste integriert.
Azure Synapse-Konnektoren bieten eine Möglichkeit, über Azure Databricks auf Azure Synapse zuzugreifen. Diese Konnektoren übertragen effizient große Datenmengen zwischen Azure Databricks-Clustern und Azure Synapse-Instanzen.
SQL-Pools stellen eine Data Warehousing- und Compute-Umgebung in Azure Synapse bereit. Die Pools sind mit Azure Storage und Data Lake Storage Gen2 kompatibel.
Delta Lake ist eine Speicherebene, die ein offenes Dateiformat verwendet. Diese Ebene wird auf Cloudspeicher wie Data Lake Storage Gen2 ausgeführt. Delta Lake unterstützt Datenversionsierung, Rollback und Transaktionen zum Aktualisieren, Löschen und Zusammenführen von Daten.
MLflow ist eine Open-Source-Plattform für den Machine-Learning-Lebenszyklus. Seine Komponenten überwachen Machine-Learning-Modelle während des Trainings und der Ausführung. MLflow speichert auch Modelle und lädt sie in der Produktion.

Berichts- und Steuerungskomponenten

Power BI ist eine Sammlung von Softwarediensten und Apps. Diese Dienste erstellen Berichte, die nicht verbundene Datenquellen verbinden und visualisieren, und geben diese frei. Zusammen mit Azure Databricks kann Power BI Ursachenermittlung und Rohdatenanalyse bieten.
Microsoft Purview verwaltet lokale, Multicloud- und SaaS-Daten (Software-as-a-Service). Dieser Governancedienst verwaltet Datenlandschaftszuordnungen. Zu den Features gehören die automatisierte Datenermittlung, die Klassifizierung vertraulicher Daten und die Datenherkunft.
Azure DevOps ist eine DevOps-Orchestrierungsplattform. Dieser SaaS stellt Tools und Umgebungen zum Erstellen, Bereitstellen und Zusammenarbeiten an Anwendungen bereit.
Azure Key Vault speichert und steuert den Zugriff auf Geheimnisse wie Token, Kennwörter und API-Schlüssel. Key Vault dient außerdem dem Erstellen und Steuern von Verschlüsselungsschlüsseln sowie dem Verwalten von Sicherheitszertifikaten.
Microsoft Entra ID stellt cloudbasierte Identitäts- und Zugriffsverwaltungsdienste bereit. Diese Features bieten Benutzern die Möglichkeit, sich anzumelden und auf Ressourcen zuzugreifen.
Azure Monitor erfasst und analysiert Daten zu Umgebungen und Azure-Ressourcen. Diese Daten umfassen App-Telemetriedaten, z. B. Leistungsmetriken und Aktivitätsprotokolle.
Azure Cost Management and Billing verwaltet die Cloudausgaben. Mithilfe von Budgets und Empfehlungen organisiert dieser Dienst Ausgaben und zeigt, wie Kosten reduziert werden können.

Szenariodetails

Moderne Datenarchitekturen erfüllen folgende Kriterien:

Vereinheitlichen von Daten-, Analyse- und KI-Workloads.
Effiziente und zuverlässige Ausführung in beliebigem Umfang.
Bereitstellung von Einblicken durch Analyse-Dashboards, operative Berichte oder erweiterte Analysen.

Diese Lösung beschreibt eine moderne Datenarchitektur, die diese Ziele erreicht. Azure Databricks bildet den Kern der Lösung. Diese Plattform funktioniert nahtlos mit anderen Diensten. Zusammen stellen diese Dienste eine Lösung mit den folgenden Qualitäten bereit:

Einfach: Einheitliche Analysen, Data Science und maschinelles Lernen vereinfachen die Datenarchitektur.
Offen: Die Lösung unterstützt Open-Source-Code, offene Standards und offene Frameworks. Sie funktioniert auch mit gängigen integrierten Entwicklungsumgebungen (IDEs), Bibliotheken und Programmiersprachen. Durch native Konnektoren und APIs arbeitet die Lösung auch mit einer breiten Palette anderer Dienste zusammen.
Kollaborativ: Dateningenieure, Datenwissenschaftler und Analysten arbeiten bei dieser Lösung zusammen. Sie können kollaborative Notebooks, IDEs, Dashboards und andere Tools verwenden, um auf gemeinsame zugrunde liegende Daten zuzugreifen und diese zu analysieren.

Mögliche Anwendungsfälle

Das System, das die Swiss Re Group für ihren Geschäftsbereich „Schaden- und Unfall-Rückversicherung“ aufgebaut hat, inspirierten diese Lösung. Neben der Versicherungsbranche kann auch jeder Bereich, der mit Big Data oder maschinellem Lernen arbeitet, von dieser Lösung profitieren. Beispiele:

Der Energiesektor
Einzelhandel und E-Commerce
Bank- und Finanzwesen
Medizin und Gesundheitswesen

Nächste Schritte

Anleitung: Erstellen einer End-to-End Daten-Pipeline in Databricks.

Informationen zu verwandten Lösungen finden Sie hier:

Moderne Analysearchitektur mit Azure Databricks

Aufbau

Datenfluss

Komponenten

Kernkomponenten

Berichts- und Steuerungskomponenten

Szenariodetails

Mögliche Anwendungsfälle

Nächste Schritte

Zugehörige Ressourcen

Verwandte Anleitungen zur Architektur

Verwandte Architekturen

Feedback

Feedback

Zusätzliche Ressourcen