Moderne analysearchitectuur met Azure Databricks

Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Synapse Analytics
Power BI

Oplossingsideeën

Dit artikel is een oplossingsidee. Als u wilt dat we de inhoud uitbreiden met meer informatie, zoals mogelijke use cases, alternatieve services, implementatieoverwegingen of prijsrichtlijnen, laat het ons dan weten door GitHub-feedback te geven.

Deze oplossing geeft een overzicht van een moderne gegevensarchitectuur. Azure Databricks vormt de kern van de oplossing. Dit platform werkt naadloos samen met andere services, zoals Azure Data Lake Storage Gen2, Azure Data Factory, Azure Synapse Analytics en Power BI.

Apache en Apache® Spark™ zijn gedeponeerde handelsmerken of handelsmerken van de Apache Software Foundation in de Verenigde Staten en/of andere landen. Er wordt geen goedkeuring door De Apache Software Foundation geïmpliceerd door het gebruik van deze markeringen.

Architectuur

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

  1. Azure Databricks neemt onbewerkte streaminggegevens van Azure Event Hubs op.

  2. Data Factory laadt onbewerkte batchgegevens in Data Lake Storage Gen2.

  3. Voor gegevensopslag:

    • Data Lake Storage Gen2 bevat gegevens van alle typen, zoals gestructureerd, ongestructureerd en semi-gestructureerd. Ook worden batch- en streaminggegevens opgeslagen.

    • Delta Lake vormt de gecureerde laag van de data lake. De verfijnde gegevens worden opgeslagen in een opensource-indeling.

    • Azure Databricks werkt goed met een medalsight-architectuur die gegevens in lagen ordent:

      • Brons: bevat onbewerkte gegevens.
      • Zilver: Bevat opgeschoonde, gefilterde gegevens.
      • Goud: slaat geaggregeerde gegevens op die nuttig zijn voor zakelijke analyses.
  4. Het analytische platform neemt gegevens op uit de verschillende batch- en streamingbronnen. Gegevenswetenschappers gebruiken deze gegevens voor deze taken:

    • Gegevensvoorbereiding.
    • Gegevensverkenning.
    • Modelvoorbereiding.
    • Modeltraining.

    MLflow beheert parameters, metrische gegevens en modeltracking in uitvoeringen van data science-code. De coderingsmogelijkheden zijn flexibel:

    • Code kan zich in SQL, Python, R en Scala bevindt.
    • Code kan gebruikmaken van populaire opensource-bibliotheken en -frameworks, zoals Koalas, Pandas en scikit-learn, die vooraf zijn geïnstalleerd en geoptimaliseerd.
    • Beoefenaars kunnen optimaliseren voor prestaties en kosten met rekenopties met één knooppunt en meerdere knooppunten.
  5. Machine learning-modellen zijn beschikbaar in verschillende indelingen:

    • Azure Databricks slaat informatie op over modellen in het MLflow-modelregister. Het register maakt modellen beschikbaar via batch-, streaming- en REST-API's.
    • De oplossing kan ook modellen implementeren in Azure Machine Learning-webservices of Azure Kubernetes Service (AKS).
  6. Services die met de gegevens werken, maken verbinding met één onderliggende gegevensbron om consistentie te garanderen. Gebruikers kunnen bijvoorbeeld SQL-query's uitvoeren op de data lake met Azure Databricks SQL Analytics. Met deze service kunt u:

    • Biedt een queryeditor en catalogus, de querygeschiedenis, basisdashboarding en waarschuwingen.
    • Maakt gebruik van geïntegreerde beveiliging met machtigingen op rij- en kolomniveau.
    • Maakt gebruik van een Door Photon aangedreven Delta Engine om de prestaties te versnellen.
  7. Power BI genereert analytische en historische rapporten en dashboards van het geïntegreerde gegevensplatform. Deze service gebruikt deze functies bij het werken met Azure Databricks:

    • Een ingebouwde Azure Databricks-connector voor het visualiseren van de onderliggende gegevens.
    • Geoptimaliseerde Stuurprogramma's voor Java Database Verbinding maken iviteit (JDBC) en ODBC-stuurprogramma's (Open Database Verbinding maken ivity).
  8. Gebruikers kunnen gouden gegevenssets uit de data lake exporteren naar Azure Synapse via de geoptimaliseerde Synapse-connector. SQL-pools in Azure Synapse bieden een datawarehousing- en rekenomgeving.

  9. De oplossing maakt gebruik van Azure-services voor samenwerking, prestaties, betrouwbaarheid, governance en beveiliging:

    • Microsoft Purview biedt services voor gegevensdetectie, classificatie van gevoelige gegevens en governance-inzichten in de gegevensomgeving.

    • Azure DevOps biedt continue integratie en continue implementatie (CI/CD) en andere geïntegreerde functies voor versiebeheer.

    • Azure Key Vault beheert veilig geheimen, sleutels en certificaten.

    • Microsoft Entra ID biedt eenmalige aanmelding (SSO) voor Azure Databricks-gebruikers. Azure Databricks biedt ondersteuning voor geautomatiseerde inrichting van gebruikers met Microsoft Entra ID voor deze taken:

      • Nieuwe gebruikers maken.
      • Elke gebruiker een toegangsniveau toewijzen.
      • Gebruikers verwijderen en hen toegang weigeren.
    • Azure Monitor verzamelt en analyseert telemetriegegevens van Azure-resources. Door proactief problemen te identificeren, maximaliseert deze service de prestaties en betrouwbaarheid.

    • Azure Cost Management en Facturering bieden financiële governanceservices voor Azure-workloads.

Onderdelen

De oplossing maakt gebruik van de volgende onderdelen.

Kernonderdelen

  • Azure Databricks is een platform voor gegevensanalyse. De volledig beheerde Spark-clusters verwerken grote gegevensstromen uit meerdere bronnen. Azure Databricks schoont en transformeert structuurloze gegevenssets. De verwerkte gegevens worden gecombineerd met gestructureerde gegevens uit operationele databases of datawarehouses. Azure Databricks traint en implementeert ook schaalbare machine learning- en Deep Learning-modellen.

  • Event Hubs is een big data-streamingplatform. Als PaaS (Platform as a Service) wordt deze gebeurtenisopnameservice volledig beheerd.

  • Data Factory is een hybride service voor gegevensintegratie. U kunt deze volledig beheerde, serverloze oplossing gebruiken om werkstromen voor gegevenstransformatie te maken, te plannen en te organiseren.

  • Data Lake Storage Gen2 is een schaalbare en veilige Data Lake voor high-performance analyseworkloads. Deze service kan meerdere petabytes aan informatie beheren terwijl honderden gigabits aan doorvoer worden ondersteund. De gegevens kunnen gestructureerd, semigestructureerd of ongestructureerd zijn. Het komt meestal uit meerdere, heterogene bronnen, zoals logboeken, bestanden en media.

  • Azure Databricks SQL Analytics voert query's uit op data lakes. Met deze service worden ook gegevens in dashboards gevisualiseerd.

  • Machine Learning is een cloudomgeving waarmee u predictive analytics-oplossingen kunt bouwen, implementeren en beheren. Met deze modellen kunt u gedrag, resultaten en trends voorspellen.

  • AKS is een maximaal beschikbare, veilige en volledig beheerde Kubernetes-service. Met AKS kunt u eenvoudig containertoepassingen implementeren en beheren.

  • Azure Synapse is een analyseservice voor datawarehouses en big data-systemen. Deze service kan worden geïntegreerd met Power BI, Machine Learning en andere Azure-services.

  • Azure Synapse-connectors bieden een manier om toegang te krijgen tot Azure Synapse vanuit Azure Databricks. Deze connectors dragen efficiënt grote hoeveelheden gegevens over tussen Azure Databricks-clusters en Azure Synapse-exemplaren.

  • SQL-pools bieden een datawarehousing- en rekenomgeving in Azure Synapse. De pools zijn compatibel met Azure Storage en Data Lake Storage Gen2.

  • Delta Lake is een opslaglaag die gebruikmaakt van een geopende bestandsindeling. Deze laag wordt uitgevoerd op cloudopslag, zoals Data Lake Storage Gen2. Delta Lake ondersteunt gegevensversiebeheer, terugdraaien en transacties voor het bijwerken, verwijderen en samenvoegen van gegevens.

  • MLflow is een opensource-platform voor de levenscyclus van machine learning. De onderdelen bewaken machine learning-modellen tijdens de training en uitvoering. MLflow slaat ook modellen op en laadt ze in productie.

Rapportage en beheer van onderdelen

  • Power BI is een verzameling softwareservices en apps. Deze services maken en delen rapporten waarmee niet-gerelateerde gegevensbronnen worden verbonden en gevisualiseerd. Samen met Azure Databricks kan Power BI hoofdoorzaakbepaling en onbewerkte gegevensanalyse bieden.

  • Microsoft Purview beheert on-premises, multicloud- en SaaS-gegevens (Software as a Service). Deze governanceservice onderhoudt gegevenslandschapskaarten. Functies zijn geautomatiseerde gegevensdetectie, classificatie van gevoelige gegevens en gegevensherkomst.

  • Azure DevOps is een DevOps-indelingsplatform. Deze SaaS biedt hulpprogramma's en omgevingen voor het bouwen, implementeren en samenwerken aan toepassingen.

  • Azure Key Vault slaat de toegang tot geheimen, zoals tokens, wachtwoorden en API-sleutels, op en beheert deze. Key Vault maakt en beheert ook versleutelingssleutels en beheert beveiligingscertificaten.

  • Microsoft Entra ID biedt cloudservices voor identiteits- en toegangsbeheer. Deze functies bieden gebruikers een manier om zich aan te melden en toegang te krijgen tot resources.

  • Azure Monitor verzamelt en analyseert gegevens over omgevingen en Azure-resources. Deze gegevens omvatten app-telemetrie, zoals metrische prestatiegegevens en activiteitenlogboeken.

  • Azure Cost Management en Facturering beheren clouduitgaven. Door budgetten en aanbevelingen te gebruiken, organiseert deze service uitgaven en laat zien hoe u de kosten kunt verlagen.

Scenariodetails

Moderne gegevensarchitecturen voldoen aan deze criteria:

  • Gegevens, analyses en AI-workloads samenvoegen.
  • Efficiënt en betrouwbaar worden uitgevoerd op elke schaal.
  • Geef inzichten via analysedashboards, operationele rapporten of geavanceerde analyses.

Deze oplossing geeft een overzicht van een moderne gegevensarchitectuur die deze doelstellingen bereikt. Azure Databricks vormt de kern van de oplossing. Dit platform werkt naadloos samen met andere services. Samen bieden deze services een oplossing met deze kwaliteiten:

  • Eenvoudig: Geïntegreerde analyses, gegevenswetenschap en machine learning vereenvoudigen de gegevensarchitectuur.
  • Open: De oplossing ondersteunt opensource-code, open standaarden en open frameworks. Het werkt ook met populaire geïntegreerde ontwikkelomgevingen (IDE's), bibliotheken en programmeertalen. Via systeemeigen connectors en API's werkt de oplossing ook met een breed scala aan andere services.
  • Samenwerking: Data engineers, data scientists en analisten werken samen met deze oplossing. Ze kunnen samenwerkende notebooks, IDE's, dashboards en andere hulpprogramma's gebruiken om algemene onderliggende gegevens te openen en te analyseren.

Potentiële gebruikscases

Het systeem dat Swiss Re Group heeft gebouwd voor zijn Property & Casualty Herverzekeringsafdeling inspireerde deze oplossing. Naast de verzekeringsindustrie kan elk gebied dat werkt met big data of machine learning ook profiteren van deze oplossing. Voorbeelden zijn:

  • De energiesector
  • Retail e-commerce
  • Bankwezen en financiën
  • Geneeskunde en gezondheidszorg

Volgende stappen

Zie deze informatie voor meer informatie over gerelateerde oplossingen: