Modern analysarkitektur med Azure Databricks

Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Synapse Analytics
Power BI

Lösningsidéer

Den här artikeln är en lösningsidé. Om du vill att vi ska utöka innehållet med mer information, till exempel potentiella användningsfall, alternativa tjänster, implementeringsöverväganden eller prisvägledning, kan du meddela oss genom att ge GitHub-feedback.

Den här lösningen beskriver en modern dataarkitektur. Azure Databricks utgör kärnan i lösningen. Den här plattformen fungerar sömlöst med andra tjänster, till exempel Azure Data Lake Storage Gen2, Azure Data Factory, Azure Synapse Analytics och Power BI.

Apache® och Apache Spark™ är antingen registrerade varumärken eller varumärken som tillhör Apache Software Foundation i USA och/eller andra länder. Inget godkännande från Apache Software Foundation underförstås av användningen av dessa märken.

Arkitektur

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

Ladda ned en Visio-fil med den här arkitekturen.

Dataflöde

  1. Azure Databricks matar in rådata från Azure Event Hubs.

  2. Data Factory läser in råa batchdata i Data Lake Storage Gen2.

  3. För datalagring:

    • Data Lake Storage Gen2 innehåller data av alla typer, till exempel strukturerade, ostrukturerade och halvstrukturerade. Den lagrar även batch- och strömmande data.

    • Delta Lake utgör datasjöns kurerade lager. Den lagrar raffinerade data i ett format med öppen källkod.

    • Azure Databricks fungerar bra med en medaljongarkitektur som organiserar data i lager:

      • Brons: Innehåller rådata.
      • Silver: Innehåller rensade, filtrerade data.
      • Guld: Lagrar aggregerade data som är användbara för affärsanalys.
  4. Analysplattformen matar in data från de olika batch- och strömningskällorna. Dataexperter använder dessa data för dessa uppgifter:

    • Förberedelse av data.
    • Datautforskning.
    • Modellförberedelse.
    • Modellträning.

    MLflow hanterar parameter-, mått- och modellspårning i data science-kodkörningar. Kodningsmöjligheterna är flexibla:

    • Koden kan finnas i SQL, Python, R och Scala.
    • Kod kan använda populära bibliotek och ramverk med öppen källkod, till exempel Koalas, Pandas och scikit-learn, som är förinstallerade och optimerade.
    • Utövare kan optimera för prestanda och kostnader med beräkningsalternativ med en nod och flera noder.
  5. Maskininlärningsmodeller är tillgängliga i flera format:

    • Azure Databricks lagrar information om modeller i MLflow Model Registry. Registret gör modeller tillgängliga via batch-, strömnings- och REST-API:er.
    • Lösningen kan också distribuera modeller till Azure Machine Learning-webbtjänster eller Azure Kubernetes Service (AKS).
  6. Tjänster som fungerar med data ansluter till en enda underliggande datakälla för att säkerställa konsekvens. Användare kan till exempel köra SQL-frågor på datasjön med Azure Databricks SQL Analytics. Den här tjänsten:

    • Tillhandahåller en frågeredigerare och katalog, frågehistorik, grundläggande instrumentpaneler och aviseringar.
    • Använder integrerad säkerhet som innehåller behörigheter på radnivå och kolumnnivå.
    • Använder en fotodriven deltamotor för att påskynda prestandan.
  7. Power BI genererar analytiska och historiska rapporter och instrumentpaneler från den enhetliga dataplattformen. Den här tjänsten använder dessa funktioner när du arbetar med Azure Databricks:

  8. Användare kan exportera gulddatauppsättningar från datasjön till Azure Synapse via den optimerade Synapse-anslutningsappen. SQL-pooler i Azure Synapse tillhandahåller en datalager- och beräkningsmiljö.

  9. Lösningen använder Azure-tjänster för samarbete, prestanda, tillförlitlighet, styrning och säkerhet:

    • Microsoft Purview tillhandahåller dataidentifieringstjänster, klassificering av känsliga data och styrningsinsikter i dataegendomen.

    • Azure DevOps erbjuder kontinuerlig integrering och kontinuerlig distribution (CI/CD) och andra funktioner för integrerad versionskontroll.

    • Azure Key Vault hanterar hemligheter, nycklar och certifikat på ett säkert sätt.

    • Microsoft Entra ID tillhandahåller enkel inloggning (SSO) för Azure Databricks-användare. Azure Databricks stöder automatiserad användaretablering med Microsoft Entra-ID för följande uppgifter:

      • Skapa nya användare.
      • Tilldela varje användare en åtkomstnivå.
      • Ta bort användare och neka dem åtkomst.
    • Azure Monitor samlar in och analyserar Azure-resurstelemetri. Genom att proaktivt identifiera problem maximerar den här tjänsten prestanda och tillförlitlighet.

    • Azure Cost Management och Fakturering tillhandahåller finansiella styrningstjänster för Azure-arbetsbelastningar.

Komponenter

Lösningen använder följande komponenter.

Kärnkomponenter

  • Azure Databricks är en plattform för dataanalys. Dess fullständigt hanterade Spark-kluster bearbetar stora dataströmmar från flera källor. Azure Databricks rensar och transformerar strukturlösa datauppsättningar. Den kombinerar bearbetade data med strukturerade data från driftdatabaser eller informationslager. Azure Databricks tränar och distribuerar även skalbara maskininlärnings- och djupinlärningsmodeller.

  • Event Hubs är en plattform för stordataströmning. Som en plattform som en tjänst (PaaS) hanteras den här händelseinmatningstjänsten helt.

  • Data Factory är en hybridtjänst för dataintegrering. Du kan använda den här fullständigt hanterade, serverlösa lösningen för att skapa, schemalägga och samordna arbetsflöden för datatransformering.

  • Data Lake Storage Gen2 är en skalbar och säker datasjö för analysarbetsbelastningar med höga prestanda. Den här tjänsten kan hantera flera petabyte med information samtidigt som hundratals gigabit dataflöde bibehålls. Data kan vara strukturerade, halvstrukturerade eller ostrukturerade. Den kommer vanligtvis från flera heterogena källor som loggar, filer och media.

  • Azure Databricks SQL Analytics kör frågor om datasjöar. Den här tjänsten visualiserar även data i instrumentpaneler.

  • Machine Learning är en molnbaserad miljö som hjälper dig att skapa, distribuera och hantera lösningar för förutsägelseanalys. Med dessa modeller kan du förutsäga beteende, resultat och trender.

  • AKS är en mycket tillgänglig, säker och fullständigt hanterad Kubernetes-tjänst. AKS gör det enkelt att distribuera och hantera containerbaserade program.

  • Azure Synapse är en analystjänst för informationslager och stordatasystem. Den här tjänsten integreras med Power BI, Machine Learning och andra Azure-tjänster.

  • Azure Synapse-anslutningsappar är ett sätt att komma åt Azure Synapse från Azure Databricks. Dessa anslutningsappar överför effektivt stora mängder data mellan Azure Databricks-kluster och Azure Synapse-instanser.

  • SQL-pooler tillhandahåller en datalager- och beräkningsmiljö i Azure Synapse. Poolerna är kompatibla med Azure Storage och Data Lake Storage Gen2.

  • Delta Lake är ett lagringslager som använder ett öppet filformat. Det här lagret körs ovanpå molnlagring, till exempel Data Lake Storage Gen2. Delta Lake stöder dataversionshantering, återställning och transaktioner för uppdatering, borttagning och sammanslagning av data.

  • MLflow är en plattform med öppen källkod för maskininlärningslivscykeln. Dess komponenter övervakar maskininlärningsmodeller under träning och körning. MLflow lagrar även modeller och läser in dem i produktion.

Rapportering och styrning av komponenter

  • Power BI är en samling programtjänster och appar. Dessa tjänster skapar och delar rapporter som ansluter och visualiserar orelaterade datakällor. Tillsammans med Azure Databricks kan Power BI tillhandahålla rotorsaksbestämning och analys av rådata.

  • Microsoft Purview hanterar lokala, multimolnbaserade och saaS-data (software as a service). Den här styrningstjänsten underhåller datalandskapskartor. Funktionerna omfattar automatiserad dataidentifiering, klassificering av känsliga data och data härkomst.

  • Azure DevOps är en DevOps-orkestreringsplattform. Den här SaaS innehåller verktyg och miljöer för att skapa, distribuera och samarbeta i program.

  • Azure Key Vault lagrar och styr åtkomsten till hemligheter som token, lösenord och API-nycklar. Key Vault skapar och styr även krypteringsnycklar och hanterar säkerhetscertifikat.

  • Microsoft Entra ID erbjuder molnbaserade identitets- och åtkomsthanteringstjänster. De här funktionerna är ett sätt för användare att logga in och komma åt resurser.

  • Azure Monitor samlar in och analyserar data om miljöer och Azure-resurser. Dessa data omfattar apptelemetri, till exempel prestandamått och aktivitetsloggar.

  • Azure Cost Management och Fakturering hanterar molnutgifter. Med hjälp av budgetar och rekommendationer organiserar den här tjänsten utgifter och visar hur du minskar kostnaderna.

Information om scenario

Moderna dataarkitekturer uppfyller följande kriterier:

  • Förena arbetsbelastningar för data, analys och AI.
  • Kör effektivt och tillförlitligt i valfri skala.
  • Ge insikter via analysinstrumentpaneler, driftrapporter eller avancerad analys.

Den här lösningen beskriver en modern dataarkitektur som uppnår dessa mål. Azure Databricks utgör kärnan i lösningen. Den här plattformen fungerar sömlöst med andra tjänster. Tillsammans tillhandahåller dessa tjänster en lösning med följande egenskaper:

  • Enkelt: Enhetlig analys, datavetenskap och maskininlärning förenklar dataarkitekturen.
  • Öppen: Lösningen stöder öppen källkod, öppna standarder och öppna ramverk. Det fungerar också med populära integrerade utvecklingsmiljöer (IDEs), bibliotek och programmeringsspråk. Via interna anslutningsappar och API:er fungerar lösningen även med ett brett utbud av andra tjänster.
  • Samarbete: Datatekniker, dataforskare och analytiker arbetar tillsammans med den här lösningen. De kan använda gemensamma notebook-filer, IDE:er, instrumentpaneler och andra verktyg för att komma åt och analysera vanliga underliggande data.

Potentiella användningsfall

Systemet som Swiss Re Group byggde för sin division Property & Casualty Reinsurance inspirerade denna lösning. Förutom försäkringsbranschen kan alla områden som arbetar med stordata eller maskininlärning också dra nytta av den här lösningen. Exempel:

  • Energisektorn
  • Detaljhandel och näthandel
  • Bank och ekonomi
  • Medicin och sjukvård

Nästa steg

Mer information om relaterade lösningar finns i den här informationen: