Moderní analytická architektura s využitím Azure Databricks

Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Synapse Analytics
Power BI

Nápady na řešení

Tento článek je myšlenkou řešení. Pokud chcete, abychom obsah rozšířili o další informace, jako jsou potenciální případy použití, alternativní služby, aspekty implementace nebo pokyny k cenám, dejte nám vědět tím, že nám poskytnete zpětnou vazbu k GitHubu.

Toto řešení popisuje moderní architekturu dat. Azure Databricks tvoří jádro řešení. Tato platforma bez problémů spolupracuje s dalšími službami, jako jsou Azure Data Lake Storage Gen2, Azure Data Factory, Azure Synapse Analytics a Power BI.

Apache® a Apache Spark™ jsou registrované ochranné známky nebo ochranné známky Apache Software Foundation v USA a/nebo v jiných zemích. Použití těchto značek nevyžaduje žádné doporučení Apache Software Foundation.

Architektura

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

Stáhněte si soubor aplikace Visio s touto architekturou.

Tok dat

  1. Azure Databricks ingestuje nezpracovaná streamovaná data ze služby Azure Event Hubs.

  2. Data Factory načítá nezpracovaná dávková data do Data Lake Storage Gen2.

  3. Úložiště dat:

    • Data Lake Storage Gen2 jsou data všech typů, jako jsou strukturovaná, nestrukturovaná a částečně strukturovaná. Ukládá také dávková a streamovaná data.

    • Delta Lake tvoří kurátorované vrstvy datového jezera. Uloží zpřesněná data v opensourcovém formátu.

    • Azure Databricks dobře funguje s architekturou medallionu, která uspořádá data do vrstev:

      • Bronzová: Uchovává nezpracovaná data.
      • Silver: Obsahuje vyčištěná, filtrovaná data.
      • Gold: Ukládá agregovaná data, která jsou užitečná pro obchodní analýzy.
  4. Analytická platforma ingestuje data z různorodých dávkových a streamovacích zdrojů. Datoví vědci používají tato data pro tyto úlohy:

    • Příprava dat.
    • Zkoumání dat
    • Příprava modelu
    • Trénování modelu

    MLflow spravuje spouštění parametrů, metrik a sledování modelů v kódu datových věd. Možnosti kódování jsou flexibilní:

    • Kód může být v JAZYCE SQL, Python, R a Scala.
    • Kód může používat oblíbené opensourcové knihovny a architektury, jako jsou Koalas, Pandas a scikit-learn, které jsou předem nainstalované a optimalizované.
    • Odborníci můžou optimalizovat výkon a náklady s využitím výpočetních možností s jedním uzlem a více uzly.
  5. Modely strojového učení jsou k dispozici v několika formátech:

    • Azure Databricks ukládá informace o modelech v registru modelů MLflow. Registr zpřístupňuje modely prostřednictvím dávkových, streamovaných a rozhraní REST API.
    • Řešení může také nasadit modely do webových služeb Azure Machine Učení nebo azure Kubernetes Service (AKS).
  6. Služby, které pracují s daty, se připojují k jednomu podkladovému zdroji dat, aby se zajistila konzistence. Uživatelé můžou například spouštět dotazy SQL na datovém jezeře pomocí Azure Databricks SQL Analytics. Tato služba:

    • Poskytuje editor dotazů a katalog, historii dotazů, základní řídicí panel a upozorňování.
    • Používá integrované zabezpečení, které zahrnuje oprávnění na úrovni řádků a sloupců.
    • Ke zrychlení výkonu používá Modul Delta s technologií Photon.
  7. Power BI generuje analytické a historické sestavy a řídicí panely z sjednocené datové platformy. Tato služba používá tyto funkce při práci s Azure Databricks:

    • Integrovaný konektor Azure Databricks pro vizualizaci podkladových dat
    • Optimalizované ovladače JDBC (Java Database Připojení ivity) a Open Database Připojení ivity (ODBC).
  8. Uživatelé můžou exportovat zlaté datové sady z datového jezera do Azure Synapse prostřednictvím optimalizovaného konektoru Synapse. Fondy SQL ve službě Azure Synapse poskytují datové sklady a výpočetní prostředí.

  9. Řešení využívá služby Azure ke spolupráci, výkonu, spolehlivosti, zásadám správného řízení a zabezpečení:

    • Microsoft Purview poskytuje služby zjišťování dat, klasifikaci citlivých dat a přehledy zásad správného řízení napříč datovými aktivy.

    • Azure DevOps nabízí kontinuální integraci a průběžné nasazování (CI/CD) a další integrované funkce správy verzí.

    • Azure Key Vault bezpečně spravuje tajné kódy, klíče a certifikáty.

    • ID Microsoft Entra poskytuje uživatelům Azure Databricks jednotné přihlašování (SSO). Azure Databricks podporuje automatizované zřizování uživatelů s ID Microsoft Entra pro tyto úlohy:

      • Vytváření nových uživatelů
      • Přiřazení úrovně přístupu každému uživateli
      • Odebrání uživatelů a odepření přístupu
    • Azure Monitor shromažďuje a analyzuje telemetrii prostředků Azure. Díky proaktivní identifikaci problémů tato služba maximalizuje výkon a spolehlivost.

    • Azure Cost Management a fakturace poskytují služby finančního řízení pro úlohy Azure.

Komponenty

Řešení používá následující komponenty.

Základní součásti

  • Azure Databricks je platforma pro analýzu dat. Jeho plně spravované clustery Spark zpracovávají velké datové proudy dat z více zdrojů. Azure Databricks vyčistí a transformuje bezstavové datové sady. Kombinuje zpracovávaná data se strukturovanými daty z provozních databází nebo datových skladů. Azure Databricks také trénuje a nasazuje škálovatelné modely strojového učení a hlubokého učení.

  • Event Hubs je platforma pro streamování velkých objemů dat. Jako platforma jako služba (PaaS) je tato služba pro příjem událostí plně spravovaná.

  • Data Factory je hybridní služba pro integraci dat. Pomocí tohoto plně spravovaného bezserverového řešení můžete vytvářet, plánovat a orchestrovat pracovní postupy transformace dat.

  • Data Lake Storage Gen2 je škálovatelné a zabezpečené datové jezero pro vysoce výkonné analytické úlohy. Tato služba může spravovat více petabajtů informací a současně udržovat stovky gigabitů propustnosti. Data můžou být strukturovaná, částečně strukturovaná nebo nestrukturovaná. Obvykle pochází z více heterogenních zdrojů, jako jsou protokoly, soubory a média.

  • Azure Databricks SQL Analytics spouští dotazy na datové jezera. Tato služba také vizualizuje data na řídicích panelech.

  • Machine Učení je cloudové prostředí, které pomáhá sestavovat, nasazovat a spravovat řešení prediktivní analýzy. Pomocí těchto modelů můžete předpovídat chování, výsledky a trendy.

  • AKS je vysoce dostupná, zabezpečená a plně spravovaná služba Kubernetes. AKS usnadňuje nasazování a správu kontejnerizovaných aplikací.

  • Azure Synapse je analytická služba pro datové sklady a systémy pro velké objemy dat. Tato služba se integruje s Power BI, machine Učení a dalšími službami Azure.

  • Konektory Azure Synapse poskytují způsob, jak získat přístup ke službě Azure Synapse z Azure Databricks. Tyto konektory efektivně přenášejí velké objemy dat mezi clustery Azure Databricks a instancemi Azure Synapse.

  • Fondy SQL poskytují datové sklady a výpočetní prostředí v Azure Synapse. Fondy jsou kompatibilní se službou Azure Storage a Data Lake Storage Gen2.

  • Delta Lake je vrstva úložiště, která používá otevřený formát souboru. Tato vrstva běží nad cloudovým úložištěm, jako je Data Lake Storage Gen2. Delta Lake podporuje správu verzí dat, vrácení zpět a transakce pro aktualizaci, odstraňování a slučování dat.

  • MLflow je opensourcová platforma pro životní cyklus strojového učení. Její komponenty monitorují modely strojového učení během trénování a běhu. MLflow také ukládá modely a načítá je v produkčním prostředí.

Vytváření sestav a řízení součástí

  • Power BI je kolekce softwarových služeb a aplikací. Tyto služby vytvářejí a sdílejí sestavy, které propojují a vizualizují nesouvisející zdroje dat. Společně s Azure Databricks může Power BI poskytovat základní příčinu stanovení a nezpracovanou analýzu dat.

  • Microsoft Purview spravuje místní, multicloudová a softwarová data jako služba (SaaS). Tato služba zásad správného řízení udržuje mapy na šířku dat. Mezi funkce patří automatizované zjišťování dat, klasifikace citlivých dat a rodokmen dat.

  • Azure DevOps je platforma pro orchestraci DevOps. Toto SaaS poskytuje nástroje a prostředí pro sestavování, nasazování a spolupráci na aplikacích.

  • Azure Key Vault ukládá a řídí přístup k tajným kódům, jako jsou tokeny, hesla a klíče rozhraní API. Key Vault také vytváří a řídí šifrovací klíče a spravuje certifikáty zabezpečení.

  • Microsoft Entra ID nabízí cloudové služby pro správu identit a přístupu. Tyto funkce poskytují uživatelům způsob přihlášení a přístupu k prostředkům.

  • Azure Monitor shromažďuje a analyzuje data o prostředích a prostředcích Azure. Tato data zahrnují telemetrii aplikací, jako jsou metriky výkonu a protokoly aktivit.

  • Azure Cost Management a fakturace spravují útraty v cloudu. Pomocí rozpočtů a doporučení tato služba organizuje výdaje a ukazuje, jak snížit náklady.

Podrobnosti scénáře

Moderní architektury dat splňují tato kritéria:

  • Sjednocení dat, analýz a úloh umělé inteligence
  • Spouštět efektivně a spolehlivě v libovolném měřítku.
  • Poskytuje přehledy prostřednictvím analytických řídicích panelů, provozních sestav nebo pokročilých analýz.

Toto řešení popisuje moderní architekturu dat, která tyto cíle dosahuje. Azure Databricks tvoří jádro řešení. Tato platforma bez problémů spolupracuje s dalšími službami. Tyto služby společně poskytují řešení s těmito vlastnostmi:

  • Jednoduché: Sjednocená analýza, datové vědy a strojové učení zjednodušují architekturu dat.
  • Open: Řešení podporuje opensourcový kód, otevřené standardy a otevřené architektury. Funguje také s oblíbenými integrovanými vývojovými prostředími (IDE), knihovnami a programovacími jazyky. Prostřednictvím nativních konektorů a rozhraní API řešení funguje také s širokou škálou dalších služeb.
  • Spolupráce: Datoví inženýři, datoví vědci a analytici spolupracují s tímto řešením. Můžou používat poznámkové bloky pro spolupráci, prostředí IDE, řídicí panely a další nástroje pro přístup k běžným podkladovým datům a jejich analýzu.

Potenciální případy použití

Systém, který Swiss Re Group vytvořil pro své oddělení nemovitostí a neformálního zajištění, toto řešení inspirovalo. Kromě pojišťovacího průmyslu může toto řešení využívat i jakákoli oblast, která pracuje s velkými objemy dat nebo strojové učení. Příkladem může být:

  • Odvětví energetiky
  • Maloobchodní prodej a elektronické obchodování
  • Bankovní a finanční sektor
  • Lékařství a zdravotnictví

Další kroky

Informace o souvisejících řešeních najdete v těchto informacích: