Datové vědy a strojové učení s využitím Azure Databricks

Azure Databricks
Azure Data Lake Storage
Azure Kubernetes Service (AKS)
Azure Machine Learning

Nápady na řešení

Tento článek je myšlenkou řešení. Pokud chcete, abychom obsah rozšířili o další informace, jako jsou potenciální případy použití, alternativní služby, aspekty implementace nebo pokyny k cenám, dejte nám vědět tím, že nám poskytnete zpětnou vazbu k GitHubu.

Tato architektura ukazuje, jak můžete zlepšit operace pomocí Azure Databricks, Delta Lake a MLflow pro datové vědy a strojové učení. Celkovou efektivitu a zkušenosti zákazníků můžete zlepšit vývojem, trénováním a nasazováním modelů strojového učení.

Architektura

Architecture diagram showing how Azure Databricks works with data storage services to refine and analyze data and make it available for other services.

Diagram obsahuje tři šedé obdélníky: jeden označený Proces, jeden označený Jako obsluha a jeden označený Obchod. Obdélníky Proces a Obsluha jsou vedle sebe v horní části diagramu. Obdélník Obsluha obsahuje bílé pole s ikonami pro Machine Učení a Azure Kubernetes Service. Další bílá skříňka straddles the Process and Serve obdélníky. Obsahuje ikony pro Azure Databricks a MLflow. Šipka ukazuje z daného pole na bílé pole v obdélníku Obsluha. Pod obdélníkem Proces je obdélník Store. Obsahuje bílé pole s ikonami pro Data Lake Storage, Delta Lake a tři databázové tabulky označené bronzovou, stříbrnou a zlatou. Tři čáry spojují obdélníky Proces a Uložit s šipkami na každém konci každého řádku.

Stáhněte si soubor aplikace Visio s touto architekturou.

Řešení ukládá, zpracovává a obsluhuje data:

Tok dat

Uložit

Data Lake Storage ukládá data ve formátu Delta Lake. Delta Lake tvoří kurátorované vrstvy datového jezera. Architektura medailonu uspořádá data do tří vrstev:

  • Bronzové tabulky obsahují nezpracovaná data.
  • Stříbrné tabulky obsahují vyčištěná a filtrovaná data.
  • Zlaté tabulky ukládají agregovaná data, která jsou připravená k analýze a vytváření sestav.

Zpracovat

  • Kód z různých jazyků, architektur a knihoven připraví, zpřesní a vyčistí nezpracovaná data (1). Mezi možnosti kódování patří Python, R, SQL, Spark, Pandas a Koalas.

  • Azure Databricks spouští úlohy datových věd. Tato platforma také vytváří a trénuje modely strojového učení (2). Azure Databricks používá předem nainstalované optimalizované knihovny. Mezi příklady patří scikit-learn, TensorFlow, PyTorch a XGBoost.

  • Sledování MLflow zachycuje experimenty, běhy modelů a výsledky strojového učení (3). Pokud je nejlepší model připravený pro produkční prostředí, Azure Databricks tento model nasadí do úložiště modelů MLflow. Tento centralizovaný registr ukládá informace o produkčních modelech. Registr také zpřístupňuje modely jiným komponentám:

    • Kanály Sparku a Pythonu můžou ingestovat modely. Tyto kanály zpracovávají dávkové úlohy nebo streamované procesy ETL.
    • Rozhraní REST API poskytují přístup k modelům pro mnoho účelů. Mezi příklady patří testování a interaktivní bodování v mobilních a webových aplikacích.

Sloužit

Azure Databricks může nasazovat modely do jiných služeb, jako jsou machine Učení a AKS (4).

Součásti

  • Azure Databricks je platforma pro analýzu dat. Jeho plně spravované clustery Spark spouštějí úlohy datových věd. Azure Databricks také používá předinstalované a optimalizované knihovny k vytváření a trénování modelů strojového učení. Integrace MLflow s Azure Databricks poskytuje způsob, jak sledovat experimenty, ukládat modely do úložišť a zpřístupnit modely pro jiné služby. Azure Databricks nabízí škálovatelnost:

    • Výpočetní clustery s jedním uzlem zpracovávají malé datové sady a jednomodelové spuštění.
    • Pro velké datové sady jsou k dispozici výpočetní clustery s více uzly nebo clustery GPU (Graphics Processing Unit). Tyto clustery používají knihovny a architektury, jako je HorovodRunner a Hyperopt pro běhy paralelního modelu.
  • Data Lake Storage je škálovatelné a zabezpečené datové jezero pro vysoce výkonné analytické úlohy. Tato služba spravuje několik petabajtů informací a současně udržuje stovky gigabitů propustnosti. Data můžou mít tyto vlastnosti:

    • Být strukturovaná, částečně strukturovaná nebo nestrukturovaná.
    • Pochází z více heterogenních zdrojů, jako jsou protokoly, soubory a média.
    • Buďte statická, z dávek nebo streamování.
  • Delta Lake je vrstva úložiště, která používá otevřený formát souboru. Tato vrstva běží nad cloudovým úložištěm, jako je Data Lake Storage. Delta Lake je optimalizovaná pro transformaci a čištění dávkových a streamovaných dat. Tato platforma podporuje tyto funkce:

    • Správa verzí dat a vrácení zpět
    • Transakce atomicity, konzistence, izolace a odolnosti (ACID) pro zajištění spolehlivosti.
    • Konzistentní standard pro přípravu dat, trénování modelu a obsluhu modelu.
    • Časová cesta pro konzistentní snímky zdrojových dat Datoví vědci můžou vytrénovat modely na snímcích místo vytváření samostatných kopií.
  • MLflow je opensourcová platforma pro životní cyklus strojového učení. Komponenty MLflow monitorují modely strojového učení během trénování a spouštění. Uložené informace zahrnují kód, data, informace o konfiguraci a výsledky. MLflow také ukládá modely a načítá je v produkčním prostředí. Vzhledem k tomu, že MLflow používá otevřené architektury, můžou modely využívat různé služby, aplikace, architektury a nástroje.

  • Machine Učení je cloudové prostředí, které pomáhá sestavovat, nasazovat a spravovat řešení prediktivní analýzy. Pomocí těchto modelů můžete předpovídat chování, výsledky a trendy.

  • AKS je vysoce dostupná, zabezpečená a plně spravovaná služba Kubernetes. AKS usnadňuje nasazování a správu kontejnerizovaných aplikací.

Podrobnosti scénáře

Vzhledem k tomu, že vaše organizace rozpoznává sílu datových věd a strojového učení, můžete zlepšit efektivitu, vylepšit prostředí zákazníků a předpovědět změny. K dosažení těchto cílů v případech použití kritických pro důležité obchodní účely potřebujete konzistentní a spolehlivý vzor pro:

  • Sledování experimentů
  • Reprodukování výsledků
  • Nasazení modelů strojového učení do produkčního prostředí

Tento článek popisuje řešení konzistentní a spolehlivé architektury strojového učení. Azure Databricks tvoří jádro architektury. Důležitou roli hraje také vrstva úložiště Delta Lake a platforma strojového učení MLflow. Tyto komponenty se bezproblémově integrují s dalšími službami, jako jsou Azure Data Lake Storage, Azure Machine Učení a Azure Kubernetes Service (AKS).

Tyto služby společně poskytují řešení pro datové vědy a strojové učení, které je následující:

  • Jednoduché: Otevřené datové jezero zjednodušuje architekturu. Datové jezero obsahuje kurátorované vrstvy Delta Lake. Tato vrstva poskytuje přístup k datům v opensourcovém formátu.

  • Open: Řešení podporuje opensourcový kód, otevřené standardy a otevřené architektury. Tento přístup minimalizuje potřebu budoucích aktualizací. Azure Databricks a machine Učení nativně podporují MLflow a Delta Lake. Tyto komponenty společně poskytují špičkové operace strojového učení (MLOps) nebo DevOps pro strojové učení. Široká škála nástrojů pro nasazení se integruje se standardizovaným formátem modelu řešení.

  • Spolupráce: Týmy pro datové vědy a MLOps spolupracují s tímto řešením. Tyto týmy používají sledování MLflow k zaznamenávání a dotazování experimentů. Týmy také nasazují modely do centrálního registru modelů MLflow. Datoví inženýři pak používají nasazené modely při příjmu dat, procesů etl (extract-transform-load) a kanálech streamování.

Potenciální případy použití

Toto řešení inspirovalo platforma, kterou AGL vytvořila pro prognózování energie. Tato platforma poskytuje rychlé a nákladově efektivní trénování, nasazení a správu životního cyklu pro tisíce paralelních modelů.

Kromě poskytovatelů energie může toto řešení těžit z jakékoli organizace, která:

  • Používá datové vědy.
  • Vytváří a trénuje modely strojového učení.
  • Spouští modely strojového učení v produkčním prostředí.

Mezi příklady patří organizace v:

  • Maloobchod a elektronické obchodování.
  • Bankovnictví a finance.
  • Zdravotnictví a vědy o životě.
  • Automobilový průmysl a výroba.

Další kroky

  • AGL Energy vytváří standardizovanou platformu pro tisíce paralelních modelů. Platforma poskytuje rychlé a nákladově efektivní trénování, nasazení a správu životního cyklu pro modely.
  • Open Grid Europe (OGE) využívá modely umělé inteligence k monitorování plynových potrubí. OGE používá k vývoji modelů Azure Databricks a MLflow.
  • V rámci výzkumné fáze spolupráce používá společnost Airlines (SAS) Azure Databricks. Letecká společnost také používá machine Učení k vývoji prediktivních modelů. Díky identifikaci vzorů v datech společnosti modely zlepšují každodenní provoz.