Архитектура современной аналитики с Azure Databricks

Фабрика данных Azure
Azure Data Lake Storage
Azure Databricks
Azure Synapse Analytics
Power BI

Идеи решения

Эта статья является идеей решения. Если вы хотите расширить содержимое с дополнительными сведениями, такими как потенциальные варианты использования, альтернативные службы, рекомендации по реализации или рекомендации по ценам, сообщите нам, предоставив отзыв GitHub.

Это решение описывает современную архитектуру данных. Azure Databricks формирует ядро решения. Эта платформа легко работает с другими службами, такими как Azure Data Lake Storage 2-го поколения, Фабрика данных Azure, Azure Synapse Analytics и Power BI.

Apache® и Apache Spark™ являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах. Использование этих меток не подразумевает подтверждения от Apache Software Foundation.

Архитектура

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

Скачайте файл Visio для этой архитектуры.

Поток данных

  1. Azure Databricks отправляет необработанные данные потоковой передачи из Центры событий Azure.

  2. Фабрика данных загружает необработанные пакетные данные в Data Lake Storage 2-го поколения.

  3. Для хранилища данных:

    • Data Lake Storage 2-го поколения содержит данные всех типов, таких как структурированные, неструктурированные и полуструктурированные. Он также хранит пакетные и потоковые данные.

    • Delta Lake формирует курированный слой озера данных. Он сохраняет уточненные данные в формате с открытым кодом.

    • Azure Databricks хорошо работает с архитектурой медальона, которая упорядочивает данные на слои:

      • Бронза: содержит необработанные данные.
      • Silver: содержит очищенные, отфильтрованные данные.
      • Gold: хранит агрегированные данные, полезные для бизнес-аналитики.
  4. Аналитические платформы передают данные из разрозненных источников пакетной и потоковой передачи. Специалисты по обработке и анализу данных используют эти данные для следующих задач:

    • Подготовка данных.
    • Исследование данных.
    • Подготовка модели.
    • Обучение модели.

    MLflow управляет параметрами, метриками и отслеживанием моделей в коде обработки и анализа данных. Возможности написания кода являются гибкими:

    • Код может находиться в SQL, Python, R и Scala.
    • Код может использовать популярные библиотеки и платформы с открытым кодом, такие как Koalas, Pandas и scikit-learn, которые предварительно установлены и оптимизированы.
    • Специалисты могут оптимизировать производительность и затраты с помощью параметров вычислений с одним узлом и несколькими узлами.
  5. Модели машинного обучения доступны в нескольких форматах:

    • Azure Databricks хранит сведения о моделях в реестре моделей MLflow. Реестр предоставляет модели с помощью пакетной, потоковой передачи и REST API.
    • Решение также может развертывать модели для Машинное обучение Azure веб-служб или Служба Azure Kubernetes (AKS).
  6. Службы, работающие с данными, подключаются к одному базовому источнику данных, чтобы обеспечить согласованность. Например, пользователи могут выполнять запросы SQL в озере данных с помощью Аналитики SQL Azure Databricks. Эта служба:

  7. Power BI создает аналитические и исторические отчеты и панели мониторинга на основе унифицированной платформы данных. Эта служба использует эти функции при работе с Azure Databricks:

    • Встроенный соединитель Azure Databricks для визуализации базовых данных.
    • Оптимизированные драйверы Подключение производительности базы данных Java (JDBC) и open Database Подключение ivity (ODBC).
  8. Пользователи могут экспортировать золотые наборы данных из озера данных в Azure Synapse с помощью оптимизированного соединителя Synapse. Пулы SQL в Azure Synapse предоставляют хранилище данных и вычислительные среды.

  9. Решение использует службы Azure для совместной работы, производительности, надежности, управления и безопасности:

    • Microsoft Purview предоставляет службы обнаружения данных, классификацию конфиденциальных данных и аналитические сведения об управлении в пределах хранилища данных.

    • Azure DevOps предлагает непрерывную интеграцию и непрерывное развертывание (CI/CD) и другие интегрированные функции управления версиями.

    • Azure Key Vault безопасно управляет секретами, ключами и сертификатами.

    • Идентификатор Microsoft Entra предоставляет единый вход для пользователей Azure Databricks. Azure Databricks поддерживает автоматическую подготовку пользователей с помощью идентификатора Microsoft Entra для следующих задач:

      • Создание новых пользователей.
      • Назначение каждому пользователю уровня доступа.
      • Удаление пользователей и запрет доступа к ним.
    • Azure Monitor собирает и анализирует данные телеметрии ресурсов Azure. Заранее определяя проблемы, эта служба повышает производительность и надежность.

    • Управление затратами Azure и выставление счетов предоставляют службы финансового управления для рабочих нагрузок Azure.

Компоненты

Решение использует следующие компоненты.

Основные компоненты

  • Azure Databricks — это платформа аналитики данных. Полностью управляемые кластеры Spark обрабатывают большие потоки данных из нескольких источников. Azure Databricks очищает и преобразует наборы данных, не имеющие структуры. Оно объединяет обработанные данные с структурированными данными из рабочих баз данных или хранилищ данных. Azure Databricks также обучает и развертывает масштабируемые модели машинного обучения и глубокого обучения.

  • Центры событий — это платформа потоковой передачи больших данных. Как платформа как услуга (PaaS), эта служба приема событий полностью управляется.

  • Фабрика данных Azure — это гибридная служба интеграции данных. Это полностью управляемое, бессерверное решение можно использовать для создания, планирования и оркестрации рабочих процессов преобразования данных.

  • Data Lake Storage 2-го поколения — это масштабируемое и безопасное озеро данных для высокопроизводительных рабочих нагрузок аналитики. Эта служба может управлять несколькими петабайтами информации, поддерживая при этом сотни гигабит пропускной способности. Данные могут быть структурированными, частично структурированными или неструктурированными. Обычно это происходит из нескольких разнородных источников, таких как журналы, файлы и носители.

  • Аналитика SQL Azure Databricks выполняет запросы к озерам данных. Эта служба также визуализирует данные на панелях мониторинга.

  • Машинное обучение — это облачная среда, которая помогает создавать и развертывать решения прогнозной аналитики, а также управлять ими. С помощью этих моделей можно прогнозировать поведение, результаты и тенденции.

  • AKS — это высокодоступная, защищенная и полностью управляемая служба Kubernetes. AKS упрощает развертывание контейнерных приложений и управление ими.

  • Azure Synapse — это служба аналитики для хранилищ данных и систем больших данных. Эта служба интегрируется с Power BI, Машинным обучением и другими службами Azure.

  • Соединители Azure Synapse предоставляют способ доступа к Azure Synapse из Azure Databricks. Эти соединители эффективно передают большие объемы данных между кластерами Azure Databricks и экземплярами Azure Synapse.

  • Пулы SQL предоставляют хранилище данных и вычислительные среды в Azure Synapse. Пулы совместимы с служба хранилища Azure и Data Lake Storage 2-го поколения.

  • Delta Lake — это слой хранения, использующий открытый формат файла. Этот уровень выполняется поверх облачного хранилища, например Data Lake Storage 2-го поколения. Delta Lake поддерживает управление версиями данных, откат и транзакции для обновления, удаления и объединения данных.

  • MLflow — это платформа с открытым исходным кодом для жизненного цикла машинного обучения. Его компоненты отслеживают модели машинного обучения во время обучения и выполнения. MLflow также сохраняет модели и загружает их в рабочую среду.

Создание отчетов и управление компонентами

  • Power BI — это коллекция программных служб и приложений. Эти службы создают и совместно используют отчеты, которые подключают и визуализируют несвязанные источники данных. Вместе с Azure Databricks Power BI может обеспечить определение первопричин и анализ необработанных данных.

  • Microsoft Purview управляет локальными, многооблачными и программными средствами как услугами (SaaS). Эта служба управления поддерживает карты ландшафта данных. К функциям относятся автоматическое обнаружение данных, классификация конфиденциальных данных и происхождение данных.

  • Azure DevOps — это платформа оркестрации DevOps . Эта служба SaaS предоставляет средства и среды для создания, развертывания и совместной работы с приложениями.

  • Azure Key Vault хранит секреты, такие как маркеры, пароли и ключи API, а также управляет доступом к ним. Key Vault также создает и контролирует ключи шифрования и управляет сертификатами безопасности.

  • Идентификатор Microsoft Entra предлагает облачные службы управления удостоверениями и доступом. Эти функции позволяют пользователям входить и получать доступ к ресурсам.

  • Azure Monitor собирает и анализирует данные в средах и ресурсах Azure. Сюда входят данные телеметрии приложений, такие как метрики производительности и журналы действий.

  • Управление затратами Azure и выставление счетов управляет облачными расходами . Используя бюджеты и рекомендации, эта служба упорядочивает расходы и показывает, как сократить затраты.

Подробности сценария

Современные архитектуры данных соответствуют следующим критериям:

  • Объединение данных, аналитики и рабочих нагрузок ИИ.
  • Эффективное и надежное выполнение в любом масштабе.
  • Предоставление аналитических сведений с помощью панелей мониторинга аналитики, операционных отчетов или расширенной аналитики.

Это решение описывает современную архитектуру данных, которая достигает этих целей. Azure Databricks формирует ядро решения. Эта платформа легко работает с другими службами. Вместе эти службы предоставляют решение с такими качествами:

  • Простой: унифицированная аналитика, обработка и анализ данных и машинное обучение упрощают архитектуру данных.
  • Open: Решение поддерживает открытый исходный код, открытые стандарты и открытые платформы. Он также работает с популярными интегрированными средами разработки (IDEs), библиотеками и языками программирования. Благодаря собственным соединителям и API решение также работает с широким спектром других служб.
  • Совместная работа: инженеры данных, специалисты по обработке и анализу данных работают вместе с этим решением. Они могут использовать записные книжки для совместной работы, идентификаторы, панели мониторинга и другие средства для доступа к общим базовым данным и их анализа.

Потенциальные варианты использования

Система, которая швейцарская Re Group построила для своего подразделения по собственности и жертве перестраховки вдохновила это решение. Помимо страховой отрасли, любая область, которая работает с большими данными или машинным обучением, также может воспользоваться этим решением. Вот некоторые примеры.

  • Энергетический сектор
  • Розничная электронная торговля
  • Банковское дело и финансы
  • Медицина и здравоохранение

Следующие шаги

Сведения о связанных решениях см. в следующих статьях: