Azure Databricks を使用した最新の分析アーキテクチャ

Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Synapse Analytics
Power BI

ソリューションのアイデア

このアーティクルはソリューションのアイデアです。 このコンテンツにさらに多くの情報 (想定されるユース ケース、代替サービス、実装に関する考慮事項、価格ガイダンスなど) の掲載をご希望の方は、GitHub のフィードバックでお知らせください。

このソリューションは、最新のデータ アーキテクチャの概要を示しています。 Azure Databricks は、このソリューションの中核となります。 このプラットフォームは、Azure Data Lake Storage Gen2、Azure Data Factory、Azure Synapse Analytics、Power BI などの他のサービスとシームレスに連携します。

Apache® および Apache Spark™ は、Apache Software Foundation の米国およびその他の国における登録商標です。 これらのマークを使用することが、Apache Software Foundation による保証を意味するものではありません。

アーキテクチャ

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

  1. Azure Databricks により、Azure Event Hubs から生のストリーミング データが取り込まれます。

  2. Data Factory により、生のバッチ データが Data Lake Storage Gen2 に読み込まれます。

  3. データ ストレージの場合:

    • Data Lake Storage Gen2 には、構造化、非構造化、半構造化など、すべての種類のデータが格納されます。 バッチとストリーミングのデータも格納されます。

    • Delta Lake により、データ レイクのキュレーションされたレイヤーが形成されます。 これによって、絞り込まれたデータがオープンソース形式で格納されます。

    • Azure Databricks は、データをレイヤーに編成するメダル式アーキテクチャと協調して機能します。

      • ブロンズ: 生データを保持します。
      • シルバー: クリーニングされ、フィルター処理されたデータが含まれます。
      • ゴールド: ビジネス分析に役立つ集計データを格納します。
  4. 分析プラットフォームにより、さまざまなバッチとストリーミングのソースからデータが取り込まれます。 データ科学者は、このデータを次のタスクに使用します。

    • データの準備。
    • データの探索。
    • モデルの準備。
    • モデルのトレーニング。

    MLflow により、データ サイエンス コードの実行におけるパラメーター、メトリック、モデルの追跡が管理されます。 柔軟性に富んだコーディングの方法が用意されています。

    • 使用可能なコードは SQL、Python、R、Scala です。
    • 事前にインストールおよび最適化されている、Koalas、Pandas、scikit-learn などの一般的なオープンソース ライブラリとフレームワークをコードで使用できます。
    • 実務者は、単一ノードおよびマルチノードのコンピューティング オプションを使用して、パフォーマンスとコストを最適化できます。
  5. 次のいくつかの形式で機械学習モデルを利用できます。

    • Azure Databricks により、モデルに関する情報が MLflow モデル レジストリに格納されます。 このレジストリを使用すると、バッチ、ストリーミング、REST API を通じてモデルを利用できるようになります。
    • また、このソリューションでは Azure Machine Learning Web サービスまたは Azure Kubernetes Service (AKS) にモデルをデプロイすることもできます。
  6. 一貫性を確保するため、データを処理するサービスが、基になる単一のデータ ソースに接続されます。 たとえば、ユーザーは Azure Databricks SQL Analytics を使用してデータ レイクで SQL クエリを実行できます。 このサービスは以下のことを行います。

  7. Power BI により、統合データ プラットフォームから分析と履歴のレポートとダッシュボードが生成されます。 Azure Databricks で作業するとき、このサービスは次の機能を使用します。

  8. ユーザーは、最適化された Synapse コネクタを使用して、データ レイクのゴールド データ セットを Azure Synapse にエクスポートできます。 Azure Synapse の SQL プールは、データ ウェアハウスとコンピューティング環境を提供します。

  9. このソリューションによって、コラボレーション、パフォーマンス、信頼性、ガバナンス、セキュリティの Azure サービスが使用されます。

    • Microsoft Purview では、データ資産全体でのデータ検出サービス、機密データ分類、ガバナンス分析情報が提供されます。

    • Azure DevOps では、継続的インテグレーションと継続的配置 (CI/CD) などの統合バージョン管理機能が提供されます。

    • Azure Key Vault では、シークレット、キー、証明書が安全に管理されます。

    • Microsoft Entra ID では、Azure Databricks ユーザーにシングル サインオン (SSO) が提供されます。 Azure Databricks では、次のタスクのために Microsoft Entra ID による自動化されたユーザー プロビジョニングがサポートされています。

      • 新しいユーザーを作成する。
      • 各ユーザーにアクセス レベルを割り当てる。
      • ユーザーを削除し、そのアクセスを拒否する。
    • Azure Monitor では、Azure リソースのテレメトリの収集と分析が行われます。 このサービスで問題を事前に特定することで、パフォーマンスと信頼性を最大限に高めます。

    • Azure Cost Management および Billing には、Azure ワークロードに対する財務ガバナンス サービスが用意されています。

コンポーネント

このソリューションでは、次のコンポーネントが使用されます。

コア コンポーネント

  • Azure Databricks はデータ分析プラットフォームです。 そのフル マネージド Spark クラスターでは、複数のソースからの大きなデータ ストリームを処理します。 Azure Databricks では、構造化されていないデータ セットのクリーニングと変換が行われます。 処理されたデータは、運用データベースまたはデータ ウェアハウスの構造化データと組み合わせられます。 また、Azure Databricks では、スケーラブルな機械学習モデルとディープ ラーニング モデルのトレーニングとデプロイも行われます。

  • Event Hubs はビッグ データ ストリーミング プラットフォームです。 サービスとしてのプラットフォーム (PaaS) として、このイベント インジェスト サービスはフル マネージド型です。

  • Data Factory は、ハイブリッド データ統合サービスです。 フル マネージドのこのサーバーレス ソリューションを使用して、データ変換ワークフローを作成、スケジュール設定、調整できます。

  • Data Lake Storage Gen2 は、高パフォーマンスの分析ワークロード用のスケーラブルで安全なデータ レイクです。 このサービスを使用すると、数百ギガビットのスループットを維持しながら、数ペタバイトの情報を管理できます。 データは、構造化、半構造化、非構造化のいずれかになります。 通常は、ログ、ファイル、メディアなど、複数の異種ソースからのものです。

  • Azure Databricks SQL Analytics により、データ レイクでクエリが実行されます。 また、このサービスではダッシュボードのデータの視覚化も実行されます。

  • Machine Learning は、予測分析ソリューションの構築、デプロイ、管理に役立つクラウドベースの環境です。 これらのモデルを使用すると、行動、結果、傾向を予測できます。

  • AKS は、高可用性とセキュリティを備えたフル マネージド Kubernetes サービスです。 AKS により、コンテナ化されたアプリケーションのデプロイと管理が容易になります。

  • Azure Synapse は、データ ウェアハウスおよびビッグ データ システム用の分析サービスです。 このサービスは、Power BI、Machine Learning などの Azure サービスと統合されています。

  • Azure Synapse コネクタでは、Azure Databricks から Azure Synapse にアクセスする方法が提供されます。 これらのコネクタにより、Azure Databricks クラスターと Azure Synapse インスタンスとの間で大量のデータが効率的に転送されます。

  • SQL プールにより、Azure Synapse のデータ ウェアハウスとコンピューティング環境が提供されます。 このプールは、Azure Storage および Data Lake Storage Gen2 と互換性があります。

  • Delta Lake は、オープン ファイル形式を使用するストレージ レイヤーです。 このレイヤーは、Data Lake Storage Gen2 などのクラウド ストレージ上で実行されます。 Delta Lake では、データの更新、削除、マージのために、データのバージョン管理、ロールバック、トランザクションがサポートされています。

  • MLflow は、機械学習ライフサイクル用のオープンソース プラットフォームです。 そのコンポーネントにより、トレーニング中および実行中に機械学習モデルが監視されます。 また、MLflow では、モデルの格納と運用環境での読み込みも行われます。

レポートとコンポーネントの管理

  • Power BI は、ソフトウェア サービスとアプリのコレクションです。 これらのサービスを使用すると、関連のないデータ ソースを結び付けて視覚化するレポートを作成して共有できます。 Power BI と Azure Databricks を連携させると、根本原因の特定と生データの分析を実行できます。

  • Microsoft Purview では、オンプレミス、マルチクラウド、サービスとしてのソフトウェア (SaaS) データを管理できます。 このガバナンス サービスでは、データ全体のマップを保持します。 自動化されたデータ検出、機密データ分類、データ系列などの機能があります。

  • Azure DevOps は、DevOps のオーケストレーション プラットフォームです。 この SaaS により、アプリケーションの構築とデプロイや、それを使った共同作業を行うツールと環境が提供されます。

  • Azure Key Vault は、トークン、パスワード、API キーなどのシークレットへのアクセスを格納および制御します。 また Key Vault は、暗号化キーを作成および制御し、セキュリティ証明書を管理します。

  • Microsoft Entra ID はクラウドベースの ID およびアクセス管理サービスを提供します。 これらの機能により、ユーザーはサインインしてリソースにアクセスするための方法を利用できます。

  • Azure Monitor では、環境と Azure リソースに関するデータの収集と分析が行われます。 このデータには、パフォーマンス メトリックやアクティビティ ログなどのアプリ テレメトリが含まれます。

  • Azure Cost Management および Billing は、クラウドの支出を管理します。 このサービスの予算と推奨事項を使用すると、支出を整理したり、コストを削減する方法を確認したりすることができます。

シナリオの詳細

最新のデータ アーキテクチャは、次の条件を満たしています。

  • データ、分析、AI ワークロードを統合します。
  • あらゆる規模で効率的かつ確実に実行します。
  • 分析ダッシュボード、運用レポート、または高度な分析を通じて分析情報を提供します。

このソリューションは、これらの目標を達成する最新のデータ アーキテクチャの概要を示しています。 Azure Databricks は、このソリューションの中核となります。 このプラットフォームは、他のサービスとシームレスに連携します。 これらのサービスを組み合わせて使用し、次のような特性を備えたソリューションを提供します。

  • シンプル: 分析、データ サイエンス、機械学習の統合により、データ アーキテクチャが簡略化されます。
  • オープン: このソリューションでは、オープンソース コード、オープン標準、オープン フレームワークがサポートされています。 一般的な統合開発環境 (IDE)、ライブラリ、プログラミング言語にも対応しています。 ネイティブのコネクタと API により、このソリューションは他のさまざまなサービスとも連携できます。
  • コラボレーション: このソリューションでは、データ エンジニア、データ科学者、アナリストが連携します。 それぞれがコラボレーション用のノートブック、IDE、ダッシュボードなどのツールを使用して、基になる共通のデータにアクセスし、分析できます。

考えられるユース ケース

このソリューションは、Swiss Re Group がその損害再保険課のために構築したシステムから着想を得ています。 保険業界に加えて、ビッグ データや機械学習を扱う分野でも、このソリューションを活用できます。 たとえば、次のようになります。

  • エネルギー部門
  • 小売および e コマース
  • 銀行と金融
  • 医学と医療

次のステップ

関連するソリューションの詳細については、次の情報をご覧ください。