Azure Machine Learning を使用した Python モデル用の MLOps

Azure Blob Storage

Azure Container Registry

Azure DevOps

Azure Machine Learning

Azure Pipelines

このリファレンスアーキテクチャでは、Azure DevOps と Azure Machine Learning を使用して、継続的インテグレーション (CI)、継続的デリバリー (CD)、および AI アプリケーション用の再トレーニングパイプラインを実装する方法を示します。このソリューションは scikit-learn 糖尿病データセットに基づいて構築されていますが、あらゆる AI シナリオや、Jenkins や Travis といった広く普及している他のビルドシステムに容易に適合させることができます。

このアーキテクチャの参照実装は、GitHub で入手できます

アーキテクチャ

このアーキテクチャの Visio ファイルをダウンロードします。

ワークフロー

このアーキテクチャは、次のサービスで構成されています。

Azure Pipelines 。このビルドおよびテストシステムは Azure DevOps に基づいており、ビルドおよびリリースパイプラインに使用されます。 Azure Pipelines ではこれらのパイプラインをタスクと呼ばれる論理的ステップに分割します。たとえば、Azure CLI タスクによって Azure リソースが操作しやすくなります。

Azure Machine Learning は、大規模な機械学習モデルをトレーニング、スコアリング、デプロイ、および管理するためのクラウドサービスです。このアーキテクチャでは、Azure Machine Learning の Python SDK を使用して、ワークスペース、コンピューティングリソース、機械学習パイプライン、およびスコアリングイメージを作成します。 Azure Machine Learning ワークスペースでは、機械学習モデルを実験、トレーニング、デプロイするための空間が提供されます。

Azure Machine Learning コンピューティング はオンデマンド仮想マシンのクラスターであり、自動スケーリングと GPU および CPU ノードオプションを備えています。トレーニングジョブはこのクラスターで実行されます。

Azure Machine Learning パイプライン は、シナリオをまたいで再利用できる再利用可能な機械学習ワークフローを提供します。このユースケースでは、これらのパイプライン内の別々のステップでトレーニング、モデル評価、モデル登録、およびイメージ作成を行います。パイプラインはビルドフェーズの最後に発行または更新され、新しいデータの到着時にトリガーされます。

Azure Blob Storage 。 Blob コンテナーを使用して、スコアリングサービスからのログを格納します。この場合、入力データとモデル予測の両方が収集されます。何らかの変換後、これらのログはモデルの再トレーニングに使用できます。

Azure Container Registry 。スコアリング Python スクリプトは Docker イメージとしてパッケージ化され、レジストリでバージョン管理されます。

Azure Container Instances 。リリースパイプラインの一部として、スコアリング Web サービスイメージを Container Instances にデプロイすることによって QA およびステージング環境がシミュレートされ、サーバーレスで簡単にコンテナーを実行する方法を提供します。

Azure Kubernetes Service 。スコアリング Web サービスイメージは、QA 環境で徹底的にテストされた後、マネージド Kubernetes クラスター上の運用環境にデプロイされます。

Azure Application Insights 。この監視サービスは、パフォーマンスの異常を検出するために使用されます。

MLOps パイプライン

このソリューションは、ソフトウェアエンジニアが既に慣れているツールを使用して、AI プロジェクトのさまざまな段階をエンドツーエンドで自動化する方法を示しています。機械学習の問題では、DevOps パイプラインに集中し続けることは簡単です。このソリューションでは、scikit-learn 糖尿病データセットを使用して、糖尿病の可能性を予測するためのリッジ線形回帰モデルを構築します。

このソリューションは、次の 3 つのパイプラインに基づいています。

ビルドパイプライン。 コードをビルドしてテストスイートを実行します。
再トレーニングパイプライン。 スケジュールに従って、または新しいデータが利用可能になったらモデルを再トレーニングします。
リリースパイプライン。 スコアリングイメージを操作可能にし、さまざまな環境間でそれを安全に昇格させます。

以下のセクションでは、これらの各パイプラインについて説明します。

ビルドパイプライン

コードがチェックインされるたびに CI パイプラインがトリガーされます。コードをビルドしてテストスイートを実行した後、更新された Azure Machine Learning パイプラインを発行します。ビルドパイプラインは以下のタスクで構成されます。

コード品質。 これらのテストでは、コードがチームの標準に準拠していることを確認します。
単体テスト。 これらのテストでは、コードが正常に動作し、安定していること、またコードカバレッジが十分であることを確認します。
データテスト。 これらのテストでは、期待されるスキーマと分布にデータサンプルが準拠していることを検証します。他のユースケースに合わせてこのテストをカスタマイズし、新しいデータの到着時にトリガーされる独立したデータサニティパイプラインとして実行します。たとえば、データテストタスクをデータインジェストパイプラインに移動して、より早くテストできるようにします。

注意

機械学習モデルのトレーニングに使用されるデータに対して DevOps プラクティスを有効にすることを検討する必要がありますが、これについては、この記事では説明しません。データインジェストパイプラインの CI/CD に対するアーキテクチャとベストプラクティスの詳細については、「データインジェストパイプラインの DevOps」を参照してください。

Azure Machine Learning および Python SDK 用のインフラストラクチャをセットアップするときに、以下の 1 回限りのタスクが発生します。

Azure Machine Learning 関連のすべてのリソースをホストするワークスペースを作成します。
トレーニングジョブを実行するコンピューティングリソースを作成します。
更新されたトレーニングスクリプトを使用して機械学習パイプラインを作成します。
トレーニングワークフローを調整するために、機械学習パイプラインを REST エンドポイントとして発行します。次のセクションではこの手順について説明します。

再トレーニングパイプライン

機械学習パイプラインでは、モデルを非同期的に再トレーニングするプロセスが調整されます。再トレーニングは、スケジュールに基づいてトリガーすることも、新しいデータが利用可能になったときに、前のステップで公開されているパイプライン REST エンドポイントを呼び出すことによってトリガーすることもできます。

このパイプラインには以下の手順が含まれています。

モデルのトレーニング。 実行履歴に保存されている新しいモデルを取得するために、トレーニング Python スクリプトが Azure Machine Learning コンピューティングリソースで実行されます。トレーニングは AI プロジェクトで最もコンピューティングリソースを消費するタスクであるため、このソリューションでは Azure Machine Learning コンピューティングを使用します。
モデルの評価。 単純な評価テストで新しいモデルと既存のモデルを比較します。新しいモデルの方が優れている場合にのみ、それを昇格させます。それ以外の場合、モデルは登録されず、パイプラインはキャンセルされます。
モデルの登録。 再トレーニングしたモデルは、Azure Machine Learning Model レジストリに登録されます。このサービスは、モデルを簡単に再現できるよう、モデルのバージョン管理をメタデータタグと併せて提供します。

リリースパイプライン

このパイプラインは、スコアリングイメージを操作可能にし、さまざまな環境にまたがってそれを安全に昇格させる方法を示します。このパイプラインは QA と運用の 2 つの環境に区分されています。

QA 環境

モデル成果物トリガー。 新しい成果物が利用可能になるたびに、リリースパイプラインがトリガーされます。 Azure Machine Learning モデル管理に新しく登録されるモデルは、リリース成果物として扱われます。この場合、登録された新しいモデルごとにパイプラインがトリガーされます。
スコアリングイメージの作成。 登録されたモデルは、スコアリングスクリプトおよび Python の依存関係 (Conda YAML ファイル) と共に、運用化 Docker イメージにパッケージ化されます。イメージは Azure Container Registry を通じて自動的にバージョン管理されます。
Container Instances へのデプロイ。 このサービスは、非運用環境を作成するために使用されます。スコアリングイメージもここにデプロイされ、これは主にテストに使用されます。 Container Instances は Docker イメージをテストするための簡単で迅速な方法を提供します。
Web サービスのテスト。 簡単な API テストで、イメージが正しくデプロイされていることを確認します。

運用環境

Azure Kubernetes Service にデプロイ。 このサービスは、スコアリングイメージを Web サービスとして運用環境に大規模デプロイするために使用されます。
Web サービスのテスト。 簡単な API テストで、イメージが正しくデプロイされていることを確認します。

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

スケーラビリティ

Azure DevOps のビルドパイプラインは、あらゆる規模のアプリケーションに合わせてスケーリングできます。ビルドパイプラインには最大タイムアウトがあり、これはパイプラインが実行されているエージェントによって異なります。自己ホスト型エージェント (プライベートエージェント) 上ではビルドを無制限に実行できます。 Microsoft がホストするパブリックプロジェクト用のエージェントでは、ビルドを 6 時間実行できます。プライベートプロジェクトの場合、制限は 30 分です。

最大タイムアウトを使用するには、Azure Pipelines YAML ファイルで次のプロパティを設定します。

jobs:
- job: <job_name>
  timeoutInMinutes: 0

ビルドパイプラインを速やかに終了させ、単体テストと他のテストのサブセットのみを実行するのが理想的です。これにより、変更をすばやく検証し、問題が発生した場合は修正することができます。実行時間の長いテストは業務時間外に実行します。

リリースパイプラインは、リアルタイムスコアリング Web サービスを発行します。 QA 環境へのリリースは便宜上 Container Instances を使用して行われますが、QA/ステージング環境で実行されている別の Kubernetes クラスターを使用できます。

Azure Kubernetes Service クラスターのサイズに応じて、運用環境をスケーリングします。クラスターのサイズは、デプロイするスコアリング Web サービスで予想される負荷によって異なります。リアルタイムスコアリングアーキテクチャの場合、スループットは重要な最適化メトリックです。ディープラーニング以外のシナリオでは、CPU で十分に負荷を処理できます。しかし、ディープラーニングのワークロードで速度がボトルネックになっているときは、一般的に CPU よりも GPU の方が優れたパフォーマンスを発揮します。 Azure Kubernetes Service は CPU と GPU 両方のノードタイプをサポートしているため、このソリューションではイメージのデプロイにそれを使用します。詳細については、ディープラーニングモデルのデプロイに関する GPU と CPU の比較に関するページを参照してください。

Azure Machine Learning コンピューティングリソースのノード数に応じて再トレーニングパイプラインをスケールアップおよびスケールダウンし、自動スケールオプションを使用してクラスターを管理します。このアーキテクチャでは、CPU を使用します。ディープラーニングワークロードには GPU の方が適した選択肢であり、Azure Machine Learning コンピューティングによってサポートされています。

管理

再トレーニングジョブの監視。 機械学習パイプラインでは、マシンクラスター全体の再トレーニングが調整され、それらのマシンを監視する簡単な方法が提供されます。 Azure Machine Learning UI を使用して、パイプラインのセクションでログを確認します。また、これらのログは BLOB にも書き込まれ、Azure Storage Explorer などのツールを使用してそこから読み取ることができます。
ログ記録。 Azure Machine Learning では、機械学習ライフサイクルの各ステップでログを記録するための簡単な方法が提供されています。ログは BLOB コンテナーに保存されます。詳細については、Azure Machine Learning でログ記録を有効にするを参照してください。より高度な監視を行うには、ログを使用するように Application Insights を構成します。
セキュリティ。 すべてのシークレットと資格情報は Azure Key Vault に保存され、Azure Pipelines では変数グループを使用してアクセスします。

コストの最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

Azure DevOps は、オープンソースプロジェクトおよびユーザーが 5 人までの小規模プロジェクトでは無料です。より大規模なチームの場合は、ユーザー数に基づいてプランを購入してください。

コンピューティングはこのアーキテクチャのコストを最も左右し、そのコストはユースケースによって異なります。このアーキテクチャでは Azure Machine Learning コンピューティングを使用しますが、他のオプションも利用できます。 Azure Machine Learning では、コンピューティングクラスターをサポートする仮想マシンに追加料金は加算されません。コンピューティングクラスターが 0 ノード以上になるように構成すると、使用されていないときは 0 ノードにスケールダウンでき、料金は発生しません。コンピューティング料金は、ノードタイプ、ノード数、およびプロビジョニングモード (低優先度または専用) によって異なります。 Azure 料金計算ツールを使用して、Machine Learning やその他のサービスのコストを見積もることができます。

このシナリオのデプロイ

この参照アーキテクチャをデプロイするには、GitHub リポジトリの概要ガイドで説明されている手順に従ってください。

共同作成者

この記事は、Microsoft によって保守されています。当初の寄稿者は以下のとおりです。

プリンシパル作成者:

Praneet Singh Solanki | シニアソフトウェアエンジニア

次のステップ

もっと詳しい説明が必要でしょうか。関連するラーニングパス (「MLOps を使用して機械学習のライフサイクルを開始する」) を参照してください

Azure Machine Learning を使用した Python モデル用の MLOps

アーキテクチャ

ワークフロー

MLOps パイプライン

ビルドパイプライン

再トレーニングパイプライン

リリースパイプライン

QA 環境

運用環境

考慮事項

スケーラビリティ

管理

コストの最適化

このシナリオのデプロイ

共同作成者

次のステップ

フィードバック

フィードバック

その他のリソース

Azure Machine Learning を使用した Python モデル用の MLOps

アーキテクチャ

ワークフロー

MLOps パイプライン

ビルド パイプライン

再トレーニング パイプライン

リリース パイプライン

QA 環境

運用環境

考慮事項

スケーラビリティ

管理

コストの最適化

このシナリオのデプロイ

共同作成者

次のステップ

フィードバック

フィードバック

その他のリソース

ビルドパイプライン

再トレーニングパイプライン

リリースパイプライン