Livre blanc sur la sécurité d’Azure Synapse Analytics : Introduction

Article
06/15/2023

Résumé :Azure Synapse Analytics est une plateforme d’analyse illimitée fournie par Microsoft. Elle intègre l’entrepôt de données d’entreprise et le traitement du Big Data dans un seul environnement managé sans aucune intégration système. Azure Synapse fournit les outils de bout en bout pour votre cycle de vie analytique :

Pipelines pour l’intégration de données.
Pool Apache Spark pour le traitement du Big Data.
Data Explorer pour l’analyse des journaux et des séries chronologiques.
Pool SQL serverless pour l’exploration des données sur Azure Data Lake.
Pool SQL dédié (anciennement SQL DW) pour l’entrepôt de données d’entreprise.
Intégration profonde à Power BI, Azure Cosmos DB et Azure Machine Learning.

La sécurité et la confidentialité des données Azure Synapse ne sont pas négociables. L’objectif de ce livre blanc est donc de fournir une vue d’ensemble complète des fonctionnalités de sécurité d’Azure Synapse, qui sont à la pointe du secteur à l’échelle des entreprises. Le livre blanc comprend une série d’articles qui couvrent les cinq couches de sécurité suivantes :

Protection des données
Contrôle d’accès
Authentification
Sécurité du réseau
Protection contre les menaces

Ce livre blanc s’adresse à toutes les parties prenantes liées à la sécurité en entreprise. Il s’agit notamment des administrateurs de la sécurité, des administrateurs réseau, des administrateurs Azure, des administrateurs d’espace de travail et des administrateurs de base de données.

Auteurs : Vengatesh Parasuraman, Fretz Nuson, Ron Dunn, Khendr'a Reid, John Hoang, Nithesh Krishnappa, Mykola Kovalenko, Brad Schacht, Pedro Martinez, Mark Pryce-Maher et Arshad Ali.

Réviseurs techniques : Nandita Valsan, Rony Thomas, Abhishek Narain, Daniel Crawford et Tammy Richter Jones.

S’applique à : Azure Synapse Analytics, pool SQL dédié (anciennement SQL DW), pool SQL serverless et pool Apache Spark.

Important

Ce livre blanc ne s’applique pas à Azure SQL Database, Azure SQL Managed Instance, Azure Machine Learning ou Azure Databricks.

Introduction

Les violations de données, les infections liées à des programmes malveillants et les injections de code malveillant, que l’on retrouve souvent à la une des actualités, font partie d’une longue liste de problèmes de sécurité pour les entreprises qui cherchent à tirer parti du cloud. Les clients en entreprise ont besoin d’un fournisseur de cloud ou d’une solution de service qui puisse répondre à leurs préoccupations, car ils ne peuvent pas se permettre de commettre des erreurs.

Voici quelques-unes des questions de sécurité courantes :

Comment vérifier qui peut voir les données et quelles sont les données visibles ?
Quelles sont les options permettant de vérifier l’identité d’un utilisateur ?
Comment mes données sont-elles protégées ?
Quelle technologie de sécurité réseau puis-je utiliser pour protéger l’intégrité, la confidentialité et l’accès de mes réseaux et des mes données ?
Quels sont les outils qui détectent les menaces et me notifient leur existence ?

L’objectif de ce livre blanc est d’apporter des réponses à ces questions de sécurité courantes, et bien d’autres.

Architecture des composants

Azure Synapse est un service d’analyse PaaS (Platform-as-a-service) qui regroupe plusieurs composants indépendants tels que des pools de SQL dédiés, des pools de SQL serverless, des pools Apache Spark et des pipelines d’intégration de données. Ces composants sont conçus pour fonctionner ensemble pour offrir une expérience de plateforme analytique transparente.

Les pools de SQL dédiés sont des clusters provisionnés qui fournissent des fonctionnalités d’entreposage de données d’entreprise pour les charges de travail SQL. Les données sont ingérées dans un stockage managé alimenté par le stockage Azure, qui est également un service PaaS. Le calcul est isolé du stockage permettant aux clients de mettre à l’échelle le calcul indépendamment de leurs données. Les pools SQL dédiés permettent également d’interroger des fichiers de données directement sur des comptes stockage Azure gérés par le client à l’aide de tables externes.

Les pools SQL serverless sont des clusters à la demande qui fournissent une interface SQL pour interroger et analyser les données directement sur les comptes stockage Azure gérés par le client. Étant donné qu’ils sont serverless, il n’y a pas de stockage managé et les nœuds de calcul sont mis à l’échelle automatiquement en réponse à la charge de travail de requête.

Apache Spark dans Azure Synapse est l’une des implémentations par Microsoft d’Apache Spark open source dans le cloud. Les instances Spark sont approvisionnées à la demande en fonction des configurations de métadonnées définies dans les pools Spark. Chaque utilisateur obtient sa propre instance Spark dédiée pour exécuter ses tâches. Les fichiers de données traités par les instances Spark sont gérés par le client dans leur propre compte stockage Azure.

Les pipelines sont un regroupement logique d’activités qui effectuent un déplacement des données et une transformation de données à grande échelle. Le flux de données est une activité de transformation dans un pipeline développé à l’aide d’une interface utilisateur à faible code. Il peut exécuter des transformations de données à grande échelle. En arrière-plan, les flux de données utilisent des clusters Apache Spark de Azure Synapse pour exécuter automatiquement du code généré. Les pipelines et les flux de données sont des services de calcul uniquement, et ils n’ont pas de stockage managé associé.

Les pipelines utilisent Integration Runtime (IR) comme infrastructure de calcul évolutive pour effectuer des activités de déplacement et de répartition des données. Les activités de déplacement de données s’exécutent sur IR, tandis que les activités de distribution s’exécutent sur divers autres moteurs de calcul, notamment Azure SQL Database, Azure HDInsight, Azure Databricks, clusters Apache Spark d’Azure Synapse et d’autres. Azure Synapse prend en charge deux types d’IR : Azure Integration Runtime et Integration Runtime auto-hébergé. Azure IR fournit une infrastructure de calcul entièrement gérée, évolutive et à la demande. IR auto-hébergé est installé et configuré par le client dans son propre réseau, soit sur des machines locales, soit dans des machines virtuelles cloud Azure.

Les clients peuvent choisir d’associer leur espace de travail Synapse à un réseau virtuel d’espace de travail managé. Lorsqu’ils sont associés à un réseau virtuel d’espace de travail managé, des IR Azure et des clusters Apache Spark utilisés par des pipelines, des flux de données et des pools Apache Spark sont déployés à l’intérieur du réseau virtuel de l’espace de travail managé. Cette configuration garantit l’isolation réseau entre les espaces de travail pour les pipelines et les charges de travail Apache Spark.

Le diagramme suivant illustre les différents composants d’Azure Synapse.

Diagramme des composants Azure Synapse montrant des pools SQL dédiés, des pools SQL serverless, des pools Apache Spark et des pipelines.

Isolation des composants

Chaque composant individuel d’Azure Synapse représenté dans le diagramme fournit ses propres fonctionnalités de sécurité. Les fonctionnalités de sécurité fournissent la protection des données, le contrôle d’accès, l’authentification, la sécurité réseau et la protection contre les menaces pour sécuriser le calcul et les données associées traitées. En outre, le stockage Azure, étant un service PaaS, fournit une sécurité supplémentaire, qui est configurée et gérée par le client dans ses propres comptes de stockage. Ce niveau d’isolation des composants limite et réduit l’exposition en cas de vulnérabilité de sécurité dans l’un de ses composants.

Couches de sécurité

Azure Synapse implémente une architecture de sécurité multicouche pour une protection de bout en bout de vos données. Il existe cinq couches :

Protection des données pour identifier et classifier les données sensibles, et chiffrer les données au repos et en mouvement.
Contrôle d’accès pour déterminer le droit d’un utilisateur à interagir avec les données.
Authentification pour prouver l’identité des utilisateurs et des applications.
Sécurité réseau pour isoler le trafic réseau avec des points de terminaison privés et des réseaux privés virtuels.
Protection contre les menaces pour identifier les menaces de sécurité potentielles, par exemple les lieux d’accès inhabituels, les attaques par injection de code SQL, les attaques liées à l’authentification, etc.

Image montrant les cinq couches de l’architecture de sécurité Azure Synapse : Protection des données, Contrôle d’accès, Authentification, Sécurité réseau et Protection contre les menaces.

Étapes suivantes

Dans le prochain article de cette série de livres blancs, vous découvrirez la protection des données.