White paper sulla sicurezza di Azure Synapse Analytics: introduzione

Articolo
04/26/2024

Riepilogo:Azure Synapse Analytics è una piattaforma di analisi senza limiti Microsoft che integra il data warehousing aziendale e l'elaborazione di Big Data in un singolo ambiente gestito senza che sia necessaria alcuna integrazione del sistema. Azure Synapse offre gli strumenti end-to-end per il ciclo di vita analitico con:

Pipeline per l'integrazione dei dati.
Pool di Apache Spark per l'elaborazione di Big Data.
Esplora dati per l'analisi di log e serie temporali.
Pool SQL serverless per l'esplorazione dei dati su Azure Data Lake.
Pool SQL dedicato (in precedenza SQL Data Warehouse) per il data warehousing aziendale.
Piena integrazione con Power BI, Azure Cosmos DB e Azure Machine Learning.

La sicurezza e la privacy dei dati di Azure Synapse non sono negoziabili. Lo scopo di questo white paper è offrire una panoramica completa delle funzionalità di sicurezza di Azure Synapse, che sono di livello aziendale e le migliori del settore. Il white paper comprende una serie di articoli che trattano i cinque livelli di sicurezza seguenti:

Protezione dei dati
Controllo di accesso
Autenticazione
Sicurezza di rete
Protezione dalle minacce

Questo white paper è destinato a tutti gli stakeholder della sicurezza aziendale, tra cui amministratori della sicurezza, amministratori di rete, amministratori di Azure, amministratori dell'area di lavoro e amministratori del database.

Writer: Vengatesh Parasuraman, Fretz Nuson, Ron Dunn, Khendr'a Reid, John Hoang, Nithesh Krishnappa, Mykola Kovalenko, Brad Schacht, Pedro Martinez, Mark Pryce-Maher e Arshad Ali.

Revisori tecnici: Nandita Valsan, Rony Thomas, Abhishek Narain, Daniel Crawford e Tammy Richter Jones.

Si applica a: Azure Synapse Analytics, pool SQL dedicato (in precedenza SQL Data Warehouse), pool SQL serverless e pool Apache Spark.

Importante

Questo white paper non si applica al database SQL di Azure, all'istanza gestita di SQL di Azure, ad Azure Machine Learning o ad Azure Databricks.

Introduzione

I titoli frequenti su violazioni dei dati, infezioni malware e injection di codice dannoso sono solo alcune tra le numerose preoccupazioni relative alla sicurezza per le aziende che desiderano eseguire la migrazione al cloud per la modernizzazione. Il cliente aziendale richiede una soluzione di servizi o un provider di servizi cloud che possa risolvere le sue preoccupazioni in quanto non può permettersi di sbagliare.

Alcune domande comuni sulla sicurezza includono:

Come è possibile controllare chi può visualizzare quali dati?
Quali sono le opzioni per verificare l'identità di un utente?
Come sono protetti i dati?
Quale tecnologia di sicurezza di rete è possibile usare per proteggere l'integrità, la riservatezza e l'accesso alle reti e ai dati?
Quali sono gli strumenti che rilevano e notificano le minacce?

Lo scopo di questo white paper è fornire risposte a queste domande di sicurezza comuni e molte altre.

Architettura dei componenti

Azure Synapse è un servizio di analisi PaaS (platform as a service, ovvero piattaforma distribuita come servizio) che riunisce più componenti indipendenti, ad esempio pool SQL dedicati, pool SQL serverless, pool Apache Spark e pipeline di integrazione dei dati. Questi componenti sono progettati per lavorare insieme e offrire un'esperienza di piattaforma analitica fluida.

I pool SQL dedicati sono cluster di cui è stato effettuato il provisioning che forniscono funzionalità di data warehousing aziendale per i carichi di lavoro SQL. I dati vengono inseriti nella risorsa di archiviazione gestita con tecnologia Archiviazione di Azure, che è anche un servizio PaaS. Il calcolo è isolato dalla risorsa di archiviazione, consentendo ai clienti di ridimensionare l'ambiente di calcolo indipendentemente dai dati. I pool SQL dedicati offrono anche la possibilità di eseguire query sui file di dati direttamente sugli account di archiviazione di Azure gestiti dal cliente usando tabelle esterne.

I pool SQL serverless sono cluster su richiesta che forniscono un'interfaccia SQL per eseguire query e analizzare i dati direttamente sugli account di archiviazione di Azure gestiti dal cliente. Poiché sono serverless, non esiste alcuna risorsa di archiviazione gestita e i nodi di calcolo vengono ridimensionati automaticamente in risposta al carico di lavoro della query.

Apache Spark in Azure Synapse è una delle implementazioni Microsoft di Apache Spark open source nel cloud. Il provisioning delle istanze di Spark viene eseguito su richiesta in base alle configurazioni dei metadati definite nei pool di Spark. Ogni utente ottiene la propria istanza Spark dedicata per l'esecuzione dei processi. I file di dati elaborati dalle istanze di Spark vengono gestiti dal cliente nei propri account di archiviazione di Azure.

Le pipeline sono un raggruppamento logico di attività che eseguono lo spostamento dei dati e la trasformazione dei dati su larga scala. Il flusso di dati è un'attività di trasformazione in una pipeline sviluppata usando un'interfaccia utente con poco codice. Può eseguire trasformazioni dei dati su larga scala. In background, i flussi di dati usano cluster Apache Spark di Azure Synapse per eseguire codice generato automaticamente. Le pipeline e i flussi di dati sono servizi di solo calcolo e non dispongono di alcuna risorsa di archiviazione gestita associata.

Le pipeline usano Integration Runtime (runtime di integrazione) come infrastruttura di calcolo scalabile per l'esecuzione di attività di spostamento e distribuzione dei dati. Le attività di spostamento dei dati vengono eseguite nel runtime di integrazione, mentre le attività di distribuzione vengono eseguite su diversi altri motori di calcolo, tra cui database SQL di Azure, Azure HDInsight, Azure Databricks, cluster Apache Spark di Azure Synapse e altri. Azure Synapse supporta due tipi di runtime di integrazione: Azure Integration Runtime e il runtime di integrazione self-hosted. Il runtime di integrazione di Azure offre un'infrastruttura di calcolo completamente gestita, scalabile e su richiesta. Il runtime di integrazione self-hosted viene installato e configurato dal cliente nella propria rete, in computer locali o in macchine virtuali cloud di Azure.

I clienti possono scegliere di associare l'area di lavoro Synapse a una rete virtuale dell'area di lavoro gestita. Se associati a una rete virtuale dell'area di lavoro gestita, i cluster Azure Integration Runtime e Apache Spark usati da pipeline, flussi di dati e pool di Apache Spark vengono distribuiti all'interno della rete virtuale dell'area di lavoro gestita. Questa configurazione garantisce l'isolamento di rete tra le aree di lavoro per le pipeline e i carichi di lavoro di Apache Spark.

Il diagramma seguente illustra i vari componenti di Azure Synapse.

Diagram of Azure Synapse components showing dedicated SQL pools, serverless SQL pools, Apache Spark pools, and pipelines.

Isolamento dei componenti

Ogni singolo componente di Azure Synapse illustrato nel diagramma fornisce le proprie funzionalità di sicurezza. Le funzionalità di sicurezza offrono protezione dei dati, controllo di accesso, autenticazione, sicurezza di rete e protezione dalle minacce per proteggere le risorse di calcolo e i dati associati che vengono elaborati. Inoltre, Archiviazione di Azure, essendo un servizio PaaS, offre una sicurezza aggiuntiva propria, configurata e gestita dal cliente nei propri account di archiviazione. Questo livello di isolamento dei componenti limita e riduce al minimo l'esposizione se si verifica una vulnerabilità di sicurezza in uno dei relativi componenti.

Livelli di sicurezza

Azure Synapse implementa un'architettura di sicurezza a più livelli per la protezione end-to-end dei dati. Esistono cinque livelli:

Protezione dei dati per identificare e classificare i dati sensibili e crittografare i dati inattivi e in movimento.
Controllo di accesso per determinare il diritto di un utente di interagire con i dati.
Autenticazione per dimostrare l'identità di utenti e applicazioni.
Sicurezza di rete per isolare il traffico di rete con endpoint privati e reti private virtuali.
Protezione dalle minacce per identificare potenziali minacce alla sicurezza, ad esempio posizioni di accesso insolite, attacchi SQL injection, attacchi di autenticazione e altro ancora.

Image shows the five layers of Azure Synapse security architecture: Data protection, Access control, Authentication, Network security, and Threat protection.

Passaggi successivi

Nell'articolo successivo in questo white paper vengono fornite informazioni sulla protezione dei dati.