vitbok om Azure Synapse Analytics-säkerhet: Introduktion

Artikel
06/15/2023

Sammanfattning:Azure Synapse Analytics är en gränslös Analysplattform från Microsoft som integrerar informationslager för företag och bearbetning av stordata i en enda hanterad miljö utan att systemintegrering krävs. Azure Synapse tillhandahåller verktyg från slutpunkt till slutpunkt för analyslivscykeln med:

Pipelines för dataintegrering.
Apache Spark-pool för bearbetning av stordata.
Data Explorer för logg- och tidsserieanalys.
Serverlös SQL-pool för datautforskning över Azure Data Lake.
Dedikerad SQL-pool (tidigare SQL DW) för företagsdatalagerhantering.
Djupgående integrering med Power BI, Azure Cosmos DB och Azure Machine Learning.

Azure Synapse datasäkerhet och sekretess är inte förhandlingsbara. Syftet med detta white paper är att ge en omfattande översikt över Azure Synapse säkerhetsfunktioner, som är företagsklassade och branschledande. Vitboken innehåller en serie artiklar som beskriver följande fem säkerhetslager:

Dataskydd
Åtkomstkontroll
Autentisering
Nätverkssäkerhet
Hotskydd

Den här vitboken riktar sig till alla intressenter inom företagssäkerhet. De omfattar säkerhetsadministratörer, nätverksadministrationer, Azure-administratörer, arbetsyteadministratörer och databasadministratörer.

Författare: Vengatesh Parasuraman, Fretz Nuson, Ron Dunn, Khendr'a Reid, John Hoang, Nithesh Krishnappa, Mykola Kovalenko, Brad Schacht, Pedro Martinez, Mark Pryce-Maher och Arshad Ali.

Tekniska granskare: Nandita Valsan, Rony Thomas, Abhishek Narain, Daniel Crawford och Tammy Richter Jones.

Gäller för: Azure Synapse Analytics, dedikerad SQL-pool (tidigare SQL DW), serverlös SQL-pool och Apache Spark-pool.

Viktigt

Det här faktabladet gäller inte för Azure SQL Database, Azure SQL Managed Instance, Azure Machine Learning eller Azure Databricks.

Introduktion

Vanliga rubriker om dataintrång, infektioner av skadlig kod och skadlig kodinmatning finns bland en omfattande lista över säkerhetsproblem för företag som vill modernisera molnet. Företagskund kräver en molnleverantör eller tjänstlösning som kan åtgärda sina problem eftersom de inte har råd att göra fel.

Några vanliga säkerhetsfrågor är:

Hur kan jag styra vem som kan se vilka data?
Vilka är alternativen för att verifiera en användares identitet?
Hur skyddas mina data?
Vilken nätverkssäkerhetsteknik kan jag använda för att skydda integritet, konfidentialitet och åtkomst till mina nätverk och data?
Vilka verktyg identifierar och meddelar mig om hot?

Syftet med vitboken är att ge svar på dessa vanliga säkerhetsfrågor och många andra.

Komponentarkitektur

Azure Synapse är en PaaS-analystjänst (Plattform som en tjänst) som samlar flera oberoende komponenter, till exempel dedikerade SQL-pooler, serverlösa SQL-pooler, Apache Spark-pooler och dataintegreringspipelines. Dessa komponenter är utformade för att fungera tillsammans för att ge en sömlös analysplattformsupplevelse.

Dedikerade SQL-pooler är etablerade kluster som tillhandahåller informationslagerfunktioner för företag för SQL-arbetsbelastningar. Data matas in i hanterad lagring som drivs av Azure Storage, som också är en PaaS-tjänst. Beräkning isoleras från lagring så att kunderna kan skala beräkning oberoende av sina data. Dedikerade SQL-pooler ger också möjlighet att köra frågor mot datafiler direkt över kundhanterade Azure Storage-konton med hjälp av externa tabeller.

Serverlösa SQL-pooler är kluster på begäran som tillhandahåller ett SQL-gränssnitt för att fråga och analysera data direkt över kundhanterade Azure Storage-konton. Eftersom de är serverlösa finns det ingen hanterad lagring och beräkningsnoderna skalas automatiskt som svar på frågearbetsbelastningen.

Apache Spark i Azure Synapse är en av Microsofts implementeringar av Apache Spark med öppen källkod i molnet. Spark-instanser etableras på begäran baserat på de metadatakonfigurationer som definieras i Spark-poolerna. Varje användare får en egen dedikerad Spark-instans för att köra sina jobb. De datafiler som bearbetas av Spark-instanserna hanteras av kunden på sina egna Azure Storage-konton.

Pipelines är en logisk gruppering av aktiviteter som utför dataflytt och datatransformering i stor skala. Dataflöde är en transformeringsaktivitet i en pipeline som utvecklas med hjälp av ett användargränssnitt med låg kod. Den kan köra datatransformeringar i stor skala. I bakgrunden använder dataflöden Apache Spark-kluster med Azure Synapse för att köra automatiskt genererad kod. Pipelines och dataflöden är endast beräkningstjänster och de har ingen associerad hanterad lagring.

Pipelines använder Integration Runtime (IR) som skalbar beräkningsinfrastruktur för att utföra dataförflyttnings- och sändningsaktiviteter. Dataförflyttningsaktiviteter körs på IR medan sändningsaktiviteterna körs på olika andra beräkningsmotorer, inklusive Azure SQL Database, Azure HDInsight, Azure Databricks, Apache Spark-kluster med Azure Synapse och andra. Azure Synapse stöder två typer av IR: Azure Integration Runtime och lokalt installerad Integration Runtime. Azure IR tillhandahåller en fullständigt hanterad, skalbar och beräkningsinfrastruktur på begäran. Lokalt installerad IR installeras och konfigureras av kunden i ett eget nätverk, antingen på lokala datorer eller på virtuella Azure-molndatorer.

Kunder kan välja att associera sin Synapse-arbetsyta med ett virtuellt nätverk för hanterad arbetsyta. När azure-IR:n och Apache Spark-kluster som används av pipelines, dataflöden och Apache Spark-pooler är associerade med ett virtuellt nätverk för hanterade arbetsytor distribueras de i det virtuella nätverket för den hanterade arbetsytan. Den här konfigurationen säkerställer nätverksisolering mellan arbetsytorna för pipelines och Apache Spark-arbetsbelastningar.

Följande diagram visar de olika komponenterna i Azure Synapse.

Diagram över Azure Synapse komponenter som visar dedikerade SQL-pooler, serverlösa SQL-pooler, Apache Spark-pooler och pipelines.

Komponentisolering

Varje enskild komponent i Azure Synapse som visas i diagrammet har sina egna säkerhetsfunktioner. Säkerhetsfunktioner ger dataskydd, åtkomstkontroll, autentisering, nätverkssäkerhet och hotskydd för att skydda den beräkning och tillhörande data som bearbetas. Dessutom ger Azure Storage, som är en PaaS-tjänst, en egen ytterligare säkerhet som konfigureras och hanteras av kunden i deras egna lagringskonton. Den här nivån av komponentisolering begränsar och minimerar exponeringen om det finns en säkerhetsrisk i någon av dess komponenter.

Säkerhetsnivåer

Azure Synapse implementerar en säkerhetsarkitektur i flera lager för att skydda dina data från slutpunkt till slutpunkt. Det finns fem lager:

Dataskydd för att identifiera och klassificera känsliga data och kryptera data i vila och i rörelse.
Åtkomstkontroll för att fastställa en användares rätt att interagera med data.
Autentisering för att bevisa identiteten för användare och program.
Nätverkssäkerhet för att isolera nätverkstrafik med privata slutpunkter och virtuella privata nätverk.
Hotskydd för att identifiera potentiella säkerhetshot, till exempel ovanliga åtkomstplatser, SQL-inmatningsattacker, autentiseringsattacker med mera.

Bild som visar de fem lagren i Azure Synapse säkerhetsarkitektur: Dataskydd, åtkomstkontroll, autentisering, nätverkssäkerhet och hotskydd.

Nästa steg

I nästa artikel i den här white paper-serien får du lära dig mer om dataskydd.