Technische Azure Synapse Analytics-beveiligingsdocument: Inleiding

Samenvatting:Azure Synapse Analytics is een onbeperkt analyseplatform van Microsoft dat zakelijke datawarehousing en big data-verwerking integreert in één beheerde omgeving zonder systeemintegratie. Azure Synapse biedt de end-to-end-hulpprogramma's voor uw analytische levenscyclus met:

Azure Synapse gegevensbeveiliging en privacy zijn niet onderhandelbaar. Het doel van dit technische document is een uitgebreid overzicht te geven van Azure Synapse beveiligingsfuncties, die op ondernemingsniveau en toonaangevend zijn in de branche. Het witboek bevat een reeks artikelen die betrekking hebben op de volgende vijf beveiligingslagen:

  • Gegevensbescherming
  • Toegangsbeheer
  • Verificatie
  • Netwerkbeveiliging
  • Bedreigingsbeveiliging

Dit witboek is gericht op alle belanghebbenden bij de beveiliging van ondernemingen. Deze omvatten beveiligingsbeheerders, netwerkbeheer, Azure-beheerders, werkruimtebeheerders en databasebeheerders.

Schrijvers: Vengatesh Parasuraman, Fretz Nuson, Ron Dunn, Khendr'a Reid, John Hoang, Nithesh Krishnappa, Mykola Kovalenko, Brad Schacht, Pedro Martinez, Mark Pryce-Maher en Arshad Ali.

Technische revisoren: Nandita Valsan, Rony Thomas, Abhishek Narain, Daniel Crawford en Tammy Richter Jones.

Van toepassing op: Azure Synapse Analytics, toegewezen SQL-pool (voorheen SQL DW), serverloze SQL-pool en Apache Spark-pool.

Belangrijk

Dit technische document is niet van toepassing op Azure SQL Database, Azure SQL Managed Instance, Azure Machine Learning of Azure Databricks.

Introductie

Frequente koppen over gegevensschendingen, malware-infecties en het injecteren van schadelijke code behoren tot een uitgebreide lijst met beveiligingsproblemen voor bedrijven die op zoek zijn naar modernisering van de cloud. De zakelijke klant heeft een cloudprovider of serviceoplossing nodig die hun zorgen kan aanpakken, omdat ze het zich niet kunnen veroorloven om het verkeerd te doen.

Enkele veelvoorkomende beveiligingsvragen zijn:

  • Hoe kan ik bepalen wie welke gegevens kan zien?
  • Wat zijn de opties voor het verifiëren van de identiteit van een gebruiker?
  • Hoe worden mijn gegevens beveiligd?
  • Welke netwerkbeveiligingstechnologie kan ik gebruiken om de integriteit, vertrouwelijkheid en toegang tot mijn netwerken en gegevens te beschermen?
  • Wat zijn de hulpprogramma's die bedreigingen detecteren en mij op de hoogte stellen van bedreigingen?

Het doel van dit witboek is het geven van antwoorden op deze veelvoorkomende beveiligingsvragen en vele andere.

Onderdeelarchitectuur

Azure Synapse is een PaaS-analyseservice (Platform-as-a-Service) die meerdere onafhankelijke onderdelen samenbrengt, zoals toegewezen SQL-pools, serverloze SQL-pools, Apache Spark-pools en pijplijnen voor gegevensintegratie. Deze onderdelen zijn ontworpen om samen te werken om een naadloze analytische platformervaring te bieden.

Toegewezen SQL-pools zijn ingerichte clusters die mogelijkheden voor zakelijke datawarehousing bieden voor SQL-workloads. Gegevens worden opgenomen in beheerde opslag die mogelijk wordt gemaakt door Azure Storage, dat ook een PaaS-service is. Compute is geïsoleerd van opslag, zodat klanten rekenkracht onafhankelijk van hun gegevens kunnen schalen. Toegewezen SQL-pools bieden ook de mogelijkheid om rechtstreeks via door de klant beheerde Azure Storage-accounts een query uit te voeren op gegevensbestanden met behulp van externe tabellen.

Serverloze SQL-pools zijn clusters op aanvraag die een SQL-interface bieden voor het rechtstreeks doorzoeken en analyseren van gegevens via door de klant beheerde Azure Storage-accounts. Omdat ze serverloos zijn, is er geen beheerde opslag en worden de rekenknooppunten automatisch geschaald als reactie op de queryworkload.

Apache Spark in Azure Synapse is een van de microsoft-implementaties van opensource Apache Spark in de cloud. Spark-exemplaren worden op aanvraag ingericht op basis van de metagegevensconfiguraties die zijn gedefinieerd in de Spark-pools. Elke gebruiker krijgt een eigen toegewezen Spark-exemplaar voor het uitvoeren van hun taken. De gegevensbestanden die door de Spark-exemplaren worden verwerkt, worden beheerd door de klant in hun eigen Azure Storage-accounts.

Pijplijnen zijn een logische groepering van activiteiten die gegevensverplaatsing en gegevenstransformatie op schaal uitvoeren. Gegevensstroom is een transformatieactiviteit in een pijplijn die is ontwikkeld met behulp van een gebruikersinterface met weinig code. Hiermee kunnen gegevenstransformaties op schaal worden uitgevoerd. Achter de schermen gebruiken gegevensstromen Apache Spark-clusters met Azure Synapse om automatisch gegenereerde code uit te voeren. Pijplijnen en gegevensstromen zijn alleen rekenservices en er is geen beheerde opslag aan gekoppeld.

Pijplijnen gebruiken de Integration Runtime (IR) als de schaalbare rekeninfrastructuur voor het uitvoeren van gegevensverplaatsings- en verzendactiviteiten. Activiteiten voor gegevensverplaatsing worden uitgevoerd op de IR, terwijl de verzendactiviteiten worden uitgevoerd op verschillende andere rekenengines, waaronder Azure SQL Database, Azure HDInsight, Azure Databricks, Apache Spark-clusters van Azure Synapse en andere. Azure Synapse ondersteunt twee typen IR: Azure Integration Runtime en zelf-hostende Integration Runtime. De Azure IR biedt een volledig beheerde, schaalbare en on-demand rekeninfrastructuur. De zelf-hostende IR wordt door de klant geïnstalleerd en geconfigureerd in hun eigen netwerk, op on-premises machines of in virtuele Azure-machines in de cloud.

Klanten kunnen ervoor kiezen om hun Synapse-werkruimte te koppelen aan een beheerd virtueel werkruimtenetwerk. Wanneer deze zijn gekoppeld aan een beheerd werkruimte virtueel netwerk, worden Azure IP's en Apache Spark-clusters die worden gebruikt door pijplijnen, gegevensstromen en de Apache Spark-pools geïmplementeerd in het virtuele netwerk van de beheerde werkruimte. Deze installatie zorgt voor netwerkisolatie tussen de werkruimten voor pijplijnen en Apache Spark-workloads.

In het volgende diagram ziet u de verschillende onderdelen van Azure Synapse.

Diagram van Azure Synapse onderdelen met toegewezen SQL-pools, serverloze SQL-pools, Apache Spark-pools en pijplijnen.

Isolatie van onderdelen

Elk afzonderlijk onderdeel van Azure Synapse die in het diagram worden weergegeven, biedt zijn eigen beveiligingsfuncties. Beveiligingsfuncties bieden gegevensbeveiliging, toegangsbeheer, verificatie, netwerkbeveiliging en bedreigingsbeveiliging voor het beveiligen van de rekenkracht en de bijbehorende gegevens die worden verwerkt. Bovendien biedt Azure Storage, dat een PaaS-service is, extra beveiliging die door de klant wordt ingesteld en beheerd in hun eigen opslagaccounts. Dit niveau van onderdeelisolatie beperkt en minimaliseert de blootstelling als een van de onderdelen een beveiligingsprobleem bevat.

Beveiligingslagen

Azure Synapse implementeert een meerlaagse beveiligingsarchitectuur voor end-to-end-beveiliging van uw gegevens. Er zijn vijf lagen:

  • Gegevensbeveiliging voor het identificeren en classificeren van gevoelige gegevens, en het versleutelen van data-at-rest en in beweging.
  • Toegangsbeheer om het recht van een gebruiker om met gegevens te werken te bepalen.
  • Verificatie om de identiteit van gebruikers en toepassingen te bewijzen.
  • Netwerkbeveiliging om netwerkverkeer te isoleren met privé-eindpunten en virtuele particuliere netwerken.
  • Bedreigingsbeveiliging om mogelijke beveiligingsrisico's te identificeren, zoals ongebruikelijke toegangslocaties, SQL-injectieaanvallen, verificatieaanvallen en meer.

Afbeelding toont de vijf lagen van Azure Synapse beveiligingsarchitectuur: gegevensbescherming, toegangsbeheer, verificatie, netwerkbeveiliging en beveiliging tegen bedreigingen.

Volgende stappen

In het volgende artikel in deze reeks technische artikelen vindt u meer informatie over gegevensbeveiliging.