Oficjalny dokument zabezpieczeń usługi Azure Synapse Analytics: Wprowadzenie

Podsumowanie:Azure Synapse Analytics to bez ograniczeń platforma analityczna firmy Microsoft, która integruje magazynowanie danych przedsiębiorstwa i przetwarzanie danych big data w jednym zarządzanym środowisku bez konieczności integracji systemu. Azure Synapse udostępnia kompleksowe narzędzia do cyklu życia analitycznego za pomocą następujących funkcji:

Azure Synapse bezpieczeństwo i prywatność danych nie są negocjowane. Celem tej białej księgi jest przedstawienie kompleksowego przeglądu Azure Synapse funkcji zabezpieczeń, które są wiodące w branży i klasy korporacyjnej. Oficjalny dokument składa się z serii artykułów, które obejmują następujące pięć warstw zabezpieczeń:

  • Ochrona danych
  • Kontrola dostępu
  • Authentication
  • Bezpieczeństwo sieci
  • Ochrona przed zagrożeniami

Ten oficjalny dokument jest przeznaczony dla wszystkich uczestników projektu zabezpieczeń przedsiębiorstwa. Obejmują one administratorów zabezpieczeń, administracji sieci, administratorów platformy Azure, administratorów obszarów roboczych i administratorów baz danych.

Pisarzy: Vengatesh Parasuraman, Fretz Nuson, Ron Dunn, Khendr'a Reid, John Hoang, Nithesh Krishnappa, Mykola Kovalenko, Brad Schacht, Pedro Martinez, Mark Pryce-Maher i Arshad Ali.

Recenzenci techniczni: Nandita Valsan, Rony Thomas, Abhishek Narain, Daniel Crawford i Tammy Richter Jones.

Dotyczy: Azure Synapse Analytics, dedykowana pula SQL (wcześniej SQL DW), bezserwerowa pula SQL i pula Apache Spark.

Ważne

Ten oficjalny dokument nie dotyczy Azure SQL Database, Azure SQL Managed Instance, Azure Machine Learning ani Azure Databricks.

Wprowadzenie

Częste nagłówki naruszeń danych, infekcje złośliwym oprogramowaniem i wstrzyknięcie złośliwego kodu należą do szerokiej listy problemów z zabezpieczeniami firm, które chcą modernizacji chmury. Klient korporacyjny wymaga dostawcy usług lub dostawcy usług, który może rozwiązać swoje problemy, ponieważ nie może sobie pozwolić na jego błędne rozwiązanie.

Oto niektóre typowe pytania dotyczące zabezpieczeń:

  • Jak mogę kontrolować, kto może wyświetlać jakie dane?
  • Jakie są opcje weryfikowania tożsamości użytkownika?
  • Jak są chronione moje dane?
  • Jakiej technologii zabezpieczeń sieci można użyć do ochrony integralności, poufności i dostępu do moich sieci i danych?
  • Jakie narzędzia wykrywają i powiadamiają mnie o zagrożeniach?

Celem tej białej księgi jest przedstawienie odpowiedzi na te typowe pytania dotyczące zabezpieczeń i wiele innych.

Architektura składników

Azure Synapse to usługa analizy typu platforma jako usługa (PaaS), która łączy wiele niezależnych składników, takich jak dedykowane pule SQL, bezserwerowe pule SQL, pule platformy Apache Spark i potoki integracji danych. Te składniki są przeznaczone do współpracy w celu zapewnienia bezproblemowego środowiska platformy analitycznej.

Dedykowane pule SQL to klastry aprowidowane, które zapewniają możliwości magazynowania danych przedsiębiorstwa dla obciążeń SQL. Dane są pozyskiwane do magazynu zarządzanego obsługiwanego przez usługę Azure Storage, która jest również usługą PaaS. Obliczenia są odizolowane od magazynu, dzięki czemu klienci mogą skalować zasoby obliczeniowe niezależnie od swoich danych. Dedykowane pule SQL zapewniają również możliwość wykonywania zapytań dotyczących plików danych bezpośrednio za pośrednictwem kont usługi Azure Storage zarządzanych przez klienta przy użyciu tabel zewnętrznych.

Bezserwerowe pule SQL to klastry na żądanie, które zapewniają interfejs SQL do wykonywania zapytań i analizowania danych bezpośrednio za pośrednictwem kont usługi Azure Storage zarządzanych przez klienta. Ponieważ są one bezserwerowe, nie ma zarządzanego magazynu, a węzły obliczeniowe są skalowane automatycznie w odpowiedzi na obciążenie zapytania.

Platforma Apache Spark w Azure Synapse jest jedną z implementacji platformy Apache Spark typu open source firmy Microsoft w chmurze. Wystąpienia platformy Spark są aprowidowane na żądanie na podstawie konfiguracji metadanych zdefiniowanych w pulach platformy Spark. Każdy użytkownik otrzymuje własne dedykowane wystąpienie platformy Spark do uruchamiania swoich zadań. Pliki danych przetwarzane przez wystąpienia platformy Spark są zarządzane przez klienta na własnych kontach usługi Azure Storage.

Potoki to logiczne grupowanie działań, które wykonują przenoszenie danych i przekształcanie danych na dużą skalę. Przepływ danych to działanie przekształcania w potoku opracowanym przy użyciu interfejsu użytkownika z małą ilością kodu. Może wykonywać przekształcenia danych na dużą skalę. W tle przepływy danych używają klastrów platformy Apache Spark Azure Synapse do automatycznego generowania kodu. Potoki i przepływy danych to usługi tylko do obliczeń i nie mają skojarzonego z nimi żadnego zarządzanego magazynu.

Potoki używają Integration Runtime (IR) jako skalowalnej infrastruktury obliczeniowej do wykonywania działań przenoszenia i wysyłania danych. Działania przenoszenia danych są uruchamiane na środowisku IR, podczas gdy działania wysyłania są uruchamiane na różnych innych aparatach obliczeniowych, w tym Azure SQL Database, Azure HDInsight, Azure Databricks, klastrach Apache Spark Azure Synapse i innych. Azure Synapse obsługuje dwa typy środowisk IR: azure Integration Runtime i self-hosted Integration Runtime. Środowisko Azure IR zapewnia w pełni zarządzaną, skalowalną i na żądanie infrastrukturę obliczeniową. Własne środowisko IR jest instalowane i konfigurowane przez klienta we własnej sieci na maszynach lokalnych lub na maszynach wirtualnych w chmurze platformy Azure.

Klienci mogą wybrać skojarzenie obszaru roboczego usługi Synapse z zarządzaną siecią wirtualną obszaru roboczego. W przypadku skojarzenia z zarządzaną siecią wirtualną obszaru roboczego klastry azure IRs i Apache Spark używane przez potoki, przepływy danych i pule platformy Apache Spark są wdrażane w zarządzanej sieci wirtualnej obszaru roboczego. Ta konfiguracja zapewnia izolację sieci między obszarami roboczymi dla potoków i obciążeń platformy Apache Spark.

Na poniższym diagramie przedstawiono różne składniki Azure Synapse.

Diagram Azure Synapse składników przedstawiający dedykowane pule SQL, bezserwerowe pule SQL, pule platformy Apache Spark i potoki.

Izolacja składników

Każdy składnik Azure Synapse przedstawiony na diagramie zapewnia własne funkcje zabezpieczeń. Funkcje zabezpieczeń zapewniają ochronę danych, kontrolę dostępu, uwierzytelnianie, zabezpieczenia sieci i ochronę przed zagrożeniami na potrzeby zabezpieczania zasobów obliczeniowych i skojarzonych danych, które są przetwarzane. Ponadto usługa Azure Storage, będąca usługą PaaS, zapewnia dodatkowe zabezpieczenia, które są konfigurowane i zarządzane przez klienta na własnych kontach magazynu. Ten poziom izolacji składników ogranicza i minimalizuje narażenie, jeśli wystąpiła luka w zabezpieczeniach w jednym z jego składników.

Warstwy zabezpieczeń

Azure Synapse implementuje wielowarstwową architekturę zabezpieczeń na potrzeby kompleksowej ochrony danych. Istnieją pięć warstw:

  • Ochrona danych w celu identyfikowania i klasyfikowania poufnych danych oraz szyfrowania danych magazynowanych i przesyłanych.
  • Kontrola dostępu w celu określenia prawa użytkownika do interakcji z danymi.
  • Uwierzytelnianie w celu potwierdzenia tożsamości użytkowników i aplikacji.
  • Zabezpieczenia sieci w celu odizolowania ruchu sieciowego z prywatnymi punktami końcowymi i wirtualnymi sieciami prywatnymi.
  • Ochrona przed zagrożeniami w celu zidentyfikowania potencjalnych zagrożeń bezpieczeństwa, takich jak nietypowe lokalizacje dostępu, ataki polegających na wstrzyknięciu kodu SQL, ataki uwierzytelniania i nie tylko.

Obraz przedstawia pięć warstw architektury zabezpieczeń Azure Synapse: ochrona danych, kontrola dostępu, uwierzytelnianie, zabezpieczenia sieci i ochrona przed zagrożeniami.

Następne kroki

W następnym artykule z tej serii dokumentów opisano ochronę danych.