Технический документ по безопасности Azure Synapse Analytics: введение

Краткое описание.Azure Synapse Analytics — это платформа аналитики Майкрософт с неограниченными аналитическими возможностями, которая интегрирует хранилище корпоративных данных и обработку больших данных в единую управляемую среду, не требуя никаких усилий по системной интеграции. Azure Synapse предоставляет комплексные инструменты для всего жизненного цикла аналитики:

Безопасность и конфиденциальность данных Azure Synapse являются абсолютным приоритетом. Задача этого технического документа — предоставить исчерпывающий обзор передовых функций обеспечения безопасности Azure Synapse корпоративного уровня. Технический документ состоит из серии статей, в которых рассматриваются следующие пять уровней безопасности:

  • Защита данных
  • Управление доступом
  • Аутентификация
  • Безопасность сети
  • Защита от угроз

Этот технический документ предназначен для всех заинтересованных лиц, отвечающих за безопасность предприятия. К ним относятся администраторы безопасности, сетевые администраторы, администраторы Azure, администраторы рабочих областей и администраторы баз данных.

Авторы: Венгатеш Парасураман (Vengatesh Parasuraman), Фретц Нусон (Fretz Nuson), Рон Данн (Ron Dunn), Хендра Рейд (Khendr'a Reid), Джон Хоанг (John Hoang), Нисеш Кришнаппа (Nithesh Krishnappa), Мыкола Коваленко (Mykola Kovalenko), Бред Шахт (Brad Schacht), Педро Матинез (Pedro Matinez), Марк Прайс-Махер (Mark Pryce-Maher) и Аршад Али (Arshad Ali).

Технические рецензенты: Нандита Валсан (Nandita Valsan), Рони Томас (Rony Thomas), Абхишек Нараин (Abhishek Narain), Даниэль Кроуфорд (Daniel Crawford) и Темми Рихтер Джонс (Tammy Richter Jones).

Область применения: Azure Synapse Analytics, выделенный пул SQL (ранее SQL DW), бессерверный пул SQL и пул Apache Spark.

Важно!

Этот технический документ не относится к Базе данных SQL Azure, Управляемому экземпляру SQL Azure, Машинному обучению Azure и Azure Databricks.

Введение

Утечки данных, заражение вредоносными программами и внедрение вредоносного кода, часто фигурирующие в новостях, — лишь некоторые из потенциальных проблем с безопасностью для компаний, задумывающихся о переходе на облачные платформы. Корпоративному клиенту требуется решение от поставщика облачных услуг или службы, которые помогут решить эти проблемы, поскольку игнорировать их не представляется возможным.

Ниже перечислены некоторые распространенные вопросы о безопасности.

  • Как контролировать доступ пользователей к своим данным?
  • Какие есть способы проверки личности пользователей?
  • Как защищены мои данные?
  • Какие технологии сетевой безопасности можно использовать для защиты целостности, конфиденциальности и доступа к сетям и данным?
  • Какие инструменты способны обнаруживать угрозы и уведомлять о них?

Этот технический документ позволяет получить ответы на все эти и многие другие распространенные вопросы о безопасности.

Архитектура компонентов

Azure Synapse — это служба аналитики "платформа как услуга" (PaaS), которая объединяет несколько независимых компонентов, таких как выделенные пулы SQL, бессерверные пулы SQL, пулы Apache Spark и конвейеры интеграции данных. Эти компоненты совместно должны образовать удобную аналитическую платформу.

Выделенные пулы SQL — это подготовленные кластеры, обеспечивающие возможности хранения данных корпоративного уровня для рабочих нагрузок SQL. Данные принимает управляемое хранилище на платформе службы хранилища Azure, которая также является службой PaaS. Вычислительные ресурсы изолированы от хранилища, что позволяет клиентам масштабировать их независимо от их данных. Выделенные пулы SQL также предоставляют возможность запрашивать файлы данных непосредственно через управляемые клиентом учетные записи службы хранилища Azure с помощью внешних таблиц.

Бессерверные пулы SQL — это кластеры по запросу, которые предоставляют интерфейс SQL для запросов и анализа данных непосредственно через управляемые клиентом учетные записи службы хранилища Azure. Так как они бессерверные, управляемого хранилища нет, а вычислительные узлы масштабируются автоматически в зависимости от рабочей нагрузки запроса.

Apache Spark в Azure Synapse  — это одна из реализаций Apache Spark (который является проектом с открытым кодом) в облаке, предоставляемая корпорацией Майкрософт. Экземпляры Spark подготавливаются по запросу на основе конфигураций метаданных, определенных в пулах Spark. Каждый пользователь получает собственный выделенный экземпляр Spark для выполнения заданий. Файлы данных, обрабатываемые экземплярами Spark, управляются клиентом в их собственных учетных записях службы хранилища Azure.

Конвейер — это логическая группировка действий, которые выполняют перемещение данных и преобразование данных в большом масштабе. Поток данных — это действие преобразования в конвейере, разработанное с помощью пользовательского интерфейса с минимальным объемом кода. Он может выполнять преобразования данных в большом масштабе. Потоки данных используют кластеры Apache Spark в Azure Synapse для автоматического создания кода. Конвейеры и потоки данных — это службы, доступные только для вычислений, и с ними не связано управляемое хранилище.

Конвейеры используют Integration Runtime (IR) в качестве масштабируемой вычислительной инфраструктуры для выполнения действий перемещения и отправки данных. Действия перемещения данных выполняются в IR, в то время как действия по отправке выполняются на различных других вычислительных модулях, включая Базу данных SQL Azure, Azure HDInsight, Azure Databricks, кластеры Apache Spark в Azure Synapse и другие. Azure Synapse поддерживает два типа IR: Azure Integration Runtime и локальную среду IR. Azure IR предоставляет полностью управляемую, масштабируемую и предоставляемую по запросу вычислительную инфраструктуру. Локальная среда IR устанавливается и настраивается клиентом в собственной сети — на локальных компьютерах или в облачных виртуальных машинах Azure.

Клиенты могут связать рабочую область Synapse с виртуальной сетью управляемой рабочей области. Если кластеры Azure IR и Apache Spark, используемые конвейерами, потоками данных и пулами Apache Spark, связаны с виртуальной сетью управляемой рабочей области, они развертываются в ней. Эта конфигурация обеспечивает сетевую изоляцию между рабочими областями для конвейеров и рабочих нагрузок Apache Spark.

На следующей схеме показаны различные компоненты Azure Synapse.

Схема Azure Synapse компонентов, на которой показаны выделенные пулы SQL, бессерверные пулы SQL, пулы Apache Spark и конвейеры.

Изоляция компонентов

Каждый отдельный компонент Azure Synapse, показанный на схеме, предоставляет собственные функции безопасности. Функции безопасности обеспечивают защиту данных, управление доступом, проверку подлинности, сетевую безопасность и защиту от угроз для защиты вычислительных ресурсов и связанных с ними данных, которые обрабатываются. Кроме того, служба хранилища Azure, будучи службой PaaS, обеспечивает дополнительную безопасность, которая настраивается и управляется клиентом в его учетных записях хранения. Этот уровень изоляции компонентов ограничивает и минимизирует риски при наличии уязвимости безопасности в любом из компонентов.

Уровни безопасности

В Azure Synapse реализована многоуровневая архитектура безопасности для комплексной защиты данных. Существует пять уровней:

  • Защита данных для выявления и классификации конфиденциальных данных, а также их шифрования во время хранения и передачи.
  • Управление доступом для определения прав пользователей на взаимодействие с данными.
  • Проверка подлинности для подтверждения личности пользователей и приложений.
  • Сетевая безопасность для изоляции сетевого трафика с помощью частных конечных точек и виртуальных частных сетей.
  • Защита от угроз для выявления потенциальных угроз для безопасности, например необычных мест доступа, атак путем внедрения кода SQL, атак с проверкой подлинности и т. д.

На рисунке показаны пять уровней архитектуры Azure Synapse безопасности: защита данных, управление доступом, проверка подлинности, сетевая безопасность и защита от угроз.

Дальнейшие действия

В следующей статье этой серии рассматривается проверка подлинности.