Azure Synapse Documento técnico de segurança do Analytics: Introdução

Resumo:Azure Synapse Analytics é uma plataforma de análise ilimitada da Microsoft que integra o armazenamento de dados empresariais e o processamento de macrodados num único ambiente gerido sem necessidade de integração do sistema. Azure Synapse fornece as ferramentas ponto a ponto para o seu ciclo de vida analítico com:

Azure Synapse segurança e privacidade de dados não são negociáveis. O objectivo deste livro branco é fornecer uma descrição geral abrangente das Azure Synapse funcionalidades de segurança, que são líderes empresariais e líderes da indústria. O documento técnico inclui uma série de artigos que abrangem as seguintes cinco camadas de segurança:

  • Proteção de dados
  • Controlo de acesso
  • Autenticação
  • Segurança da rede
  • Proteção contra ameaças

Este documento técnico destina-se a todos os intervenientes na segurança empresarial. Incluem administradores de segurança, administrações de rede, administradores do Azure, administradores de áreas de trabalho e administradores de bases de dados.

Escritores: Vengatesh Parasuraman, Fretz Nuson, Ron Dunn, Khendr'a Reid, John Hoang, Nithesh Krishnappa, Mykola Kovalenko, Brad Schacht, Pedro Martinez, Mark Pryce-Maher e Arshad Ali.

Revisores Técnicos: Nandita Valsan, Rony Thomas, Abhishek Narain, Daniel Crawford e Tammy Richter Jones.

Aplica-se a: Azure Synapse Analytics, conjunto de SQL dedicado (anteriormente SQL DW), conjunto de SQL sem servidor e conjunto do Apache Spark.

Importante

Este documento técnico não se aplica a SQL do Azure Database, Azure SQL Managed Instance, Azure Machine Learning ou Azure Databricks.

Introdução

Manchetes frequentes de violações de dados, infecções por malware e injeção de código malicioso estão entre uma extensa lista de preocupações de segurança para empresas que procuram modernizar a cloud. O cliente empresarial necessita de um fornecedor de cloud ou de uma solução de serviço que possa resolver as suas preocupações, uma vez que não se pode dar ao luxo de errar.

Algumas questões de segurança comuns incluem:

  • Como posso controlar quem pode ver que dados?
  • Quais são as opções para verificar a identidade de um utilizador?
  • Como é que os meus dados estão protegidos?
  • Que tecnologia de segurança de rede posso utilizar para proteger a integridade, a confidencialidade e o acesso das minhas redes e dados?
  • Quais são as ferramentas que me detetam e me notificam de ameaças?

O objectivo deste livro branco é dar respostas a estas questões de segurança comuns, entre muitas outras.

Arquitetura de componentes

Azure Synapse é um serviço de análise de Plataforma como serviço (PaaS) que reúne vários componentes independentes, como conjuntos de SQL dedicados, conjuntos de SQL sem servidor, conjuntos do Apache Spark e pipelines de integração de dados. Estes componentes foram concebidos para trabalhar em conjunto para proporcionar uma experiência de plataforma analítica totalmente integrada.

Os conjuntos de SQL dedicados são clusters aprovisionados que fornecem capacidades de armazenamento de dados empresariais para cargas de trabalho SQL. Os dados são ingeridos no armazenamento gerido com tecnologia do Armazenamento do Azure, que também é um serviço PaaS. A computação está isolada do armazenamento, permitindo que os clientes dimensionem a computação independentemente dos dados. Os conjuntos de SQL dedicados também fornecem a capacidade de consultar ficheiros de dados diretamente através de contas de Armazenamento do Azure geridas pelo cliente através de tabelas externas.

Os conjuntos de SQL sem servidor são clusters a pedido que fornecem uma interface SQL para consultar e analisar dados diretamente através de contas de Armazenamento do Azure geridas pelo cliente. Uma vez que não têm servidor, não existe armazenamento gerido e os nós de computação são dimensionados automaticamente em resposta à carga de trabalho de consulta.

O Apache Spark no Azure Synapse é uma das implementações da Microsoft do Apache Spark open source na cloud. As instâncias do Spark são aprovisionadas a pedido com base nas configurações de metadados definidas nos conjuntos do Spark. Cada utilizador obtém a sua própria instância dedicada do Spark para executar os seus trabalhos. Os ficheiros de dados processados pelas instâncias do Spark são geridos pelo cliente nas suas próprias contas de Armazenamento do Azure.

Os pipelines são um agrupamento lógico de atividades que realizam movimentos de dados e transformação de dados em escala. O fluxo de dados é uma atividade de transformação num pipeline desenvolvido através de uma interface de utilizador de baixo código. Pode executar transformações de dados em escala. Em segundo plano, os fluxos de dados utilizam clusters do Apache Spark de Azure Synapse para executar código gerado automaticamente. Os pipelines e os fluxos de dados são serviços apenas de computação e não têm nenhum armazenamento gerido associado aos mesmos.

Os pipelines utilizam o Integration Runtime (IR) como a infraestrutura de computação dimensionável para realizar atividades de movimentação e distribuição de dados. As atividades de movimento de dados são executadas no IR, enquanto as atividades de distribuição são executadas em vários outros motores de computação, incluindo SQL do Azure Database, Azure HDInsight, Azure Databricks, clusters do Apache Spark de Azure Synapse, entre outros. Azure Synapse suporta dois tipos de IR: Integration Runtime do Azure e Integration Runtime Autoalojado. O Azure IR fornece uma infraestrutura de computação totalmente gerida, dimensionável e a pedido. O IR Autoalojado é instalado e configurado pelo cliente na sua própria rede, quer em máquinas virtuais no local, quer em máquinas virtuais na cloud do Azure.

Os clientes podem optar por associar a área de trabalho do Synapse a uma rede virtual de área de trabalho gerida. Quando associados a uma rede virtual de área de trabalho gerida, os IRs do Azure e os clusters do Apache Spark que são utilizados por pipelines, fluxos de dados e conjuntos do Apache Spark são implementados dentro da rede virtual da área de trabalho gerida. Esta configuração garante o isolamento de rede entre as áreas de trabalho para pipelines e cargas de trabalho do Apache Spark.

O diagrama seguinte ilustra os vários componentes de Azure Synapse.

Diagrama de componentes Azure Synapse a mostrar conjuntos de SQL dedicados, conjuntos de SQL sem servidor, conjuntos do Apache Spark e pipelines.

Isolamento de componentes

Cada componente individual de Azure Synapse representado no diagrama fornece as suas próprias funcionalidades de segurança. As funcionalidades de segurança fornecem proteção de dados, controlo de acesso, autenticação, segurança de rede e proteção contra ameaças para proteger a computação e os dados associados que são processados. Além disso, o Armazenamento do Azure, sendo um serviço PaaS, fornece segurança adicional própria, que é configurado e gerido pelo cliente nas suas próprias contas de armazenamento. Este nível de isolamento de componentes limita e minimiza a exposição se existir uma vulnerabilidade de segurança em qualquer um dos seus componentes.

Camadas de segurança

Azure Synapse implementa uma arquitetura de segurança de várias camadas para proteção ponto a ponto dos seus dados. Existem cinco camadas:

  • Proteção de dados para identificar e classificar dados confidenciais e encriptar dados inativos e em movimento.
  • Controlo de acesso para determinar o direito de um utilizador interagir com dados.
  • Autenticação para provar a identidade dos utilizadores e aplicações.
  • Segurança de rede para isolar o tráfego de rede com pontos finais privados e redes privadas virtuais.
  • Proteção contra ameaças para identificar potenciais ameaças de segurança, tais como localizações de acesso invulgares, ataques de injeção de SQL, ataques de autenticação e muito mais.

A imagem mostra as cinco camadas de arquitetura de segurança Azure Synapse: Proteção de dados, Controlo de acesso, Autenticação, Segurança de rede e Proteção contra ameaças.

Passos seguintes

No próximo artigo desta série de documentos técnicos, saiba mais sobre a proteção de dados.