Arquitetura de análise moderna com o Azure Databricks

Fábrica de dados do Azure
Armazenamento do Azure Data Lake
Azure Databricks
Azure Synapse Analytics
Power BI

Ideias de solução

Esse artigo é uma ideia de solução. Se você quiser que expandamos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações de implementação ou diretrizes de preços, informe-nos fornecendo comentários do GitHub.

Esta solução descreve uma arquitetura de dados moderna. O Azure Databricks forma o núcleo da solução. Essa plataforma funciona perfeitamente com outros serviços, como o Azure Data Lake Storage Gen2, o Azure Data Factory, o Azure Synapse Analytics e o Power BI.

Apache® e Apache Spark™ são marcas registradas ou marcas comerciais do Apache Software Foundation nos Estados Unidos e/ou em outros países. O uso desta marca não implica aprovação por parte da Apache Software Foundation.

Arquitetura

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

  1. O Azure Databricks ingere dados brutos de streaming dos Hubs de Eventos do Azure.

  2. O Data Factory carrega dados brutos em lote no Data Lake Storage Gen2.

  3. Para armazenamento de dados:

    • O Data Lake Storage Gen2 armazena dados de todos os tipos, como estruturados, não estruturados e semiestruturados. Ele também armazena dados em lote e streaming.

    • O Delta Lake forma a camada curada do data lake. Ele armazena os dados refinados em um formato de software livre.

    • O Azure Databricks funciona bem com uma arquitetura de medalhão que organiza dados em camadas:

      • Bronze: contém dados brutos.
      • Silver: contém dados limpos e filtrados.
      • Gold: armazena dados agregados que são úteis para análise de negócios.
  4. A plataforma analítica ingere dados das diferentes fontes de streaming e lote. Os cientistas de dados usam esses dados para estas tarefas:

    • Preparação dos dados.
    • Exploração de dados.
    • Preparação do modelo.
    • Treinamento de modelo.

    O MLflow gerencia o acompanhamento de parâmetros, métricas e modelos em execuções de código de ciência de dados. As possibilidades de codificação são flexíveis:

    • O código pode estar em SQL, Python, R e Scala.
    • O código pode usar bibliotecas e estruturas de software livre populares, como Coalas, Pandas e scikit-learn, que são pré-instalados e otimizados.
    • Os praticantes podem otimizar o desempenho e o custo com opções de computação de nó único e vários nós.
  5. Os modelos de machine learning estão disponíveis em vários formatos:

    • O Azure Databricks armazena informações sobre modelos no Registro de Modelo do MLflow. O registro disponibiliza modelos por meio de APIs REST, de streaming e de lote.
    • A solução também pode implantar modelos nos serviços Web do Azure Machine Learning ou no Serviço de Kubernetes do Azure (AKS).
  6. Os serviços que funcionam com os dados se conectam a uma única fonte de dados subjacente para garantir a consistência. Por exemplo, os usuários podem executar consultas SQL no data lake com o Azure Databricks SQL Analytics. Este serviço:

  7. O Power BI gera relatórios e painéis analíticos e históricos da plataforma de dados unificada. Esse serviço usa estes recursos ao trabalhar com o Azure Databricks:

  8. Os usuários podem exportar conjuntos de dados gold do data lake para o Azure Synapse por meio do conector otimizado do Synapse. Os pools de SQL no Azure Synapse fornecem um ambiente de computação e armazenamento de dados.

  9. A solução usa os serviços do Azure para colaboração, desempenho, confiabilidade, governança e segurança:

    • O Microsoft Purview fornece serviços de descoberta de dados, classificação de dados confidenciais e insights de governança em todo o conjunto de dados.

    • O Azure DevOps oferece integração contínua e entrega contínua (CI/CD) e outros recursos de controle de versão integrados.

    • O Azure Key Vault gerencia com segurança segredos, chaves e certificados.

    • O Microsoft Entra ID fornece SSO (logon único) para usuários do Azure Databricks. O Azure Databricks dá suporte ao provisionamento automatizado de usuários com o Microsoft Entra ID para estas tarefas:

      • Criar usuários.
      • Atribuir um nível de acesso a cada usuário.
      • Remover usuários e negar-lhes acesso.
    • O Azure Monitor coleta e analisa a telemetria de recursos do Azure. Ao identificar problemas proativamente, esse serviço maximiza o desempenho e a confiabilidade.

    • O Gerenciamento de Custos e Cobrança do Azure fornece serviços de governança financeira para cargas de trabalho do Azure.

Componentes

A solução usa os componentes a seguir.

Componentes principais

  • O Azure Databricks é uma plataforma de análise de dados. Seus clusters do Spark totalmente gerenciados processam grandes fluxos de dados de várias fontes. O Azure Databricks limpa e transforma conjuntos de dados não estruturados. Ele combina os dados processados com os dados estruturados de bancos de dados operacionais ou data warehouses. O Azure Databricks também treina e implanta modelos de machine learning e de aprendizado profundo escalonáveis.

  • Os Hubs de Eventos são uma plataforma de streaming de Big Data. Como uma plataforma como serviço (PaaS), esse serviço de ingestão de eventos é totalmente gerenciado.

  • O Data Factory é um serviço híbrido de integração de dados. Você pode usar essa solução totalmente gerenciada e sem servidor para criar, agendar e orquestrar fluxos de trabalho de transformação de dados.

  • O Data Lake Storage Gen2 é um data lake escalonável e seguro para cargas de trabalho de análise de alto desempenho. Este serviço pode gerenciar vários petabytes de informações enquanto mantém centenas de gigabits de taxa de transferência. Os dados podem ser estruturados, semiestruturados ou não estruturados. Normalmente, ele vem de várias fontes heterogêneas, como logs, arquivos e mídia.

  • A Análise SQL do Azure Databricks executa consultas em data lakes. Esse serviço também visualiza dados em painéis.

  • O Machine Learning é um ambiente baseado em nuvem que ajuda você a criar, implantar e gerenciar soluções de análise preditiva. Com esses modelos, você pode prever o comportamento, os resultados e as tendências.

  • O AKs é um serviço de Kubernetes altamente disponível, seguro e totalmente gerenciado. O AKS facilita a implantação e o gerenciamento de aplicativos em contêineres.

  • O Azure Synapse é um serviço de análise para data warehouses e sistemas de Big Data. Esse serviço se integra com o Power BI, o Machine Learning e outros serviços do Azure.

  • Os conectores do Azure Synapse fornecem uma maneira de acessar o Azure Synapse do Azure Databricks. Esses conectores transferem com eficiência grandes volumes de dados entre clusters do Azure Databricks e instâncias do Azure Synapse.

  • Os pools de SQL fornecem um ambiente de computação e armazenamento de dados no Azure Synapse. Os pools são compatíveis com o Armazenamento do Microsoft Azure e o Data Lake Storage Gen2.

  • Delta Lake é uma camada de armazenamento que usa um formato de arquivo aberto. Essa camada é executada em cima do armazenamento em nuvem, como o Data Lake Storage Gen2. O Delta Lake dá suporte ao controle de versão, reversão e transações de dados para atualizar, excluir e mesclar dados.

  • O MLflow é uma plataforma de software livre para o ciclo de vida do aprendizado de máquina. Seus componentes monitoram modelos de machine learning durante o treinamento e a execução. O MLflow também armazena modelos e os carrega em produção.

Relatórios e componentes de controle

  • O Power BI é uma coleção de serviços de software e aplicativos. Esses serviços criam e compartilham relatórios que conectam fontes de dados não relacionadas e as visualizam. Junto com o Azure Databricks, o Power BI pode fornecer determinação de causa raiz e análise de dados brutos.

  • O Microsoft Purview gerencia dados locais, multinuvem e de software como serviço (SaaS). Esse serviço de governança mantém mapas de paisagem de dados. Os recursos incluem descoberta automatizada de dados, classificação de dados confidenciais e linhagem de dados.

  • O Azure DevOps é uma plataforma de orquestração do DevOps. Esse SaaS fornece ferramentas e ambientes para criar, implantar e colaborar em aplicativos.

  • O Azure Key Vault armazena e controla o acesso a segredos, como tokens, senhas e chaves de API. O Key Vault também cria e controla chaves de criptografia e gerencia certificados de segurança.

  • O Microsoft Entra ID oferece serviços de gerenciamento de acesso e identidade baseados em nuvem do Azure. Esses recursos fornecem uma maneira para os usuários fazerem logon e acessarem recursos.

  • O Azure Monitor coleta e analisa dados em ambientes e recursos do Azure. Esses dados incluem telemetria de aplicativo, como métricas de desempenho e logs de atividade.

  • O Gerenciamento de Custos e Cobrança do Azure gerencia os gastos com nuvem. Usando orçamentos e recomendações, esse serviço organiza despesas e mostra como reduzir custos.

Detalhes do cenário

As arquiteturas de dados modernas atendem a estes critérios:

  • Unificar dados, análises e cargas de trabalho de IA.
  • Execute de forma eficiente e confiável em qualquer escala.
  • Forneça insights por meio de painéis de análise, relatórios operacionais ou análise avançada.

Essa solução descreve uma arquitetura de dados moderna que atinge essas metas. O Azure Databricks forma o núcleo da solução. Essa plataforma funciona perfeitamente com outros serviços. Juntos, esses serviços fornecem uma solução com estas qualidades:

  • Simples: a análise unificada, a ciência de dados e o aprendizado de máquina simplificam a arquitetura de dados.
  • Aberto: a solução dá suporte a código de software de código aberto, padrões abertos e estruturas abertas. Ela também funciona com ambientes de desenvolvimento integrado (IDEs), bibliotecas e linguagens de programação populares. Por meio de conectores nativos e APIs, a solução também funciona com uma ampla gama de outros serviços.
  • Colaborativo: engenheiros de dados, cientistas de dados e analistas trabalham em conjunto com essa solução. Eles podem usar notebooks colaborativos, IDEs, painéis e outras ferramentas para acessar e analisar dados subjacentes comuns.

Possíveis casos de uso

O sistema que o Swiss Re Group construiu para sua divisão de Resseguro de Propriedade & Incidentes inspirou essa solução. Além do setor de seguros, qualquer área que funcione com Big Data ou aprendizado de máquina também pode se beneficiar dessa solução. Os exemplos incluem:

  • O setor de energia
  • Varejo e comércio eletrônico
  • Serviços bancários e financeiros
  • Medicina e cuidados de saúde

Próximas etapas

Para saber mais sobre as soluções relacionadas, consulte as seguintes informações: