Data Mesh e Data Fabric são duas concepções de arquitetura de dados concorrentes. Elas se referem formas de governar e disponibilizar os dados dentro de uma organização.

Mesh

Fabric

Ambos apontam ao gerenciamento de grandes quantidades de dados, mas Data Mesh é uma concepção descentralizada e Data Fabric é visa o controle centralizado.

Data Mesh é pensado para reduzir o atrito no acesso aos dados e promover a colaboração. Ele fornece uma abordagem mais centrada no usuário para gerenciamento de dados. Os dados são disponibilizados para os departamentos e o acesso e construção de produtos de dados fica a cargo dos times que podem priorizar e focar nas suas necessidades.
Data Fabric é uma abordagem mais centralizada e focada na automatização para reunir dados de várias fontes e sistemas para obter insights desses dados e disponibilizar os mesmos produtos de dados para todos os departamentos que, então, se encarregam de recortar e agregar de acordo com as suas necessidades.

Data Mesh é uma abordagem descentralizada: é descentralizada por design e seus princípios básicos estão centrados na distribuição de propriedade, acesso e responsabilidade dos dados entre várias equipes ou unidades específicas de domínio dentro de uma organização.

Elementos chave do Data Mesh

Descentralização orientada por domínio: garante que os dados sejam propriedade dos usuários finais que estão mais familiarizados com eles (ou seja, especialistas no domínio).
Dados como produto: envolve tratar os dados como um produto e outras equipes e departamentos da sua organização como clientes. Um produto de dados é um microsserviço que encapsula todos os elementos necessários para executar o resultado de seus dados (dados, código e infraestrutura).
Plataforma de dados de autoatendimento: Uma plataforma automatizada centralizada que permite que domínios de dados descentralizados se comuniquem entre si.
Governança federada: Padrões de governança de dados que permitem que produtos e domínios de dados descentralizados em uma malha de dados funcionem juntos.

Um domínio de negócios refere-se a uma área específica de especialização, responsabilidade ou foco dentro de uma organização. Pode ser uma unidade de negócios inteira ou um departamento específico, como vendas, ou uma equipe, como uma equipe de cientistas de dados trabalhando em projetos de inteligência artificial (IA) e aprendizado de máquina (ML) para o negócio.

Numa empresa de comércio eletrónico, por exemplo, um domínio empresarial pode ser um grupo que trata de todos os dados relacionados com produtos, incluindo descrições, preços e disponibilidade, para um catálogo de produtos. Numa organização de cuidados de saúde, um domínio de negócio pode ser a função de faturação e seguros, onde são geridas todas as faturas dos pacientes, reclamações de seguros e dados financeiros relacionados.

O que são dados orientados por domínio (Domain Driven Data)?
Dados orientados por domínio referem-se à prática de organizar e gerenciar dados em alinhamento com domínios ou áreas de especialização específicos dentro de uma organização. As unidades ou equipes de negócios possuem coletas de dados específicas e são responsáveis ​​pela qualidade, acessibilidade e segurança desses dados.

O conceito de dados orientados por domínio está intimamente relacionado aos princípios do design orientado por domínio (Domain Driven Data – DDD). A abordagem DDD para o desenvolvimento de software enfatiza a importância de modelar o domínio do problema para criar software que reflita processos e regras de negócios do mundo real. A abordagem incentiva a colaboração entre especialistas do domínio, desenvolvedores de software e partes interessadas.

Exemplos de Data Mesh em ação
– Uma instituição financeira implementa uma data mesh para poder lidar com diversas fontes de dados financeiros, como dados de mercado e transações de clientes. Cada produto ou serviço financeiro (por exemplo, cartões de crédito, carteiras de investimento) é gerenciado por uma equipe de domínio dedicada. Eles garantem a conformidade com os requisitos regulatórios relevantes, ao mesmo tempo que fornecem serviços financeiros personalizados e aconselhamento aos clientes.
– Um provedor de streaming de mídia adota uma abordagem de data mesh para melhorar as recomendações de conteúdo e a personalização para seus assinantes. Categorias de conteúdo, como filmes e documentários, são tratadas como domínios. Equipes especializadas selecionam dados e conteúdo em seus domínios para fornecer recomendações de conteúdo mais precisas e envolver os usuários.
– Uma concessionária de energia institui uma arquitetura data mesh para gerenciar dados de suas operações de geração e distribuição de energia. Diferentes fontes de energia, incluindo solar e eólica, e componentes de gerenciamento da rede são tratados como domínios separados na malha de dados. A concessionária pode então usar produtos de dados gerados por esses domínios para otimizar a produção e distribuição de energia para impulsionar a eficiência e a sustentabilidade.

Agora, vamos dar uma olhada na Data Fabric.

É um tipo de arquitetura de dados em que os dados são provisionados por meio de uma camada de acesso unificada e integrada que está disponível em toda a infraestrutura de TI de uma organização. A estrutura fornece uma visão unificada e em tempo real dos dados, permitindo que a empresa integre processos de gerenciamento de dados com seus dados de diversas fontes, incluindo ambientes de nuvem híbrida, aplicações web e dispositivos de borda.

O Data Fabric é uma tecnologia ou uma abordagem?
A malha de dados é um conceito de gerenciamento de dados e costuma ser chamada de abordagem. Uma arquitetura de Data Fabric destina-se a ajudar as organizações a enfrentar os desafios de gerenciamento de ambientes de dados cada vez mais complexos, como data centers locais, infraestrutura em nuvem, dispositivos de computação de ponta e diversas tecnologias de armazenamento de dados.

A Data Fabric é uma arquitetura unificada que visa fornecer uma abordagem consistente e unificada para acessar e interagir com os dados, independentemente de onde esses dados estão armazenados ou como são formatados. Isso inclui dados estruturados e não estruturados e dados em bancos de dados relacionais, bancos de dados NoSQL, data lakes e nuvem.

Uma solução de data fabric apresenta serviços e tecnologias que permitem processos como integração de dados, governança, catalogação, descoberta, orquestração e muito mais. Os elementos arquitetônicos da malha de dados incluem:

  • Uma camada de transporte de dados para mover dados pela malha
  • Algoritmos avançados para análise de dados
  • APIs e kits de desenvolvimento de software (SDKs) para disponibilizar dados e insights para usuários front-end por meio das ferramentas que eles usam para trabalhar com dados, como um programa de análise de negócios ou visualização de dados.

O que é uma camada centralizada de integração de dados?
Uma camada centralizada de integração de dados consolida os processos de integração de dados em uma infraestrutura centralizada. Em uma abordagem de estrutura de dados, essa camada cria uma visão coesa e integrada dos dados em toda a organização. Ao consolidar as tarefas de integração de dados, fica mais fácil conectar, ingerir, transformar e distribuir dados de diversas fontes.

As organizações que têm uma forte necessidade de governança de dados, conformidade e consistência de dados em seus departamentos e unidades de negócios geralmente usam uma camada centralizada de integração de dados em sua arquitetura de dados.

Exemplos de soluções de Data Fabric
Algumas organizações optam por construir sua própria arquitetura de data fabric para que possam personalizá-la para atender às suas necessidades específicas de acesso a dados e à stack de tecnologia e infraestrutura de TI existentes. E há muitos projetos e ferramentas de código aberto — como Apache Kafka, Apache Spark e Apache Hadoop — que podem ser combinados para criar uma malha de dados personalizada.

Comments are closed