O que é uma pipeline de dados?

on abril 18, 2024

Um pipeline de dados é uma série de etapas envolvidas no processamento de dados de uma organização.

Normalmente, a pipeline de dados envolve a Ingestão, e uma sequência de estapas de processamento que transformam os dados de acordo com a lógica do negócio e, cada etapa, entrega um produto que é recolhido por uma nova etapa de processamento e esse processo continua até que os dados são considerados ‘prontos’, momento no qual são disponibilizados para o consumo.

Uma pipeline pode ser relativamente simples, com uma ingestão, um processamento e disponibilização ou também pode envolver centenas de etapas sequênciais, pararalelas e etapas que entregam dados para etapas anteriores para serem reprocessadas para obter dados em um formato muito determinado.

Os pipelines de dados consistem em três elementos principais: uma fonte, uma ou mais etapas de processamento e um destino. Em alguns pipelines de dados, o destino pode ser chamado de coletor. Os pipelines de dados permitem o fluxo de dados de um aplicativo para um Data Warehouse, de um Data Lake para um banco de dados analítico ou para um sistema de processamento de pagamentos, por exemplo. Os pipelines de dados também podem ter a mesma fonte e coletor, de modo que o pipeline seja apenas para modificar o conjunto de dados. Sempre que os dados são processados entre o ponto A e o ponto B (ou pontos B, C e D), há um pipeline de dados entre esses pontos.

Então Pipeline de Dados e ETL São a Mesma Coisa ?

Não.

O ETL Extrair, Transformar e Carregar (Extract, Transform, Load) é apenas um dos componentes de uma pipeline de dados.

Normalmente o ETL move os dados em lotes para um sistema especificado com intervalos regulares. Os pipelines de dados podem ser muito mais amplos, possibilitando transformar e processar dados por meio de streaming ou em tempo real.