A primeira aproximação a um conjunto de dados desconhecido pode ser muito desafiadora. É necessário realizar testes e experimentos para tentar encontrar padrões que permitam escalar a análise, o que pode ser um processo lento, complexo e perigoso, já que um viés equivado nos dados em […]
Time Travel Query é um recurso de bancos de dados que permite aos usuários consultar dados históricos, como se estivessem voltando no tempo para ver o estado do banco de dados em um momento anterior. Isso é feito através de versionamento de dados e ‘snapshots’ que […]
Primeiro, o que é a arquitetura de soluções? A arquitetura de soluções é o título que se dá ao conjunto de técnicas e saberes necessários para projetar formas de atender as necessidades de uma empresa. Para isso, conta com o auxílio de artifícios tecnológicos próprios, implementados […]
As dimensões que mudam lentamente (Slowly Changing Dimensions – SCDs) são usadas em data warehouses para lidar com alterações nos dados ao longo do tempo. Existem vários tipos de SCDs, cada um adequado para diferentes cenários. Cada tipo de SCD tem suas vantagens e desvantagens, e […]
Python é uma das principais ferramentas no cinto de utilidades dos profissionais de dados. Graças a sua flexibilidade e poderosas bibliotecas, podemos usá-lo em todo o ecossistema atual de forma segura. Mas, quais elementos fundamentais dessa linguagem são importantes dominar? • Estruturas de dados integradas: list, […]
Medallion Architecture ou “Arquitetura em Medalhões” é a ideia de uma estrutura hierárquica em camadas, onde cada camada representa um nível de qualidade e governança dos dados.A representação em camadas bronze, prata e ouro estabelece uma estrutura hierárquica para gerenciar e organizar os dados de acordo […]
Um pipeline de dados é uma série de etapas envolvidas no processamento de dados de uma organização. Normalmente, a pipeline de dados envolve a Ingestão, e uma sequência de estapas de processamento que transformam os dados de acordo com a lógica do negócio e, cada etapa, […]
O contínuo e vertiginoso crescimento do volume de dados produzidos por nossas atividades (Big Data, Internet das Coisas (IoT), softwares como serviço (SaaS), atividades na nuvem) estão causando uma explosão no número de fontes de dados, os processos que geram dados. Mas a maioria desses dados […]
A movimentação de dados é o processo de trazer os dados desde uma fonte (banco de dados, stream, sinais de máquinas) para ser armazenada em outro lugar. Esse processo pode envolver bastante complexidade e exigir a interconecção de muitos sistemas. Para facilitar a vida do engenheiro […]
Arquitetura com referências para Plataformas de Dados Modernas O Modern Data Stack é uma realidade que agrupa diversas ferramentas para podermos montar arquiteturas de dados modernas que entregam alto valor em menos tempo, o sempre fundamental Tempo Para Valor. O surgimento do MDS se deu por vários motivos:– […]