A primeira aproximação a um conjunto de dados desconhecido pode ser muito desafiadora. É necessário realizar testes e experimentos para tentar encontrar padrões que permitam escalar a análise, o que pode ser um processo lento, complexo e perigoso, já que um viés equivado nos dados em […]
Time Travel Query é um recurso de bancos de dados que permite aos usuários consultar dados históricos, como se estivessem voltando no tempo para ver o estado do banco de dados em um momento anterior. Isso é feito através de versionamento de dados e ‘snapshots’ que […]
O VSM (Value Stream Mapping, ou mapeamento de fluxo de valor) é uma técnica e um framework utilizado principalmente no contexto da melhoria de processos, especialmente na área de manufatura, mas também aplicável a outros setores, como serviços e desenvolvimento de software. O VSM permite visualizar […]
Primeiro, o que é a arquitetura de soluções? A arquitetura de soluções é o título que se dá ao conjunto de técnicas e saberes necessários para projetar formas de atender as necessidades de uma empresa. Para isso, conta com o auxílio de artifícios tecnológicos próprios, implementados […]
O Amazon Web Services – Identity And Access Management (IAM), é uma ferramenta que centraliza e permite realizar o fine tunning do acesso de usuários aos recursos da AWS. Ao criar uma conta na AWS pela primeira vez, criamos, também um usuário root, que tem a […]
As dimensões que mudam lentamente (Slowly Changing Dimensions – SCDs) são usadas em data warehouses para lidar com alterações nos dados ao longo do tempo. Existem vários tipos de SCDs, cada um adequado para diferentes cenários. Cada tipo de SCD tem suas vantagens e desvantagens, e […]
Um pipeline de dados é uma série de etapas envolvidas no processamento de dados de uma organização. Normalmente, a pipeline de dados envolve a Ingestão, e uma sequência de estapas de processamento que transformam os dados de acordo com a lógica do negócio e, cada etapa, […]
O contínuo e vertiginoso crescimento do volume de dados produzidos por nossas atividades (Big Data, Internet das Coisas (IoT), softwares como serviço (SaaS), atividades na nuvem) estão causando uma explosão no número de fontes de dados, os processos que geram dados. Mas a maioria desses dados […]
Em um projeto de Data Engineering pode ser interessante implementar técnicas de validação de dados junto do processo de modelagem. É possível usar Assertions (declarações) Ferramantas como o Dataform para modelagem de dados no Google BigQuery, permitem implementar testes diretamente nas queries dentro da ferramenta. Uma […]
A elaboração de queries SQL costuma seguir um padrão de desenvolvimento bastante pobre e desleixado, normalmente realizado por profissionais de banco de dados que tentam entender as necessidades do negócio, elas tendem a se tornar um código espaguete rapidamente e uma sucessão de sub queries aninhadas […]