Do ponto de vista de gerenciamento de dados e governança de dados, domínios de dados são às áreas ou contextos específicos nos quais os dados são coletados, armazenados, processados e utilizados. Cada domínio de dados pode representar um conjunto distinto de informações relacionadas a uma determinada […]
As dimensões que mudam lentamente (Slowly Changing Dimensions – SCDs) são usadas em data warehouses para lidar com alterações nos dados ao longo do tempo. Existem vários tipos de SCDs, cada um adequado para diferentes cenários. Cada tipo de SCD tem suas vantagens e desvantagens, e […]
Quem já se viu perdido em meio a uma montanha de dados desorganizados, sem saber se deveria usar uma View, CTE, ou até mesmo algo mais avançado para otimizar acessos do seu Dashboard do Power BI. Vejamos um guia de casos de uso para cada um […]
Python é uma das principais ferramentas no cinto de utilidades dos profissionais de dados. Graças a sua flexibilidade e poderosas bibliotecas, podemos usá-lo em todo o ecossistema atual de forma segura. Mas, quais elementos fundamentais dessa linguagem são importantes dominar? • Estruturas de dados integradas: list, […]
Medallion Architecture ou “Arquitetura em Medalhões” é a ideia de uma estrutura hierárquica em camadas, onde cada camada representa um nível de qualidade e governança dos dados.A representação em camadas bronze, prata e ouro estabelece uma estrutura hierárquica para gerenciar e organizar os dados de acordo […]
Dados mestres e dados de referência são conceitos relacionados, mas têm algumas diferenças importantes: Dados Mestres Dados mestres são os principais registros de dados que são essenciais para as operações de uma organização. Eles representam os objetos fundamentais com os quais uma empresa opera e geralmente […]
Trabalhar com qualidade de dados se envolve monitorar as fontes de dados e detectar problemas anomalias. Há fontes de dados entrando. Podem ser dados estruturados ou seus data lakes. Onde quer que se armazenem os dados importantes, é necessário analisá-los. A plataforma deve analisar suas fontes […]
Quem trabalha com a poderosa biblioteca Python Pandas se depara com centenas de funções adequadas para infinitos cenários mas, no dia a dia, acabamos usando apenas um punhado que realizam a maioria das tarefas que precisamos: Funções de 𝗟𝗲𝗶𝘁𝘂𝗿𝗮 𝗱𝗲 𝗗𝗮𝗱𝗼𝘀: 1. pd.read_csv(): permite acessar dados […]
O contínuo e vertiginoso crescimento do volume de dados produzidos por nossas atividades (Big Data, Internet das Coisas (IoT), softwares como serviço (SaaS), atividades na nuvem) estão causando uma explosão no número de fontes de dados, os processos que geram dados. Mas a maioria desses dados […]
Data Mesh e Data Fabric são duas concepções de arquitetura de dados concorrentes. Elas se referem formas de governar e disponibilizar os dados dentro de uma organização. Mesh Fabric Ambos apontam ao gerenciamento de grandes quantidades de dados, mas Data Mesh é uma concepção descentralizada e […]