Dois pontos que desafiam cientistas e analistas de dados são o Data Wrangling durante a exploração de uma base de dados e a higienizacão de dados ao preparar os dados para análise executiva ou para apoiar a operação. Higienização de dados (ou limpeza de dados) é […]
Um “data swamp” (pântano de dados) é como se descreve um ambiente de armazenamento de dados onde a informação está desorganizada, mal gerenciada, e difícil de acessar ou usar de maneira eficaz. Isso geralmente ocorre quando os dados são acumulados sem uma estrutura clara, padrões de […]
A primeira aproximação a um conjunto de dados desconhecido pode ser muito desafiadora. É necessário realizar testes e experimentos para tentar encontrar padrões que permitam escalar a análise, o que pode ser um processo lento, complexo e perigoso, já que um viés equivado nos dados em […]
Criar padrões de nomenclaturas para ativos de dados é essencial para garantir consistência, clareza e organização na identificação de arquivos, documentos, pastas, departamentos, finalidades ou qualquer outro tipo de elemento em um ambiente organizacional e, principalmente, apoiar a descoberta de valor a partir dos dados. Planejar […]
Um dicionário de dados é uma ferramenta ou recurso que contém metadados detalhados sobre os dados em um sistema de informação ou em uma organização. Ele fornece uma descrição abrangente de cada elemento de dados, incluindo definições, formatos, relacionamentos, restrições, origens e outros detalhes relevantes. Uma […]
Dados mestres e dados de referência são conceitos relacionados, mas têm algumas diferenças importantes: Dados Mestres Dados mestres são os principais registros de dados que são essenciais para as operações de uma organização. Eles representam os objetos fundamentais com os quais uma empresa opera e geralmente […]
Trabalhar com qualidade de dados se envolve monitorar as fontes de dados e detectar problemas anomalias. Há fontes de dados entrando. Podem ser dados estruturados ou seus data lakes. Onde quer que se armazenem os dados importantes, é necessário analisá-los. A plataforma deve analisar suas fontes […]
Em um projeto de Data Engineering pode ser interessante implementar técnicas de validação de dados junto do processo de modelagem. É possível usar Assertions (declarações) Ferramantas como o Dataform para modelagem de dados no Google BigQuery, permitem implementar testes diretamente nas queries dentro da ferramenta. Uma […]
Um Catálogo de Dados é um inventário organizado de ativos de dados na organização. Ele usa metadados para ajudar as organizações a gerenciarem seus dados. Também ajuda os profissionais de dados a coletar, organizar, acessar e enriquecer metadados para oferecer suporte à descoberta e governança de […]
Algo muito simples mas que pode ajudar MUITO o engenheiro de dados. Contratos de Dados, consultoria em Governança e Qualidade de Dados são alguns dos serviços que oferecemos para facilitar a sua vida e ajudar a sua organização a obter vantagens estratégicas. Basicamente, o Contrato de […]