Em um projeto de Data Engineering pode ser interessante implementar técnicas de validação de dados junto do processo de modelagem.
É possível usar Assertions (declarações)
Ferramantas como o Dataform para modelagem de dados no Google BigQuery, permitem implementar testes diretamente nas queries dentro da ferramenta.
Uma assertion (declaração) é uma consulta de teste de qualidade de dados que encontra linhas que violam uma ou mais regras especificadas na consulta. Se a consulta retornar alguma linha, ou seja, achar um erro, a declaração falhará. O Dataform executa declarações sempre que atualiza o fluxo de trabalho SQL e alerta se alguma declaração falhar.
Vantagens
Agilidade: Validação de dados integrada ao processo de modelagem, sem necessidade de ferramentas adicionais.
Confiabilidade: Detecção de erros e inconsistências em tempo real, evitando problemas futuros.
Facilidade de uso: Assertions em linguagem SQL, fáceis de entender e escrever.
Flexibilidade: Suporte a diversos tipos de validações, desde simples comparações até testes mais complexos.
Colaboração: Assertions documentadas e versionadas, facilitando o trabalho em equipe.
Quais tipos de assertions existem?
Built in: Assertions já prontas do dataform que já faz testes comuns.
Custom: Assertions criadas usando SQL customizados pelo usuário.
Exemplo de Assertion:
- Essa condição declara que as colunas especificadas na lista [ “user_id”, “customer_id”, “email” ] não são nulas em todas as linhas da tabela. Esta condição é usada para colunas que nunca podem ser nulas.O exemplo de código a seguir mostra uma declaração
nonNull
no blococonfig
de uma tabela:
config {
type: "table",
assertions: {
nonNull: ["user_id", "customer_id", "email"]
}
}
SELECT ...
Comments are closed