Em um projeto de Data Engineering pode ser interessante implementar técnicas de validação de dados junto do processo de modelagem.

É possível usar Assertions (declarações)

Ferramantas como o Dataform para modelagem de dados no Google BigQuery, permitem implementar testes diretamente nas queries dentro da ferramenta.

Uma assertion (declaração) é uma consulta de teste de qualidade de dados que encontra linhas que violam uma ou mais regras especificadas na consulta. Se a consulta retornar alguma linha, ou seja, achar um erro, a declaração falhará. O Dataform executa declarações sempre que atualiza o fluxo de trabalho SQL e alerta se alguma declaração falhar.

Vantagens

Agilidade: Validação de dados integrada ao processo de modelagem, sem necessidade de ferramentas adicionais.

Confiabilidade: Detecção de erros e inconsistências em tempo real, evitando problemas futuros.

Facilidade de uso: Assertions em linguagem SQL, fáceis de entender e escrever.

Flexibilidade: Suporte a diversos tipos de validações, desde simples comparações até testes mais complexos.

Colaboração: Assertions documentadas e versionadas, facilitando o trabalho em equipe.

Quais tipos de assertions existem?

Built in: Assertions já prontas do dataform que já faz testes comuns.

Custom: Assertions criadas usando SQL customizados pelo usuário.

Exemplo de Assertion:

  • Essa condição declara que as colunas especificadas na lista [ “user_id”, “customer_id”, “email” ] não são nulas em todas as linhas da tabela. Esta condição é usada para colunas que nunca podem ser nulas.O exemplo de código a seguir mostra uma declaração nonNull no bloco config de uma tabela:
config {
  type: "table",
  assertions: {
    nonNull: ["user_id", "customer_id", "email"]
  }
}
SELECT ...

Comments are closed