Python Pandas – Sumarizar Completitude de um DataFrame

on junho 30, 2023

Completitude é uma das dimensões de Qualidade de Dados. A completitude pode ser medida pela porcentagem de dados vazios ou nulos em uma tabela / dataframe.

Com Python Pandas, podemos criar de forma simples e rápida um sumário da Completitude da seguinte forma:

Criamos ou carregamos um dataframe:

meu_dataframe= pd.DataFrame(minha_tabela, columns=titulos)

Criamos uma variável para receber a soma das células vazias/na (Not Available) das séries multiplicada por 100 e dividida pelo número de células na série:

perc_na = meu_dataframe.isna ().sum() * 100 /len(meu_dataframe)

Agora criamos um novo dataframe para receber um dicionário com uma coluna com a lista de títulos das séries do dataframe original e outra com as percentagens de perc_na:

completude = pd.DataFrame( { 'coluna': clientes_df.columns, '% dados ausentes': perc_na } )

Resultado:

completude