A importância da qualidade dos dados

Muitas empresas vêm-se detentoras de uma quantidade considerável de dados sem saber exactamente o valor que daí pode ser extraído ou como pode ser extraído.

Por estarem dispersos, com diferentes estruturas e formatos ou incompletos, tornam-se de muito difícil utilização. Difícil, mas raramente impossível… Com os mecanismos actualmente existentes para conversão e validação, um bom trabalho preparatório pode viabilizar análises de grande valor para o negócio.

Mesmo numa simples base de dados, um processo de avaliação de qualidade de dados pode encontrar outliers, registos duplicados ou incoerências. A análise detalhada destas situações poderá identificar oportunidades de melhoria no processo de ETL (extrat, transform e load) ou mesmo oportunidades relacionadas com o negócio. O mesmo processo poderá incluir cruzamento com fontes de dados externas, enriquecendo os dados e gerando informação de grande potencial.

Um modelo só é bom na mesma medida que os dados com que aprende. Antes de investir na aplicação de Machine Learning ou Artificial Inteligence, assegure-se que tem total controlo sobre a qualidade dos seus dados, ou os seus resultados estão condenados, por melhor que seja o modelo por trás.

O tema da “Data quality” é muito abrangente e pode ser endereçado em diferentes fases do pipeline ou com diferentes abordagens ou tecnologias. Aqui ficam alguns dos passos que nos parecem importantes para assegurar a qualidade dos dados:

Data profiling rigoroso e controlo da fonte de dados

Uma boa ferramenta de Data profiling será importante para examinar os seguintes aspectos dos dados: formato, padrões, consistência de registos, distribuições de valores e outliers e se os registos estão completos. Data profiling vai ajudá-lo a identificar problemas nos seus dados que podem ser endereçados diretamente na fonte ou no processo de ETL. Para o fazer de forma eficiente deve existir um dahsboard, com KPIs gerais que reflitam os resultados deste profiling e que lhe permitam monitorar o comportamento dos dados face à expectativa.

Desenho detalhado do pipeline de dados

O desenho detalhado do pipeline de entrada de dados inclui áreas como a definição de campos, as regras de negócio e as regras de ligação de bases de dados. Em organizações de grande dimensão é frequente que várias áreas distintas interajam com um mesmo registo, por exemplo um cliente. Garantir que há um entendimento comum sobre os campos de input e que não há entradas duplicadas são algumas das preocupações a ter no desenho do pipeline. A comunicação entre as diferentes áreas da organização deve assegurar a definição de regras, o mais transponíveis possível para os sistemas de forma a reduzir o mais possível o erro humano.

Recolha precisa de requisitos

A validação da qualidade dos dados deve ser vista num contexto bem definido. Deve ser bem claro o objetivo da análise de forma a definir os requisitos que os dados devem cumprir.

Integridade dos dados

A integridade dos dados é um aspeto essencial da quallidade dos dados. Se a sua base de dados é uma base relacional pode assegurar este ponto com a utilização de chaves primárias e estrangeiras, validação de condições adicionais ao formato (check constraint) e utilização de mecanismos desencadeados por ações específicas (triggers). O problema torna-se mais complexo quando os dados estão espalhados por diferentes sistemas de bases de dados, mas nunca deve ser ignorado ou minorada a sua importância.

Rastreabilidade da origem dos dados

Outro aspecto chave da qualidade dos dados é a sua rastreabilidade. Sempre que um problema é detectado num registo é essecial que se consiga identificar rapidamente a sua origem e corrigir sem comprometer o prazo definido para o projeto. Para que isto seja possível a rastreabilidade deve estar no centro do desenho do pipeline de dados.

Testes de regressão automáticos

Vai sempre haver uma altura em quererá introduzir um novo conjunto de dados ou alterar alguma coisa nos campos existentes. Para garantir que estas mudanças não têm impacto nos serviços que estão a decorrer é importante ter testes automáticos a funcionar. Isto dar-lhe-á a capacidade de fazer migrações sem adiamentos sucessivos e sem comprometer dados críticos para o negócio.

Porque efectuamos o tratamento de dados dos nossos clientes desde o milénio passado, a experiência diz-nos que este tema da qualidade dos dados é frequentemente subestimado. Do nosso lado, vamos aprendendo e percebendo a sua importância e como facilita processos seguintes. Conte connosco para investir consigo em processos de tratamento de qualidade de dados preparatórios e sólidos processos de ETL de forma a que, juntos, possamos tirar o maior partido possível dos seus dados.

Fonte: https://towardsdatascience.com/7-steps-to-ensure-and-sustain-data-quality-3c0040591366