Data Science

Qualidade dos dados em projetos em IA

19 de Novembro de 2020

por Marketing

Tempo de leitura: 8 min

Voltar

Ter um grande volume de dados não equivale a ter qualidade de dados. Entenda o problema e como lidar com ele

Dados e capacidade para processá-los não faltam. Não entanto, como quase tudo na vida, quantidade de dados nem sempre significa qualidade de dados.

A qualidade dos dados é determinante para escalar projetos em IA. No entanto, não é incomum que organizações descubram um problema com a qualidade de seus dados - que não era perceptível à primeira vista - ao longo da execução de seus projetos ou, o que é pior, a desconheçam.

E não apenas um problema. As organizações estão lidando com múltiplos problemas ligados a dados, simultaneamente, que afetam diretamente sua capacidade de gerar valor através deles para seus projetos em IA.

Mas, se você acha que as empresas já estão implementando ações para lidar com isso, dê um passo atrás: porque elas não estão. A maioria carece dos recursos que precisam para limpar seus dados. Falta, muitas vezes, o básico em governança de dados. Por exemplo, elas têm dificuldades de marcar e monitorar dados, criar e gerir metadados, gerenciar dados não estruturados e outras ações do gênero.

No entanto, o nível de consciência sobre o problema está aumentando. As organizações estão cada vez mais atentas quanto à importância da qualidade dos dados e o que elas estão perdendo quando não fazem uma boa limpeza.

Neste post, vamos falar dos principais problemas que as organizações têm em relação à qualidade de dados, as causas e consequências disso e, por fim, que tipo de ações elas podem adotar para começar a resolver.

webinar data science do zero

Os principais problemas das organizações em qualidade de dados

De acordo com o levantamento The state of data quality in 2020, da O’Reilly, as organizações não estão lidando apenas com um problema quanto à qualidade de dados, mas com um cenário em que, na média, se combinam pelo menos quatro ou mais problemas como:

  • Dados inconsistentes e oriundos de muitas fontes
  • Armazenamento desorganizado e falta de metadados
  • Baixo controle da qualidade de dados na entrada
  • Poucos recursos disponíveis para lidar com problemas relacionados à qualidade de dados
  • Dados não estruturados que são difíceis de organizar
  • Baixa qualidade de dados de fontes externas
  • Poucos dados categorizados ou sequer categorizados
  • Necessidade de dados não coletados
  • Dados viciados.

Causas dos problemas de qualidade dos dados

Tais problemas tampouco têm apenas uma causa. Dentre as várias possíveis, isoladas ou combinadas, estão:

  • Sistemas não integrados
  • Várias fontes para o mesmo dado
  • Subjetividade da informação
  • Erros, discrepância, incompletude ou falta de dados
  • Volume de dados
  • Recortes enviesados de realidade
  • Dados não coletados
  • Modificações, distorções e violações de dados.

O impacto dos problemas com qualidade dos dados em projetos de IA

O nível de acurácia de uma análise ou de um modelo está diretamente relacionado e dependente da acurácia dos dados e da capacidade de facilmente proporcionar a origem de todos os dados usados para produzi-los.

Essa relação é óbvia. Afinal, se você parte das premissas erradas, por mais correto que seja seu algoritmo, isto é, sua lógica, as conclusões serão erradas.

Problemas de qualidade dos dados como os citados acima, portanto, se negligenciados, podem colocar a confiabilidade de análises e projetos inteiros em risco e, na pior das hipóteses, levar a modelos enviesados, que conduzem a decisões erradas, a perda de negócios, a insatisfação dos clientes e, logo, prejuízos.

Uma atitude reativa quanto à qualidade de dados leva ainda a custos elevados na correção de problemas. O trabalho em qualidade de dados e governança perpassa todo o trabalho com IA.

Qualidade de dados: como implementar para melhorar a eficácia de modelos

1. Envolver o C-level

O interesse da alta gestão pode determinar a postura e o comprometimento de uma organização em relação à qualidade de seus dados.

Porém, a pesquisa da O’Reilly mostra que esse interesse é uma exceção. São poucos os executivos encabeçando iniciativas em qualidade de dados ou patrocinando o começo da estruturação de centros de excelência em qualidade de dados.

Mas eles deveriam. À medida que as organizações se tornam mais data-driven ou dão mais atenção aos efeitos da qualidade de dados sobre seus projetos em IA, o patrocínio do C-level tem um impacto positivo relevante.

Para conquistar esse apoio, será, no entanto, necessário educá-los, pois a maioria dos executivos tem pouca ou nenhuma experiência com o trabalho com dados.

2. Usar ferramentas de machine learning e inteligência artificial aplicadas a qualidade de dados

Usar ferramentas com machine learning para simplificar e automatizar algumas das tarefas envolvidas na descoberta e modelagem de dados pode acelerar a limpeza e impactar as atividades, sobretudo, para empresas que têm como desafio volume, fontes diversas, baixa qualidade e dados não estruturados.

De acordo com a pesquisa da O’Reilly, 48% dos entrevistados disseram que usam análise de dados, machine learning ou ferramentas de IA para lidar com questões ligadas à qualidade dos dados. Inclusive, essas organizações são mais propensas a resolver problemas desse tipo.

Outra tecnologia que tem sido usada para automatizar a limpeza de dados estruturados – a ferramenta não funciona para big data – é a RPA.

3. Ter uma equipe de qualidade de dados dedicada

Nem tudo é ferramenta: pessoas e processos estão quase sempre implicados tanto na criação quanto na perpetuação de problemas com a qualidade de dados, afinal dados são criados por humanos ou, então, por sensores calibrados por humanos.

O compromisso com a governança, necessário para diagnosticar e resolver tais problemas, portanto, deve também partir de pessoas. E então, chegamos à necessidade de um time de qualidade de dados e a dependente da maturidade da organização em inteligência artificial em um centro de excelência em dados.

No entanto, essa não é a realidade das organizações: segundo o relatório da O'Reilly sobre qualidade de dados 70% delas não contam com times dedicados a essa função.

Segundo os pesquisadores, elas perdem com isso. Ter um time focado na qualidade de dados pode proporcionar espaço e motivação para investir e conhecer ferramentas que otimizem o processo de melhoria. Aliás, segundo o levantamento, organizações que têm times dedicados usam ferramentas de IA e analytics em maior grau (59% contra 42%).

Qualidade de dados: um trabalho contínuo

Lidar com os problemas ligados à qualidade de dados é um processo contínuo, que não é fácil, nem barato. Provavelmente, fará com que a organização precise tomar decisões sobre onde e como aplicar seus recursos.

Como vimos, ter projetos em IA, que precisam de dados com qualidade, pode catalisar e dar direcionamento às ações de resolução, já que é uma maneira de descobrir esses problemas.

Além disso, será preciso ganhar o patrocínio do C-level, estudar ferramentas para obter escala e produtividade na higienização de dados e, por fim, envolver pessoas em um time dedicado.

Para formar seu time em qualidade de dados, conte com a ajuda da Supero, que soma 17 anos de expertise na oferta de grandes times e na execução de grandes projetos em IA para clientes de vários segmentos. Para entender melhor como podemos ajudar você em qualidade de dados, fale com um de nossos consultores!


Escrito por Marketing

Outras Postagens

Crie soluções personalizadas e integradaspara todas as áreas da sua empresa

Quero Saber mais

Fique Atualizado Assine nossa Newsletter

Oportunidades Participe dos melhores projetos!

Se você está em busca de um ambiente descontraído, cheio de oportunidades de crescimento e em constante evolução, confira as oportunidades!

Saiba Mais