Recursos/White Papers

Tecnologia

Por que as iniciativas de análise de dados ainda falham?

Talvez o problema esteja nas práticas de governança de dados. É preciso dar mais ênfase na qualidade e no contexto dos dados

Mary K. Pratt. CIO/EUA

Publicada em 11 de maio de 2018 às 07h46

Executivos falam sobre o valor dos dados, mas poucos, como Michele Koch, diretora de inteligência de dados corporativos da Navient Solutions, podem calcular o valor real dos dados de sua empresa.

Na verdade, Koch pode calcular, em dólares, o aumento da receita e a redução de custos produzidos pelos vários elementos de dados da empresa. Como resultado, ela está ciente de que os problemas nos dados da Navient podem prejudicar seus resultados. Um erro em um campo de dados chave no perfil de um cliente, por exemplo, pode impedir a empresa de processar um empréstimo com o menor custo.

“Há dinheiro envolvido aqui, então temos um painel de qualidade de dados onde rastreamos tudo isso. Nós rastreamos o valor real e potencial dos dados”, diz ela.

Uma das primeiras iniciativas relacionadas a dados da Navient, ilustra o que está em jogo, diz Barbara Deemer, diretora de dados e vice-presidente de finanças da companhia. A iniciativa de 2006 concentrou-se em melhorar a qualidade dos dados para o marketing e rendeu um ROI de US$ 7,2 milhões, com retornos provenientes do aumento no volume de empréstimos e redução das despesas operacionais.

Desde então, os executivos da Navient se comprometeram a apoiar um forte programa de governança de dados como parte fundamental de um esforço bem-sucedido de análise, diz Koch. O programa de governança da Navient inclui práticas recomendadas há muito, como a padronização de definições para campos de dados e a garantia de dados limpos.

Koch atribui propriedade para cada um dos seus aproximadamente 2.600 elementos de dados corporativos. Geralmente o proprietário do dado é a área de negócios em que o campo de dados foi originado pela primeira vez ou a área de negócios em que o campo de dados específico é parte integrante de seus processos.

A empresa também possui um programa de qualidade de dados que monitora ativamente a qualidade dos campos para garantir que altos padrões sejam atendidos constantemente. E lançou um Conselho de Governança de Dados (em 2006) e um Conselho de Governança de Dados do Google Analytics (em 2017) para abordar questões ou preocupações em andamento, tomar decisões em toda a empresa e melhorar continuamente as operações de dados e como os dados alimentam o trabalho de análise da empresa.

"Os dados são tão importantes para nossas iniciativas de negócios e para novas oportunidades de negócios que queremos nos concentrar em melhorar sempre os dados que suportam nosso programa de análise", diz Koch.

A maioria dos executivos concorda que a governança de dados é vital, citando a conformidade, a satisfação do cliente e a melhor tomada de decisões como fatores-chave, segundo o estudo "2018 State of Data Governance", da empresa de soluções de governança de dados Erwin e UBM. No entanto, o relatório constatou que quase 40% das organizações que responderam não têm um orçamento separado para governança de dados e 46% não têm uma estratégia formal para isso.

As descobertas são baseadas em respostas de 118 entrevistados, incluindo CIOs, CTOs, gerentes de data center, equipe de TI e consultores.

Dados esses números, os especialistas dizem que não é surpreendente que existam pontos fracos em muitos programas de dados corporativos.

Abaixo estão listadas sete dessas práticas problemáticas de uso de dados.

1 - Reunir dados, mas não integrá-los realmente
A integração está no topo da lista de desafios no mundo dos dados e das análises hoje, diz Anne Buff, vice-presidente de comunicações da Data Governance Professionals Organization.

É verdade que muitas organizações reúnem todos os seus dados em um só lugar. Mas, na realidade, eles não integram as várias partes das múltiplas fontes de dados, explica Buff.

“Dados co-localizados não são o mesmo que dados integrados”, diz Buff. “Você tem que ter uma maneira de combinar registros de fontes diferentes.

Várias tecnologias de integração de dados permitem que você selecione, implemente e execute as ferramentas corretas para evitar tanto trabalho manual excessivo ou refazer o mesmo trabalho repetidamente.

Além disso, a integração está se tornando cada vez mais crítica porque os cientistas de dados estão procurando padrões dentro dos dados para obter o tipo de insights que podem gerar vantagens competitivas e afins.

“Mas se você não consegue reunir dados que nunca foram reunidos antes, não é possível encontrar esses padrões”, diz Buff, que também é consultor de soluções de negócios na SAS em Cary, Carolina do Norte.

2 - Não perceber que as unidades de negócios têm necessidades exclusivas
Sim, dados integrados e consolidados são essenciais para um programa de análise bem-sucedido. Mas alguns usuários corporativos podem precisar de uma versão diferente desses dados, diz Buff.

"Os dados em um formulário não atendem às necessidades de todos na organização", acrescenta ela.

Em vez disso, a TI precisa pensar no provisionamento de dados, ou seja, em fornecer os dados necessários para cada caso de negócio determinado pelo usuário comercial ou pelas divisões de negócio.

Buff aponta para as necessidades variadas de uma instituição financeira como exemplo. Embora alguns departamentos possam querer dados integrados, o departamento de detecção de fraudes pode querer que seus cientistas de dados usem dados irrestritos que não sejam limpos, para que possam procurar sinais de alerta. Eles podem querer procurar alguém no mesmo endereço usando pequenas variações de suas informações de identificação pessoal para solicitar vários empréstimos.

"Você verá elementos de dados semelhantes, mas com algumas variáveis, de modo que não queira eliminar muitas dessas variações e limpá-las demais", explica Buff.

Por outro lado, diz ela, o departamento de marketing daquela instituição financeira gostaria de ter a versão correta do nome, endereço e outros dados cadastrais de um cliente para direcionar apropriadamente as comunicações.

3 - Recrutar apenas cientistas de dados
À medida que as empresas procuram ir além da inteligência básica de negócios investindo em a análises preditivas e prescritivas, bem como em  Aprendizado de Máquina e outras técnicas da Inteligência Artificial, elas precisam de níveis crescentes de conhecimento sobre suas equipes de dados.

Isso, por sua vez, destacou a posição do cientista de dados. Mas igualmente importante são os engenheiros de dados, que organizam todos os conjuntos de dados que precisam ser reunidos para que os cientistas de dados façam seu trabalho, mas que (até agora) ganharam menos atenção em muitas organizações.

Isso está mudando, diz Lori Sherer, sócia do escritório da Bain & Co. em São Francisco e líder das práticas avançadas de análise e digital da empresa.

"Vimos o crescimento na demanda por engenheiro de dados passar a ser exatamente o dobro do crescimento da demanda por cientista de dados", diz Sherer.

O Bureau of Labor Statistics prevê que a demanda por engenheiros de dados continuará crescendo em ritmo acelerado na próxima década, com a economia dos EUA adicionando 44,2 mil posições entre 2016 e 2026, com uma remuneração média anual de US$ 135 mil

No entanto, como muitos cargos importantes em TI, os especialistas dizem que não há engenheiros de dados suficientes para atender à demanda.

4 - Deixar de gerenciar o ciclo de vida dos dados
O custo de armazenamento caiu drasticamente na última década, permitindo que a TI tenha mais facilidade para armazenar grandes quantidades de dados por muito mais tempo do que antes. Isso pode parecer uma boa notícia, considerando o volume e a velocidade com que os dados são criados, junto com a crescente demanda para análise.

Mas isso pode não ser uma vantagem real, diz Penny Garbus, co-fundador da Soaring Eagle Consulting, e co-autor de "Mining New Gold: Managing Your Business Data".

Garbus diz que muitas empresas mantêm os dados por muito tempo.

A data de validade dos dados varia não apenas de organização para organização, mas também de acordo com os departamentos, diz Garbus. A divisão de estoque dentro de uma empresa de varejo pode querer apenas dados relativamente recentes, enquanto o marketing pode querer dados de diversos anos para rastrear tendências.

Se for esse o caso, a TI precisa implementar a arquitetura que fornece o prazo certo dos dados no ponto certo, para garantir que as necessidades de todos sejam atendidas e que os dados antigos não corrompam os programas de análise.

Como Garbus observa: “Só porque você tem que manter dados antigos, não significa que você tem que mantê-los dentro do seu ambiente principal. Você só tem que ter acesso a eles quando necessário", argumenta.

gestaodedados

5 - Concentrar-se no volume, em vez de segmentar a relevância
“Ainda estamos construindo modelos e executando análises com os dados mais disponíveis do que com os dados mais relevantes”, afirma Steve Escaravage, vice-presidente sênior da empresa de consultoria Booz Allen Hamilton.

Ele diz que as organizações frequentemente têm a noção errônea de que devem capturar e adicionar mais e mais conjuntos de dados. Eles pensam "que talvez haja algo lá que não encontramos em vez de perguntar: temos os dados certos?"

Considere que muitas instituições procuram fraudes analisando grandes quantidades de dados para procurar anomalias. Embora seja uma atividade importante, as instituições líderes também analisam conjuntos de dados mais direcionados que podem gerar melhores resultados. Nesse caso, eles podem procurar indivíduos ou instituições que estejam gerando certos tipos de transações que possam indicar problemas. Ou as instituições de saúde podem considerar, ao analisar os resultados dos pacientes, dados de quanto tempo os médicos estavam em seus turnos quando prestavam atendimento ao paciente.

Escaravage diz que as organizações poderiam começar criando uma lista de desejos de dados.

6 - Fornecer dados, mas ignorar sua origem
Um dos grandes tópicos de hoje é o viés na análise, um cenário que pode distorcer os resultados ou até mesmo produzir conclusões errôneas que levam a decisões ou resultados ruins de negócios. Os problemas que produzem o viés residem em muitas arenas diferentes dentro de um programa de análise empresarial - incluindo como a TI lida com os dados em si, diz Escaravage.

Demasiadas vezes, diz ele, a TI não faz um bom trabalho acompanhando a origem dos dados que detém.

"E se você não sabe, isso pode afetar o desempenho de seus modelos", diz Escaravage, observando que a falta de visibilidade sobre como e onde os dados se originaram torna o controle do viés ainda mais difícil.

“É responsabilidade da TI entender de onde vieram os dados e o que aconteceu com eles. Há muito investimento em gerenciamento de dados, mas também deve haver uma solução de gerenciamento de metadados ”, diz ele.

7 - Fornecer dados, mas não ajudar os usuários a entender o contexto
A TI não deve apenas ter um forte programa de gerenciamento de metadados, rastrear a origem dos dados e como eles se movem através de seus sistemas, mas também fornecer aos usuários uma visão desse histórico e fornecer contexto para alguns dos resultados produzidos por meio de análises, segundo Escaravage.

“Ficamos muito animados com o que podemos criar. Achamos que temos dados muito bons, particularmente dados que não foram analisados, e podemos construir um modelo mental sobre como esses dados serão úteis ”, diz ele. “Mas, embora os métodos de análise da última meia década tenham sido surpreendentes, os resultados dessas técnicas são menos interpretáveis ​​do que no passado, quando as regras de negócios eram aplicadas após a mineração de dados e era fácil interpretar os dados.”

Os modelos de aprendizado mais recentes e profundos oferecem insights e sugestões acionáveis, explica Escaravage. Mas esses sistemas geralmente não fornecem um contexto que possa ser útil ou mesmo crítico para a melhor tomada de decisão. Ele não fornece, por exemplo, informações sobre a probabilidade versus a certeza de que algo ocorrerá com base nos dados.

Melhores interfaces de usuário são necessárias para ajudar a fornecer esse contexto, diz Escaravage.

“A questão técnica é como as pessoas irão interagir com esses modelos. É aqui que o foco na UI/UX, do ponto de vista da transparência, será muito importante. Então, se alguém vê uma recomendação de uma plataforma de Inteligência Artificial, até que ponto pode detalhar probabilidades, a fonte de dados, etc.? ”, Ele diz. “Os CIOs terão que se perguntar como incorporar em seus sistemas esse nível de transparência.”



Reportagens mais lidas

Acesse a comunidade da CIO

LinkedIn
A partir da comunidade no LinkedIn, a CIO promove a troca de informações entre os líderes de TI. Acesse aqui