Recursos/White Papers

Tecnologia

12 erros comuns em Ciência de Dados que comprometem a tomada de decisão

Iniciativas de análise bem gerenciadas podem extrair ouro de sua mina de dados. Mas sucumbir a um desses erros comuns pode ser fatal

Mary Branscombe, CIO/EUA

Publicada em 10 de maio de 2018 às 16h59

Inteligência Artificial, Machine Learmimg e Analytics não são apenas os mais recentes chavões do mercado de dados. Organizações grandes e pequenas estão procurando ferramentas e serviços de IA na esperança de melhorar os processos de negócios, suporte ao cliente e tomada de decisões com Big Data, análise preditiva e sistemas algorítmicos automatizados. A IDC prevê que 75% dos desenvolvedores corporativos e dos ISVs usarão Aprendizado Máquina em pelo menos um de seus aplicativos em 2018.

Mas a especialização em Ciência de Dados não é tão difundida quanto o interesse em usar dados para tomar decisões e melhorar os resultados. Se o seu negócio está apenas começando com a Ciência de Dados, aqui estão alguns erros comuns que você deve evitar.

1. Assumir que seus dados estão prontos para uso - e são tudo o que você precisa
Você precisa verificar a qualidade e o volume dos dados coletados e que planeja usar. “A maior parte do seu tempo, muitas vezes 80% do seu tempo, será gasto na obtenção e na limpeza de dados”, afirma Jonathan Ortiz, cientista de dados e engenheiro de conhecimento da data.world . "Isso supondo que você esteja acompanhando o que precisa estar rastreando para que um cientista de dados faça seu trabalho."

Se você estiver rastreando os dados corretos, talvez não esteja registrando corretamente, ou a maneira como você os grava pode ter mudado com o tempo, ou os sistemas dos quais você os coletou podem ter mudado durante a coleta de dados. “Se houver mudanças incrementais de um mês para o outro, você não poderá usar dados de todos os meses ao realizar uma análise ou construir um modelo”, adverte Ortiz, porque o próprio sistema foi alterado.

Mesmo que você esteja coletando os dados corretos, volumes de dados baixos e um grande número de variáveis ​​independentes dificultam a criação de modelos preditivos para áreas de negócios, como Marketing e Vendas B2B, explica John Steinert, diretor de marketing da TechTarget. “A Ciência de Dados fica cada vez melhor quanto mais dados você tem; modelos preditivos são mais poderosos quanto mais dados você tiver. Como as taxas de transação são baixas e as transações que afetam variáveis ​​independentes são muitas, você tem pequenos conjuntos de dados e interações complexas, e isso enfraquece o poder dos modelos preditivos ”.

Uma opção é comprar conjuntos de dados, como dados de intenção de compra, desde que você possa encontrar um que se aplique ao seu segmento de negócios. Outra é simular os dados, mas isso deve ser feito com cuidado, adverte Chintan Shah, cientista sênior de dados da Avanade. "Na realidade, os dados podem não se comportar de acordo com a suposição que você fez no início", diz Shah.

2. Não explorar seu conjunto de dados antes de iniciar o trabalho
Você pode ter teorias e intuições sobre o que seu conjunto de dados mostrará, mas as equipes de dados devem dedicar um tempo para examinar os dados em detalhes antes de usá-lo para treinar um modelo de dados.

"Se você vê algo contra-intuitivo, é possível que suas suposições estejam incorretas ou que os dados estejam", diz Ortiz. “A coisa mais importante que faço é simplesmente olhar os dados, plotando-os e fazendo análises exploratórias. Muitas pessoas passam por isso muito rapidamente ou ignoram completamente, mas você precisa entender como são os dados. Você pode verificar se os dados estão contando a você a história correta com base no seu conhecimento do assunto e na visão de negócios,  fazendo uma exploração prévia.”

3. Esperando muito
O hype em torno da Inteligência Artificial tem muitas pessoas convencidas de que “se tivermos os dados e o algoritmo certo, descobriremos tudo por si só”, avisa Shah. “Embora as empresas tenham muitos dados, a expertise humana ainda é necessária para trazer os dados para um formato utilizável.”

Olhar apenas para o que sua empresa fez antes não irá revelar novas oportunidades, apenas apontar maneiras de ser mais eficiente nas mesmas coisas que você já fazia, assinala Steinert. "Quanto mais você usar o passado como o único preditor do futuro, menos aberto você estará para procurar novos caminhos", diz Steinert. Mesmo que você forneça dados de terceiros para encontrar a demanda por seus produtos ou serviços, isso não garante que você poderá fazer essas vendas. "Um modelo de dados pode dizer que uma empresa é uma boa combinação para o que você oferece, mas não pode dizer se essa empresa tem uma necessidade agora", acrescenta.

“As pessoas estão começando a investir e depositando confiança nos cientistas de dados de maneiras que nunca depositaram confiança em diferentes campos, e estão lançando recursos neles e esperando que uma bala de prata responda a todas as suas perguntas. Há muita fé sendo colocada neste ponto de vista romântico", diz Ortiz.

Ele sugere que os cientistas de dados devem provar que podem entregar o que as empresas esperam começando com pequenos projetos e ganhos rápidos para mostrar o valor para a organização. “Não comece indo por um buraco tecnológico e passando um mês em um grande projeto que você acha que será de grande valor ”, diz ele.

4. Não usar um grupo de controle para testar seu novo modelo de dados
Se você gastou tempo e dinheiro criando um modelo de dados, deseja usá-lo em todos os lugares possíveis para aproveitar ao máximo seu investimento. Mas se você fizer isso, você não poderá medir o quão bem o modelo realmente funciona. Por outro lado, se os usuários não confiarem no modelo, eles poderão não usá-lo e você não poderá testá-lo, diz Steinert. A solução? Um programa de gerenciamento de mudanças para garantir que o modelo seja adotado e um grupo de controle que não o esteja usando, acrescenta Steinert. Faça com que um grupo aleatório busque oportunidades identificadas pelo modelo e que o grupo de controle “siga as coisas da maneira que sempre foi feito, com autocontrole e experiência”.

5. Começar com alvos em vez de hipóteses
É tentador procurar um modelo de dados que ofereça melhorias específicas, como fechar 80% dos casos de suporte ao cliente em 48 horas ou conquistar 10% mais negócios em um trimestre, mas essas métricas não são suficientes para se trabalhar.

"É melhor começar com uma hipótese apenas", diz Ortiz. “Muitas vezes há uma curva ou uma linha que você está vendo como uma métrica geral e você quer mover isso; essa pode ser uma grande meta de negócios, mas é difícil imaginar quais alavancas você precisa puxar para fazer isso. 

”Teste sua hipótese sobre o que melhorará as coisas, seja com um grupo de controle ou explorando os dados. Se ambos forem amostras representativas, você pode verificar se o método que você está usando realmente tem impacto que você queria. Se você está apenas olhando dados após o fato, começar com a hipótese pode ajudar a restringir o escopo. Ser claro sobre a pergunta que você está fazendo e a hipótese que você está testando pode ajudar a reduzir a quantidade de tempo que você gasta com ela.”

6. Deixar seu modelo de dados ficar obsoleto
Se você tem um modelo de dados que funciona bem para o seu problema, você pode pensar que pode continuar usando-o para sempre, mas os modelos precisam ser atualizados e você pode precisar construir modelos adicionais com o passar do tempo.

“Os recursos vão mudar com o tempo”, alerta Ortiz. "Você precisará checar continuamente a validade e atualizar seu modelo."

Existem muitas razões pelas quais os modelos ficam desatualizados; o mundo muda e a sua empresa também muda (especialmente se o modelo se mostrar útil). “Modelos não devem ser vistos como estáticos; o mercado certamente não é estático ”, observa Steinert.

7. Automatizar sem monitorar o resultado final
Outro benefício do uso de um grupo de controle é medir o quão boa é a saída do modelo, e você precisa acompanhar isso durante todo o processo, ou acabar otimizando para o objetivo errado.

“As empresas fazem coisas como aplicar um bot ao seu serviço telefônico sem verificar continuamente se o bot está levando a uma maior satisfação do cliente, apenas comemorando o fato de que está usando menos mão de obra”, observa Steinert. Se os clientes estão fechando os casos de suporte porque o bot não pode dar a resposta certa, e não porque solucionou o problema, a satisfação do cliente cairá drasticamente.

8. Esquecer os especialistas em negócios
É um erro pensar que todas as respostas de que você precisa estão nos dados e um desenvolvedor ou cientista de dados pode encontrá-las por conta própria. Certifique-se de que alguém que entenda o problema de negócios esteja envolvido.

"Embora um cientista de dados experiente consiga descobrir o problema em questão, será muito mais fácil se os cientistas de dados e os especialistas das áreas de negócio estiverem na mesma página", explica Shah. “O sucesso de qualquer algoritmo de Ciência de Dados está na engenharia de recursos bem-sucedida. Para obter melhores recursos, um especialista no assunto sempre adiciona mais valor do que um algoritmo sofisticado ”.

Comece os projetos dialogando entre a equipe de dados e a parte interessada do negócio para garantir que todos tenham clareza sobre o que o projeto está tentando alcançar, sugere Ortiz - antes mesmo de ver os dados. "Então, você pode fazer uma análise exploratória de dados para ver se consegue alcançá-la e, caso contrário, talvez seja necessário voltar atrás e reformular a pergunta de uma nova maneira ou obter uma fonte de dados diferente",  ajudando a decidir qual é o objetivo e se o projeto está entregando.

9. Escolhero uma ferramenta muito complexa
A vanguarda do Machine Learning é empolgante e novas técnicas podem ser muito poderosas, mas também podem ser exageradas. "Pode ser que um método simples, como a regressão logística ou uma árvore de decisão, funcione", ressalta Shah e Ortiz concorda.

“É tentador lançar imensos recursos de poder cmputacional e modelos sofisticados para resolver problemas que poderiam muito bem serem resolvidos de outras formas. Talvez eu fique intelectualmente curioso sobre um aspecto de um projeto e queira testar um novo algoritmo que fará mais do que foi solicitado, ou eu só queira experimentá-lo. O trabalho é encontrar uma abordagem simples que responda à pergunta. Os métodos mais simples devem ser esgotados passar para opções mais sofisticadas ”, diz Ortiz, observando que o overfitting é mais provável de acontecer com algoritmos sofisticados como Deep Learning.

Trabalhar com o especialista em negócios para decidir qual pergunta precisa responder deve guiar sua escolha de técnicas. “Muitos cientistas de dados concentram-se no Machine Learning que, por sua vez, é focado na previsão, mas nem todas as perguntas que você responde serão uma questão de previsão. "Precisamos olhar para as vendas do último trimestre" pode significar muitas coisas diferentes. Precisamos prever a quantidade de vendas para novos clientes ou talvez você só precise saber por que as vendas diminuíram em uma semana específica do último trimestre ”, diz Ortiz.

Analytics

10. Reutilizar implementações que não se encaixem no seu problema
Há muitos exemplos de Ciência de Dados e Machine Learning com os quais você pode aprender e se adaptar. “Uma das razões por trás do crescimento exponencial da Ciência de Dados é a disponibilidade da implementação de código aberto de quase todos os algoritmos, o que facilita o desenvolvimento de um protótipo rápido”, explica Shah. Mas essas implementações são frequentemente desenvolvidas para casos de uso específicos. Se o que você precisa do sistema é diferente, é melhor construir sua própria versão, diz ele. “Implemente suas próprias rotinas de limpeza de dados e criação de recursos”, ele sugere. "Isso lhe dsrá mais controle."

11. Considerar a validação cruzada em qualquer caso
A validação cruzada ajuda a estimar a precisão de um modelo de previsão quando você não tem dados suficientes para um conjunto de treinamento separado. Para validação cruzada, você divide os dados configurados várias vezes, usando diferentes partes para treinar e testa o modelo a cada vez, para verificar se obtém a mesma precisão, independentemente do subconjunto de dados com o qual você treina. Mas você não pode usar isso para provar que seu modelo é sempre tão preciso quanto a sua pontuação de validação cruzada, explica Ortiz. “Um modelo generalista é aquele que reage de maneira precisa aos novos dados recebidos, mas a validação cruzada nunca pode provar isso.” Como ele usa apenas os dados que você já possui, ele apenas mostra que seu modelo é o mais preciso possível para esses dados."

"E ver duas coisas que estão correlacionadas não significa que uma impacta a outra ”, ressalta Ortiz. "A plotagem exploratória que você faz com seu conjunto de dados lhe dará uma ideia do que ele pode prever e quais valores de dados são correlações que não informam nada. Se você estiver acompanhando o comportamento do cliente em seu site de comércio eletrônico para prever quais clientes retornarão e quando, a gravação em que fizerram login não informará nada, pois eles já voltaram ao seu site para fazer isso. "O login será altamente correlacionado com o retorno, mas seria um erro incorporar isso ao modelo."

12. Subestimar o que os usuários podem entender
Os usuários de negócios podem não ser capazes de realizar análises estatísticas, mas isso não significa que eles não entendam as margens de erro ou as estatísticas e a validade, ressalta Ortiz.

“Muitas vezes, quando uma análise vai para as equipes de negócios, ela acaba sendo apenas um slide com apenas um número, seja um valor de precisão ou uma estimativa ou uma previsão ou uma previsão; mas a margem de erro é muito importante quando você fornece esse valor ”, diz Ortiz.

Se as decisões de negócios estão sendo tomadas com base na análise de dados, deixe claro quanto de confiança colocar no resultado ou os tomadores de decisão acharão difícil confiar no sistema - e não assuma que eles não são tecnicamente sofisticados o suficiente para entender a variável.



Reportagens mais lidas

Acesse a comunidade da CIO

LinkedIn
A partir da comunidade no LinkedIn, a CIO promove a troca de informações entre os líderes de TI. Acesse aqui