Home > Tendências

12 segredos obscuros da ciência de dados

De custos ocultos a conclusões altamente suspeitas, a ciência de dados não está isenta de suas desvantagens e limitações — apesar do atual entusiasmo

Peter Wayner, da CIO (EUA)

06/05/2019 às 10h35

Foto: Shutterstock

A ciência de dados está revolucionando os campos computacionais e fornecendo uma base para permitir que os computadores resolvam problemas. Da concepção de medicamentos à visão mecânica, os algoritmos inteligentes estão enriquecendo nossas vidas e, às vezes, até salvando-as. Mas além das histórias de sucesso, há uma grande quantidade de resultados questionáveis e não confiáveis. Todo mundo que aborda uma nova coleção de dados com a tarefa de extrair insights significativos precisa ter em mente esse lado sombrio.

Aqui estão 12 aspectos negativos raramente discutidos da ciência de dados que são obscurecidos pelo entusiasmo, mas que deveriam ser mantidos em mente quando se mineram dados para insight.

Muitas descobertas da ciência de dados são óbvias

Quando o banco procurou uma forma de prever a inadimplência dos empréstimos, descobriu que as pessoas sem poupança tinham maior probabilidade de deixar de pagar suas dívidas. Quando os hospitais procuraram por causas de erro médico, eles descobriram que a falta de sono era um grande indicador. Pessoas altas batem com a cabeça mais vezes. Ciclistas morrem de ferimentos na cabeça com mais frequência do que sedentários.

Muitos dos problemas que estudamos têm respostas óbvias que dominam a análise. Se o objetivo é procurar por causas, bem, os resultados vão produzir uma confirmação matemática do que já sabemos, mas com dígitos mais significativos. Vale a pena o esforço?

Os cientistas estatísticos têm técnicas para controlar esses efeitos dominantes, de modo que efeitos menores possam ser examinados, mas encontrar causas sutis pode exigir consideravelmente mais dados e estudos. A resposta será valiosa o suficiente para justificar isso?

Às vezes não há nada lá

A mente humana é boa em encontrar padrões, mesmo quando não há nenhum. Os cassinos costumam postar os últimos dez ou vinte números que surgiram na roleta porque eles sabem que os cérebros dos jogadores gostam de procurar sequências, mesmo quando os resultados são aleatórios. Muitas das perguntas que chegam aos cientistas de dados são destinadas a validar conexões percebidas por um cérebro humano. Às vezes há algo lá e às vezes não há.

Saber que não há um vínculo estatístico óbvio costuma ser um resultado valioso, mas pode ser insatisfatório. As pessoas que pensaram que haveria uma resposta pensam que os estatísticos perderam alguma coisa e os céticos só podem celebrar uma vitória vazia. A ciência de dados não pode provar que não há conexões, apenas que a análise específica não encontrou um padrão estatisticamente forte o suficiente. Você quer gastar mais para perfurar mais poços à procura de petróleo?

Respostas estatísticas podem ser mais difíceis de encontrar do que pensamos

John Ioannidis usou o título dramático “Por que a Maioria dos Resultados de Pesquisa Publicada é falsa” para o seu artigo explicando como os métodos estatísticos são sensíveis ao ruído. Quando os tamanhos das amostras são pequenas e o preconceito se infiltra, as respostas que obtemos são mais propensas a serem completamente erradas, argumenta ele.

A solução é mais dados, às vezes dramaticamente mais. Para analisar um efeito que pode não ser óbvio, os custos de coletas de dados suficientes podem disparar. Mas se o efeito que você está procurando é apenas sutil, então o valor de compreendê-lo pode ser tão sutil ou inexistente. Em mercados grandes e altamente eficientes, como a negociação de ações, pequenos efeitos podem ser valiosos, mas em muitos casos eles não valem o esforço, dado o quão difícil pode ser descobri-los.

Algoritmos imitam o passado e não o futuro

Alguns campos mudam tão rapidamente que a ciência de dados não pode nos ajudar a prever o futuro; só pode resumir o passado. O que as empresas de moda podem fazer com o conhecimento de que os laços finos eram comuns nos anos 1960, mas, na década de 1970, os clientes compravam gravatas de até seis polegadas? Os cientistas de dados inteligentes podem ajustar uma função rítmica à oscilação, mas isso não ajuda nos fragmentos de mercado até 2010.

A ciência de dados não mudará a dinâmica subjacente do que estamos estudando. Ela só pode revelar o que aconteceu antes e precisamos adivinhar se isso nos ajudará no futuro.

Os dados costumam ser confusos, inconsistentes ou completamente corrompidos

Os dados financeiros podem parecer uma ótima opção para análise, porque envolvem explicitamente transações numéricas – mas, ainda assim, podem ser confusos. Em um projeto, descobri que um banco relatava saques como valores negativos, enquanto outro usava valores positivos e contava com um código de transação para identificar a direção. As distinções entre as várias taxas e cobranças mensais foram ainda mais difíceis de transformar em uma coluna consistente no banco de dados.

A maioria dos tópicos não oferece a mesma simplicidade do dinheiro. Sensores têm falhas. Erros aparecem nas medições. Quando nem as Olimpíadas conseguem construir uma piscina com 8 raias iguais para uma corrida justa, apesar de investir milhões de dólares, há alguma esperança para o resto de nós?

A boa notícia é que os efeitos dramáticos são mais fáceis de encontrar e esses efeitos podem sobrecarregar todas as inconsistências e ruídos. O viés na piscina olímpica no Rio de Janeiro era grande e consistente o suficiente para que os cientistas de dados pudessem quantificar o quanto havia de errado com a construção da piscina. Infelizmente, isso não é o mesmo que saber como consertar a piscina para ser realmente justo, mas é um começo.

Quando os dados são baratos, a filtragem é cara

Alguns dados fluem para nossos computadores em ondas infinitas. Os arquivos de log dos servidores da web estão sobrecarregados com terabytes de informações sobre quem queria qual imagem GIF ou qual arquivo CSS. As câmeras de segurança enchem discos rígidos com fluxos incessantes de imagens de alta resolução. Quando um problema aparece, o desafio não é obter os dados, mas encontrar o dado certo.

Pesquisar por grandes coleções é algo que os computadores fazem bem – se começarem com um modelo sólido. Construir esse modelo é frequentemente o trabalho dos cientistas de dados. Mas o que vem primeiro? Encontrar um modelo para distinguir uma agulha do feno? Ou encontrar a agulha em si?

Filtros humanos são caros

Várias startups se materializaram para explorar dados e usar sua inteligência humana para criar conjuntos de treinamento para algoritmos de aprendizado de máquina. Eles classificam imagens, leem documentos ou ouvem fitas de áudio antes de preencher formulários e, esperançosamente, verificam as caixas certas de maneira consistente. Um gerente de uma empresa me disse que as pessoas na Venezuela eram trabalhadores de programas populares para a construção de conjuntos de treinamento de Inteligência Artificial (AI), porque eles trabalhavam por centavos.

A ciência de dados não pode começar até que este trabalho preliminar esteja concluído. Se você tiver sorte, a codificação não será muito complicada e os humanos produzirão uma boa amostra de dados em um período gerenciável.

Alguns dados são impossíveis de obter

Uma quantidade surpreendentemente grande de dados é enlouquecedoramente elusiva. Alguns meses atrás, comecei a analisar como a população do meu bairro mudou nos últimos 50 anos, baixando os dados do Censo dos EUA. O departamento compartilha uma quantidade impressionante de dados on-line, mas depois de uma semana pesquisando e com a ajuda de um bom amigo que trabalha lá, ainda não consegui descobrir como essa contagem mudou ao longo das décadas. Os números estão por aí. Eu sei disso. Existem 104 páginas de tabelas de dados catalogadas aqui, mas isso não é o mesmo que tê-las na minha planilha.

Os seres humanos estão ocupados demais para preencher pesquisas e, assim, as equipes de marketing fazem estimativas educadas. As câmeras parecem onipresentes, mas as resoluções podem nunca ser boas o suficiente, ou podem ser apontadas de maneira errada.

A ciência de dados não pode começar até que os dados estejam disponíveis e, muitas vezes, parece que 99,9% do trabalho está em reunir os dados em primeiro lugar.

Muitos algoritmos não nos ensinam nada

Alguns dos mais recentes algoritmos de aprendizado de máquina podem produzir resultados impressionantes que podem retornar resultados com precisão impressionante. Se você quer saber como eles fazem isso, ninguém sabe dizer. Os algoritmos juntam milhares ou milhões de filtros e ajustam as respostas em todos eles até que os resultados pareçam bons. Entender o que está acontecendo exige a análise de milhões de números.

Esses classificadores inteligentes podem ser úteis quando o conjunto de treinamento é uma boa representação do trabalho em questão, mas geralmente são frágeis e instáveis. A menos que entendamos como os algoritmos estão tomando as suas decisões, não podemos prever quando eles podem falhar à medida que as perguntas mudam.

Vieses ocultos estão em toda parte

O mundo da ciência de dados está repleto de anedotas sobre como o preconceito entrou no conjunto de dados, apesar dos melhores esforços. Em um deles, o cientista tirou fotos de uma coleção pela manhã e outra coleção depois do almoço. O classificador de aprendizado de máquina acabou registrando a diferença entre o sol da manhã e da tarde e as sombras que projetou.

Encontrar preconceitos como esses é difícil e muito do trabalho de laboratório na ciência é dedicado a isolar os experimentos. Mas se os preconceitos fossem fáceis de encontrar e remover, nós o faríamos. Descobrir o que fazer com os que sobraram é muitas vezes um pouco de arte. Algumas técnicas estatísticas podem corrigir vieses e removê-los da análise, mas não podem ser contadas como funcionais. E elas também não são tão automáticas quanto gostaríamos.

Quando terminamos o trabalho e identificamos um sinal, ainda não podemos ter certeza de que é um sinal real ou que é um eco de um viés. Se a economia está certa, podemos colocar a verdade estatística para funcionar, onde ela pode ser verificada pelo sucesso do negócio e, então, não importa se é um viés oculto ou uma verdade real.

Às vezes há sempre uma resposta — mesmo que seja errada

O físico ganhador do Prêmio Nobel, Richard Feynman, teria dito: “Eu vi um carro com a placa de licença ‘ARW 357’. Você pode imaginar? De todos os milhões de chapas de matrículas no estado, qual era a chance de eu ver aquela em particular hoje à noite?"

Os conjuntos de dados sempre terão respostas para algumas perguntas, como encontrar o máximo, mínimo ou médio. A maioria dos algoritmos gerará alguma solução.

Um dos principais desafios enfrentados pelos cientistas é combater o “p-hacking”, o processo de vasculhar um conjunto de dados procurando os resultados que parecem estatisticamente significativos. A natureza da aleatoriedade significa que muitas vezes existe um em algum lugar nos dados. A pergunta complicada é garantir que seja uma resposta que resista ao tempo.

Às vezes somos apenas curiosos

Muitos projetos de ciência de dados produzem relatórios preenchidos com centenas de páginas de gráficos e tabelas, examinando combinações e sub-combinações não reveladas. Isso geralmente não é de grande ajuda para os gerentes de empresas que fizeram a pergunta em primeiro lugar. Eles querem uma resposta que economize dinheiro

Mas às vezes essa exploração gera algo interessante e talvez até útil. Dói ser curioso?

Junte-se a nós e receba nossas melhores histórias de tecnologia. Newsletter Newsletter por e-mail