Home > Tendências

6 ferramentas que facilitam a adoção da Ciência de Dados

Novas ferramentas abrem a oportunidade para qualquer pessoa que esteja confortável trabalhando com uma planilha trabalhar com Data Science

Peter Wayner, CIO EUA

16/06/2019 às 10h13

Foto: Shutterstock

A Ciência de Dados, certamente, não é algo fácil e trivial. Mas ela está ficando cada vez mais acessível para se "mergulhar". Palavras-chave como "machine learning", "regressão" e "redução de dimensionalidade" são tão desafiadoras de entender como sempre, mas o desejo difundido de colher os benefícios dessas técnicas resultou em várias boas ferramentas que criam linhas de montagem para dados que estão prontos para fornecer as respostas que procuramos.

O segredo é semelhante ao que revolucionou a manufatura. Assim como peças padronizadas ajudaram a lançar a revolução industrial, os cientistas de dados de vários fornecedores de ferramentas produziram uma coleção de rotinas analíticas muito poderosas e muito adaptáveis. Eles padronizaram as interfaces, tornando muito mais simples a criação de seu pipeline personalizado a partir dessas ferramentas de dados intercambiáveis.

12 segredos obscuros da ciência de dados

Equipes de ciência de dados devem operar como startups

Cientista de Dados: 4 cursos gratuitos para apostar na profissão do futuro

Os cientistas de dados costumavam torcer as mãos porque 80% do trabalho estava em preparar dados para análise criando rotinas personalizadas em Python, Java ou qualquer que fosse sua linguagem favorita, de modo que as sofisticadas ferramentas estatísticas em R ou SASS pudessem fazer seu trabalho. A boa notícia é que o mercado agora está se enchendo de ferramentas sofisticadas que agrupam centenas de rotinas bem projetadas em um pacote que faz muito da limpeza e padronização de dados repetitivos e desagradáveis ​​para você.

Essas novas ferramentas abrem a oportunidade para qualquer pessoa que esteja confortável trabalhando com uma planilha. Elas não farão todo o trabalho de preparação desaparecer, mas facilitarão.

As ferramentas também liberam grande parte do poder de economia de custos da nuvem. No passado, os cientistas de dados precisavam de computadores poderosos para processar grandes conjuntos de dados. Agora podem alugar máquinas ainda maiores e mais rápidas na nuvem a cada segundo, aumentando a velocidade de processamento e economizando dinheiro.

As ferramentas são um benefício para os cientistas de dados e analistas de dados que precisam apenas treinar um algoritmo para prever as tendências do próximo ano. Ambos os grupos podem desfrutar do prazer de usar ferramentas sofisticadas que fazem a coisa certa com os dados. A padronização, no entanto, abre o potencial para grupos inteiramente novos mergulharem na ciência de dados. Agora você não precisa dominar a sintaxe R ou a programação em Python para começar.

É claro que ainda precisamos pensar profundamente sobre estatística e aprendizado de máquina. Essas ferramentas não podem responder a perguntas estratégicas sobre quando é melhor usar uma rede neural ou um algoritmo de clustering, mas elas podem simplificar a inserção de todos os seus dados e testar os dois muito rapidamente. Na lista abaixo, confira as seis ferramentas que devem ajudar a democratizar a ciência de dados hoje.

Domino

O Domino começa em torno do Lab, um ambiente de desenvolvimento integrado visual (IDE, sigla em inglês para Integrated Development Environment) para a construção de modelos, reunindo ícones e pipelines. A diferença é que o Domino também está aberto a outras ferramentas. Todos os IDEs principais e não tão importantes baseados na Web são suportados porque o sistema foi projetado para ser aberto a todos eles. A maioria pode usar o Jupyter ou o R-Studio, mas outras ferramentas, como o Apache Zeppelin ou as ferramentas do SAS, são bem suportadas.

A maioria do Domino é dedicada à arte de manter toda a infraestrutura necessária para transformar dados em modelos. O back end do Domino acompanha cuidadosamente várias versões dos dados, bem como todas as suas revisões e experiências ao longo do caminho. Tudo isso é salvo e vinculado aos resultados para garantir que seus resultados possam ser reproduzidos e reproduzidos novamente. O armazenamento de uma representação precisa da consulta é enfatizado para que outras pessoas possam descobrir e reutilizar o trabalho posteriormente.

O Domino é um sistema operacional mais sofisticado baseado na Web para uma rede em nuvem do que uma única plataforma. A abertura da plataforma depende de um mecanismo relativamente padrão para armazenar dados em arquivos e manter as revisões consistentes. Felizmente, o armazenamento em disco é mais barato do que nunca.

Um dos principais pontos de venda do Domino é sua integração na nuvem. Suas experiências serão executadas em um conjunto de máquinas poderosas compartilhadas com outras pessoas.

Alteryx

O núcleo da plataforma Alteryx é sua ferramenta Designer, uma IDE de programação visual que permite aos usuários arrastar e soltar ícones em vez de digitar um programa de texto. O Alteryx oferece vários modelos preditivos predefinidos para analisar dados e inferências de desenhos. Eles se parecem com ícones para processamento de dados, mas são realmente programas em R ou Python, e o Alteryx está poupando o trabalho de lidar com a complexidade e a codificação baseada em texto.

A plataforma está se movendo em direção a um modelo mais orientado a servidor, no qual o código que você cria reside em um servidor pronto para ser dimensionado para conjuntos de dados maiores. Quando você termina de projetar o modelo em seu PC pessoal, o Alteryx oferece a infraestrutura para publicar o modelo em um servidor central e depois distribuir os resumos gráficos para todos na empresa.

RapidMiner

O RapidMiner é uma das ferramentas mais automatizadas para transformar dados em modelos acionáveis. Seu IDE permite que os usuários criem uma descrição visual das transformações de dados como uma coleção de ícones conectados por linhas. A parte mais útil pode ser o recurso AutoModel, que reúne muitos desses ícones com base em seus dados e objetivos. Quando estiver pronto, você pode abrir o modelo e ajustar as partes individuais.

Há uma grande coleção de extensões que podem ajudar a lidar com muitos dos desafios mais exóticos, como a compreensão de textos não estruturados extraídos de sites. Há também uma ampla variedade de ferramentas para trabalhar com dados de séries temporais, como para reconstruir elementos de dados ausentes e formar (e testar) previsões para o futuro.

Se o seu conjunto de dados for maior, o RapidMiner estará coberto. Aqueles que têm uma solução facilmente paralelizada podem usar a versão integrada do RapidMiner do Hadoop e Hive chamada "Radoop". Há também uma solução baseada em servidor que provisionará máquinas em nuvem da AWS, Azure ou o seu próprio conjunto de servidores local. O ecossistema baseado em servidor fomenta a colaboração com um repositório centralizado de dados e análises que podem ser programados para entregar relatórios e insights na produção.

Knime

Knime (pronunciado com um K silencioso) é uma plataforma de análise de dados de código aberto com um IDE visual para vincular várias rotinas de análise e processamento de dados. O software principal é distribuído gratuitamente, mas versões comerciais de alguns plugins e extensões estão disponíveis e as taxas suportam o desenvolvimento principal. Uma versão do servidor que é executada na nuvem ou em suas próprias máquinas também está disponível.

A base do software está escrita em Java, muitas das integrações da Knime dependem do ecossistema Java. Os usuários notarão que o IDE do Knime é construído sobre o Eclipse, o que o tornará mais familiar aos desenvolvedores de Java. A plataforma pode trabalhar com dados em todos os principais bancos de dados (MySQL, PostgreSQL) e serviços em nuvem (Amazon Athena, Redshift) e qualquer outro com um conector compatível com JDBC. O Knime oferece uma integração particularmente forte com o “processamento de banco de dados”, que pode acelerar o seu trabalho. Ele também se integra à próxima geração de ferramentas de dados distribuídos, como o Apache Spark.

Uma comunidade robusta de código aberto suporta uma quantidade razoável de extensões e fluxos de trabalho que podem ser usados, revisados ​​e personalizados, com a maioria do código hospedado no GitHub ou no Bitbucket. Há também uma grande coleção de extensões comerciais com suporte integrado.

As empresas que dependem muito dos aplicativos do Google também podem gostar da integração mais profunda. A Knime pode ler e escrever a partir de dados do Google Planilhas, uma forma potencialmente eficaz de levar a análise de dados a um escritório que usa as planilhas do Google com frequência.

Talend

A Talend oferece uma coleção de aplicativos que funcionam em desktops, em um data center local ou na nuvem. As ferramentas multicamadas da empresa coletam dados de vários armazéns e bancos de dados antes de transformá-los para análise. O Pipeline Designer, por exemplo, oferece uma ferramenta de design visual para extrair dados de várias fontes e analisá-los com ferramentas padrão ou extensões do Python.

Looker

O Looker aponta para a confusão causada por muitas versões de dados de muitas fontes. Seus produtos criam uma fonte sólida de dados precisos controlados por versão que podem ser manipulados e mapeados por qualquer usuário downstream. Todos, desde usuários corporativos até desenvolvedores back-end, podem criar seus próprios painéis cheios de dados e gráficos configurados para seus gostos pessoais.

A plataforma é construída em torno de muitos dos padrões que dominam o mundo do código aberto. Dados e código evoluem sob o controle do Git. As visualizações do painel vêm da D3. Os dados são coletados de bancos de dados SQL usando o LookML, uma linguagem de consulta personalizada semelhante a uma linguagem de programação imperativa regular.

O Google anunciou recentemente que vai adquirir o Looker e integrá-lo ao Google Cloud. Como essa aquisição afetará a plataforma continua a ser vista.

 

Junte-se a nós e receba nossas melhores histórias de tecnologia. Newsletter Newsletter por e-mail