9 ferramentas que buscam facilitar a ciência de dados

Mercado agora oferece ferramentas que agrupam centenas de rotinas e executa grande parte da limpeza e padronização repetitiva e desagradável para você

Author Photo
8:00 am - 27 de maio de 2020

A matemática da ciência de dados é complexa e poderosa, mas pode ser um obstáculo assustador para quem deseja desvendar as ideias que ela pode oferecer. A boa notícia é que a limpeza inevitável e a manutenção básica que a acompanham nunca foram tão fáceis. Novas ferramentas e um melhor software de suporte estão revolucionando a disciplina, fornecendo linhas de montagem para dados prontos para fornecer as respostas que buscamos.

Assim como as peças padronizadas ajudaram a deslanchar a revolução industrial, os fornecedores de ferramentas de dados produziram uma coleção de rotinas analíticas poderosas e adaptativas e padronizaram as interfaces, facilitando a criação de pipelines personalizados a partir dessas ferramentas intercambiáveis.

Os cientistas de dados costumavam torcer as mãos preparando dados para análise, criando rotinas personalizadas em Python, Java ou sua linguagem favorita, para que ferramentas estatísticas sofisticadas no R ou SASS pudessem fazer seu trabalho. Agora, entretanto, o mercado oferece ferramentas que agrupam várias centenas de rotinas bem projetadas em um pacote que executa grande parte da limpeza e padronização repetitiva e desagradável de dados para você. Abaixo, separamos nove dessas ferramentas.

Alteryx

O núcleo da plataforma Alteryx é sua ferramenta Designer, um IDE de programação visual que permite aos usuários arrastar e soltar ícones em vez de digitar um programa de texto. O Alteryx é voltado para cientistas de dados e “usuários cidadãos”, também conhecidos como aqueles que não querem mexer nos detalhes de limpeza e modificação de dados para análise. Ela funciona como um shell para ferramentas populares de código aberto e possui alcance global.

Domino

A ferramenta do Domino para análise de dados é o Workbench, um IDE visual para agrupar modelos usando ícones e pipelines. A diferença é que o Domino também está aberto a outras ferramentas, incluindo a maioria dos IDEs baseados na Web, incluindo Jupyter, R-Studio, Apache Zeppelin, VS Code da Microsoft e várias ferramentas do SAS. O Domino é principalmente dedicado à manutenção da infraestrutura necessária para transformar dados em modelos. De certa forma, é mais um sistema operacional sofisticado baseado na Web para uma rede em nuvem do que uma única plataforma.

RapidMiner

O RapidMiner é uma das ferramentas mais altamente automatizadas para transformar dados em modelos acionáveis. Seu IDE permite que os usuários construam uma descrição visual das transformações de dados como uma coleção de ícones conectados por linhas. A empresa usa automação sofisticada para incentivar a colaboração entre usuários técnicos (programadores, cientistas) e não técnicos. A parte mais útil pode ser o AutoModel, que reúne muitos desses ícones com base em seus dados e objetivos. Quando terminar, você pode abrir o modelo e ajustar as partes individuais. O RapidMiner Go foi desenvolvido especificamente para usuários não técnicos começarem a explorar conjuntos de dados com ou sem a assistência de cientistas de dados.

Knime

Knime é uma plataforma de análise de dados de código aberto com um IDE visual para vincular rotinas de processamento e análise de dados. O software principal é gratuito, mas as versões comerciais de alguns plugins e extensões estão disponíveis mediante taxas que suportam o desenvolvimento principal. Uma versão do servidor que é executada na nuvem ou em suas próprias máquinas também está disponível. A base da Knime é escrita em Java, e muitas das integrações da Knime dependem do ecossistema Java.

O Knime IDE é construído no Eclipse, o que o torna mais familiar aos desenvolvedores Java. A plataforma pode trabalhar com dados em todos os principais bancos de dados (MySQL, PostgreSQL) e serviços em nuvem (Amazon Athena, Redshift) e em qualquer outro armazenamento de dados com um conector compatível com JDBC. O Knime oferece forte integração com “no processamento de banco de dados”, o que pode acelerar seu trabalho. Ele também se integra às ferramentas de dados distribuídos de última geração, como o Apache Spark.

Talend

A Talend chama sua linha de produtos de “data fabric”, uma metáfora de como ela une segmentos de informações. Essa coleção de aplicativos funciona em desktops, em um data center local ou na nuvem, coletando e armazenando dados em um formato comum e, em seguida, analisando e distribuindo-os por toda a empresa.

As ferramentas de várias camadas coletam dados de vários depósitos e bancos de dados antes de transformá-los para análise. O Pipeline Designer, por exemplo, oferece uma ferramenta de design visual para extrair dados de várias fontes e depois analisá-los com ferramentas padrão ou extensões Python.

Looker

O Looker endereça a confusão causada por várias versões de dados de várias fontes. Seus produtos criam uma fonte de dados precisa, controlada por versão, que pode ser manipulada e mapeada por qualquer usuário. Todos, desde usuários corporativos a desenvolvedores de back-end, podem criar seus próprios painéis preenchidos com dados e gráficos configurados de acordo com seus gostos pessoais.

A plataforma é construída em torno de muitos dos padrões que dominam o mundo do código aberto.

Oracle

A aquisição do DataScience.com pela Oracle em 2018 adicionou uma forte coleção de ferramentas analíticas às principais ferramentas de banco de dados da empresa. A integração agora está completa na forma do Oracle Cloud Data Science Platform, que inclui uma coleção de ferramentas poderosas (TensorFlow, Jupyter etc.), aprimoramentos no banco de dados núcleo (Oracle Autonomous Database) e uma opção para usar a nuvem da Oracle para análise.

A coleção de ferramentas é principalmente de código aberto e a linguagem dominante é o Python.

MathWorks

O MathWorks já foi conhecido principalmente por engenheiros e cientistas por produzir Matlab e Simulink. Agora que os cientistas de dados estão levando essas técnicas para um público maior, as ferramentas estão chamando a atenção. O núcleo do sistema é o Matlab, uma ferramenta que começou a manipular grandes matrizes para problemas de álgebra linear. O sistema ainda suporta essa missão, mas agora oferece uma coleção de aprendizado de máquina e algoritmos de IA que podem ser focados em outros dados, como análise de texto. O Matlab também oferece algoritmos de otimização para encontrar a melhor solução, devido a um conjunto de restrições, além de dezenas de toolboxes projetadas para lidar com problemas comuns em áreas tão diversas quanto gerenciamento de riscos, direção autônoma e processamento de sinais.

Databricks

O coração do sistema Databricks é um data lake que se enche de informações que serão transformadas em blocos de anotações colaborativas compartilhadas por cientistas de dados e por pessoas da empresa que confiam em suas ideias. Há suporte para vários idiomas (R, Python, Java) e permitem que vários usuários os revisem e estendam ao mesmo tempo, enquanto armazenam versões com o Git. A ferramenta fornece um caminho unificado para a exploração iterativa de modelos de dados criados com algoritmos de aprendizado de máquina.

No núcleo do sistema estão os principais projetos de código aberto, que vão desde a camada de armazenamento de dados (Delta Lake), a principal plataforma computacional (Apache Spark), até os algoritmos (TensorFlow, MLFlow). Os recursos de computação são extraídos do Azure ou da AWS.

Outras ferramentas tornam os dados mais acessíveis

Outras ferramentas e plataformas estão integrando ideias semelhantes. Grandes empresas de nuvem, como Google e Microsoft, oferecem ferramentas para analisar dados em suas nuvens. O Azure Data Factory, por exemplo, oferece uma ferramenta visual para extrair, transformar e carregar dados. Empresas como Tibco e SAS, que já ofereceram ferramentas de geração de relatórios sob a égide da “inteligência de negócios”, estão oferecendo análises mais sofisticadas que podem ser chamadas de “ciência de dados”.

Algumas ferramentas se concentram mais no aprendizado de máquina e em outras formas de inteligência artificial. O SageMaker da Amazon simplifica o trabalho de criar, treinar e implantar um processo de aprendizado de máquina, oferecendo centenas de algoritmos e modelos em um mercado aberto.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.