Netflix abre ferramenta para gerenciar projetos em Ciência de Dados

Metaflow gerencia projetos de ciência de dados de ponta a ponta, trabalha com qualquer biblioteca de machine learning e se integra aos serviços da AWS

Author Photo
5:16 pm - 10 de dezembro de 2019

A Netflix abriu ao público o Metaflow, ferramenta desenvolvida internamente para criar e gerenciar projetos de ciência de dados baseados em Python. A solução trata de todo o fluxo de trabalho de ciência de dados, do protótipo à implantação do modelo, e fornece integrações internas aos serviços de nuvem da AWS.

Projetos de aprendizado de máquina e ciência de dados precisam de mecanismos para acompanhar o desenvolvimento do código, dados e modelos. Fazer tudo isso manualmente é uma tarefa propensa a erros, e as ferramentas para gerenciamento de código-fonte, como o Git, não são adequadas para todas essas operações.

O Metaflow fornece APIs Python para toda a pilha de tecnologias em um fluxo de trabalho de ciência de dados, do acesso às informações através de recursos de computação, controle de versão, treinamento de modelos, programação e implantação.

A Netflix criou o Metaflow para fornecer aos seus próprios cientistas e desenvolvedores de dados “uma API unificada para a pilha de infraestrutura necessária para executar projetos de ciência de dados, do protótipo à produção” e para “se concentrar na maior variedade de aplicações de aprendizado de máquina”.

Vale destacar que o Metaflow não favorece nenhuma estrutura específica de aprendizado de máquina ou biblioteca de ciência de dados. Cada vez que um projeto é executado, os dados gerados recebem um ID exclusivo, permitindo que o usuário acesse todas as execuções – e todas as etapas dessa execução – consultando o seu ID ou metadados.

A ferramenta também pode interagir facilmente com PyTorch, Tensorflow, SciKit Learn e outras bibliotecas Python para ciências de dados e aprendizado de máquina e é perfeitamente compatível com os serviços em nuvem fornecidos pela AWS.

A primeira versão pública do Metaflow, o Metaflow 2.0, carece de alguns dos recursos que a Netflix utiliza, como suporte à linguagem R ou processamento de dados por meio de DataFrames. Apesar disso, a gigante do streaming está disposta a disponibilizar essas funcionalidades se atrair suporte suficiente.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.