Netflix abre ferramenta para gerenciar projetos em Ciência de Dados
Metaflow gerencia projetos de ciência de dados de ponta a ponta, trabalha com qualquer biblioteca de machine learning e se integra aos serviços da AWS
![](/wp-content/uploads/2022/04/default.png?x45318)
A Netflix abriu ao público o Metaflow, ferramenta desenvolvida internamente para criar e gerenciar projetos de ciência de dados baseados em Python. A solução trata de todo o fluxo de trabalho de ciência de dados, do protótipo à implantação do modelo, e fornece integrações internas aos serviços de nuvem da AWS.
Projetos de aprendizado de máquina e ciência de dados precisam de mecanismos para acompanhar o desenvolvimento do código, dados e modelos. Fazer tudo isso manualmente é uma tarefa propensa a erros, e as ferramentas para gerenciamento de código-fonte, como o Git, não são adequadas para todas essas operações.
O Metaflow fornece APIs Python para toda a pilha de tecnologias em um fluxo de trabalho de ciência de dados, do acesso às informações através de recursos de computação, controle de versão, treinamento de modelos, programação e implantação.
A Netflix criou o Metaflow para fornecer aos seus próprios cientistas e desenvolvedores de dados “uma API unificada para a pilha de infraestrutura necessária para executar projetos de ciência de dados, do protótipo à produção” e para “se concentrar na maior variedade de aplicações de aprendizado de máquina”.
Vale destacar que o Metaflow não favorece nenhuma estrutura específica de aprendizado de máquina ou biblioteca de ciência de dados. Cada vez que um projeto é executado, os dados gerados recebem um ID exclusivo, permitindo que o usuário acesse todas as execuções – e todas as etapas dessa execução – consultando o seu ID ou metadados.
A ferramenta também pode interagir facilmente com PyTorch, Tensorflow, SciKit Learn e outras bibliotecas Python para ciências de dados e aprendizado de máquina e é perfeitamente compatível com os serviços em nuvem fornecidos pela AWS.
A primeira versão pública do Metaflow, o Metaflow 2.0, carece de alguns dos recursos que a Netflix utiliza, como suporte à linguagem R ou processamento de dados por meio de DataFrames. Apesar disso, a gigante do streaming está disposta a disponibilizar essas funcionalidades se atrair suporte suficiente.