Parceria entre Google e Cloudera vai levar Cloud Dataflow para Apache
O Google anunciou hoje (20/1) que fez uma parceria com a Cloudera, especializada em Hadoop, para levar seu modelo de programação Cloud Dataflow para o mecanismo de processamento de dados do Apache Spark.
Com o Google Cloud Dataflow, desenvolvedores podem criar e monitorar pipelines de processamento de dados sem ter de se preocupar com o cluster de processamento de dados subjacente. Como o Google gosta de frisar, o serviço evoluiu a partir dos instrumentos internos da empresa para o processamento de grandes conjuntos de dados em escala web.
Nem todas as tarefas de processamento de dados são os mesmos, mas, às vezes, a empresa pode querer executar uma tarefa na nuvem ou no local com base em diferentes motores de processamento. Com o Cloud Dataflow, analistas de dados serão capazes de usar o mesmo sistema para a criação de suas condutas, não importa a arquitetura subjacente que será executada.
O Google anunciou pela primeira vez o Dataflow como um serviço hospedado em sua plataforma no ano passado. Há um mês, a empresa abriu o Java SDK para ajudar os desenvolvedores a integrá-lo em outras linguagens e ambientes. Agora, com a ajuda de Cloudera, a gigante de buscas está trilhando o caminho para o Apache Spark. Com isso, os desenvolvedores agora podem rodar o Cloud Dataflow em suas máquinas locais, no serviço hospedado do Google (que ainda está em testes) e em Spark.