Parceria entre Google e Cloudera vai levar Cloud Dataflow para Apache

Publicado: 20/01/2015 às 17:24

Leitura 2 minutos

O Google anunciou hoje (20/1) que fez uma parceria com a Cloudera, especializada em Hadoop, para levar seu modelo de programação Cloud Dataflow para o mecanismo de processamento de dados do Apache Spark.

As melhores notícias de tecnologia B2B

Acompanhe todas as novidades diretamente na sua caixa de entrada

Com o Google Cloud Dataflow, desenvolvedores podem criar e monitorar pipelines de processamento de dados sem ter de se preocupar com o cluster de processamento de dados subjacente. Como o Google gosta de frisar, o serviço evoluiu a partir dos instrumentos internos da empresa para o processamento de grandes conjuntos de dados em escala web.

Nem todas as tarefas de processamento de dados são os mesmos, mas, às vezes, a empresa pode querer executar uma tarefa na nuvem ou no local com base em diferentes motores de processamento. Com o Cloud Dataflow, analistas de dados serão capazes de usar o mesmo sistema para a criação de suas condutas, não importa a arquitetura subjacente que será executada.

O Google anunciou pela primeira vez o Dataflow como um serviço hospedado em sua plataforma no ano passado. Há um mês, a empresa abriu o Java SDK para ajudar os desenvolvedores a integrá-lo em outras linguagens e ambientes. Agora, com a ajuda de Cloudera, a gigante de buscas está trilhando o caminho para o Apache Spark. Com isso, os desenvolvedores agora podem rodar o Cloud Dataflow em suas máquinas locais, no serviço hospedado do Google (que ainda está em testes) e em Spark.