Categories: Notícias

VMware lança projeto open source para levar Hadoop a ambientes virtuais

A VMware  anunciou o lançamento do Serengeti,  um projeto open source para promover mudanças no Hadoop, de forma que ele rode da melhor forma tanto  em servidores virtuais quanto em físicos.  A empresa vai oferecer o código resultante de forma aberta sob a licença Apache 2.0, e contribuir com a extensão do código para o projeto core, que é parte da Fundação Apache de Software.
O framework Hadoop se tornou rapidamente a principal ferramenta de manipulação do Big Data. Seu código open source foi inicialmente desenvolvido por Doug Cutting, atualmente arquiteto na Cloudera, uma fabricante que também utiliza essa padronização.

 

Em sua maior parte, o Hadoop requer um cluster dedicado de servidor para realizar seu trabalho, e esta é uma forma muito cara para a maioria dos trabalhos de TI. Se ele pudesse rodar em um ambiente virtualizado, seria ativado e desativado de forma mais fácil, disse Fausto Ibarra, diretor sênior de produtos da VMware.

 

Em um ambiente virtual, seria mais fácil prever dois pontos de falha: NameNode e JobTracker. Se estiver no NameNode, o sistema congela quando há queda de cluster. Se ele estivesse rodando em um ambiente virtual, a perda de servidor do NameNode  geraria um servidor duplicado, que seria ativado fora do disco, e o sistema voltaria. Da mesma forma, com um nó no JobTracker Hadoop, outro servidor essencial no cluster e outro ponto único de falha em um cluster físico.

Mas ele não pode ser colocado em um ambiente virtualizado sem tomar conhecimento que está trabalhando com máquinas virtuais. Quão consciente das máquinas virtuais está? ?Não muito?, disse Ibarra em uma entrevista. Ele mantém três cópias de dados então aquela cópia pode ser perdida, mas em um backup primário remanescente.

 

Tanto em configurações virtuais quanto físicas, isso representaria uma recolocação de cada cópia em diferentes servidores físicos, o que faria com que as três cópias fossem perdidas ao mesmo tempo se armazenadas em máquinas virtuais no mesmo host. Mas o Hadoop não consegue distinguir entre máquinas físicas e virtuais então não saberia como distribuir corretamente as cópias ao redor dos clusters.

 

Se apenas uma porção de dados por perdida, isso ainda pode representar o suficiente para congelar uma query complexa em um cluster de Hadoop.

 

Ao passo que o Hadoop pode ser usado em um ou dois projetos em uma companhia atualmente, ele se tornaria um dispositivo de computação de dados central, acessível a muitos usuários, se for executado em um ambiente virtualizado,  mais previsível e controlável. “Estamos permitindo o uso predominante do Hadoop dentro da empresa?, disse Ibarra.

 

A consciência da virtualização no Hadoop também poderia ser oferecida como um serviço de cloud público, continuou o especialista. Desenvolvedores VMware vão contribuir com o código para extender o Hadoop no projeto Serengeti, de forma que ele rode efetivamente em ambientes virtualizados. A mesma extensão será colocada à disposição no projeto Apache Hadoop, que produz a versão referencial para muitos usuários. A empresa também convida outros fabricantes de Hadoop, incluindo Cloudera, GreenPlum, Hortonworks, MapR, e IBM, para participar do projeto e fazer uso de suas extensões.

 

O projeto também pode ser embutido diretamente no Cloudera, Hortonworks, GreenPlum, entre outros, para incorporar as ferramentas aos sistemas, explicou o executivo. Desenvolvedores construindo um novo sistema baseado em Hadoop beneficiariam se ele rodasse em um ambiente virtualizado. Eles frequentemente precisam apenas de um cluster pequeno para iniciar o sistema, mas ao passo que isso começa a crescer, é necessário que eles aumentem esse cluster para continuar os trabalhos. Mais servidores virtuais seriam adicionados a clusters de Hadoop ao passo que as fontes virtualizadas fossem grandes o suficiente.

Saiba mais:

Microsoft lança SQL Server 2012 no Brasil, mas sem Hadoop completo

Hadoop e análises de dados

Vídeos “Big Ideas” : Desmistificando clusters e Hadoop

Recent Posts

Movida lança agente de IA no WhatsApp em parceria com a Meta e aposta em nova experiência de locação

A plataforma de locação de automóveis Movida lançou um agente de inteligência artificial integrado ao…

1 dia ago

Oracle nomeia Marcelle Paiva como nova VP de vendas, Data&AI Hub na América Latina

A Oracle anunciou Marcelle Paiva como nova vice-presidente de vendas, Go-to-Market (GTM) e ecossistema para…

1 dia ago

Mercado de IPOs de tecnologia ganha força com avanço da IA

O mercado de ofertas públicas iniciais voltou a ganhar tração em 2026, impulsionado principalmente pelo…

1 dia ago

Oracle adiciona US$ 85 bilhões em contratos de IA e encerra trimestre com carteira recorde de US$ 638 bilhões

A Oracle encerrou o quarto trimestre e o ano fiscal de 2026 com resultados recordes,…

1 dia ago

Disputa entre Anthropic e OpenAI expõe divergências sobre o futuro da inteligência artificial

A disputa entre Anthropic e OpenAI ganhou novos contornos e se tornou um dos principais…

1 dia ago

Marketing B2B precisa se reorganizar para atender compradores mais autônomos, diz Forrester

As áreas de marketing B2B precisam rever sua estrutura operacional para acompanhar a transformação do…

1 dia ago