Hadoop é um dos termos que fazem parte do “vocabulário” das tecnologias emergentes. Mas afinal, o que é Hadoop?
De forma simples, ele pode ser descrito como um conjunto de programas e procedimentos open source – disponíveis de graça para que todos usem e modifiquem, que servem como estrutura para operações de dados.
A natureza flexível de um sistema Hadoop permite que as empresas possam adicionar ou modificar seu sistema de dados à medida que suas necessidades mudam, usando peças baratas e prontamente disponíveis de qualquer fornecedor de TI.
A Mastertech, startup que prepara profissionais do futuro, explica passo a passo o que é o conceito, qual sua relação com o big data, bem como seus principais módulos.
Como funciona
Atualmente, o Hadoop é o sistema mais usado para fornecer armazenamento e processamento de dados em hardware “commodity”: sistemas relativamente baratos e de prateleira, em vez de sistemas caros e sob medida para o trabalho em mãos.
Quase todos os grandes nomes on-line o utilizam e, como qualquer um é livre para alterá-lo para seus próprios propósitos, modificações feitas no software por engenheiros especializados da Amazon e Google, por exemplo, são realimentadas à comunidade de desenvolvimento, onde são freqüentemente usados para melhorar o produto “oficial”. Essa forma de desenvolvimento colaborativo entre usuários voluntários e comerciais é uma característica fundamental do software de código aberto.
Em seu estado “bruto”, usando os módulos básicos fornecidos aqui pelo Apache, o Hadoop pode ser muito complexo, mesmo para profissionais de TI. É por isso que várias versões comerciais foram desenvolvidas, como a Cloudera, que simplifica a tarefa de instalar e executar um sistema Hadoop, bem como oferecer serviços de treinamento e suporte.
Graças à natureza flexível do sistema, as empresas podem expandir e ajustar suas operações de análise de dados à medida que seus negócios se expandem. E o apoio e entusiasmo da comunidade de código aberto por trás disso levou a grandes avanços no sentido de tornar a análise de big data mais acessível para todos.
Qual a relação entre Hadoop e big data?
Mais comumente, o Hadoop é usado para processar cargas de trabalho de big data por ser altamente escalável. Para aumentar a capacidade de processamento do cluster do Hadoop, é possível adicionar mais servidores com os recursos de CPU e memória necessários precisa para atender às necessidades.
O Hadoop proporciona um alto nível de durabilidade e disponibilidade, enquanto continua processando em paralelo cargas de trabalho analíticas computacionais. A combinação de disponibilidade, durabilidade e escalabilidade de processamento torna o Hadoop a escolha ideal para cargas de trabalho de maior número de dados. Algumas vantagens do Hadoop são:
Quatro módulos do Hadoop
O Hadoop é composto de módulos, sendo que cada um deles carrega uma tarefa essencial para sistemas de computador desenhados para a análise de dados. Esses módulos são:
Esse módulo é um dos mais importantes pois permite que os dados sejam armazenados em um formato simples e acessível, entre um grande número de dispositivos de armazenamento linkados. O “sistema de arquivos” é o método usado por um computador para armazenar dados e pode ser encontrado e usado. Normalmente, isso é determinado pelo sistema operacional do computador, no entanto, um sistema Hadoop usa seu próprio sistema de arquivos que fica “acima” do sistema de arquivos do computador host, o que significa que pode ser acessado usando qualquer computador com sistema operacional compatível.
MapReduce é nomeado a partir das duas operações básicas que este módulo realiza: ler dados do banco de dados, colocando-os em um formato adequado para análise (mapa) e realizar operações matemáticas, ou seja, contando o número de homens com mais de 30 anos em um banco de dados de clientes, por exemplo (redução). É o MapReduce que garante as ferramentas para explorar dados de diversas formas.
O outro módulo é o Hadoop Common, que fornece as ferramentas (em Java) necessárias para os sistemas de computador do usuário (Windows, Unix ou qualquer outro) lerem dados armazenados no sistema de arquivos do Hadoop.
O módulo final é o YARN, que gerencia os recursos dos sistemas que armazenam os dados e executam a análise.
Diversos outros procedimentos, bibliotecas ou recursos passaram a ser considerados parte do “framework” do Hadoop nos últimos anos, mas o Hadoop Distributed File System, o Hadoop MapReduce, o Hadoop Common e o Hadoop YARN são os quatro principais.
O IT Forum traz, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e…
A Microsoft está enfrentando críticas após um relatório revelar um aumento alarmante em suas emissões…
O Grupo Centroflora é um fabricante de extratos botânicos, óleos essenciais e ativos isolados para…
Toda semana, o IT Forum reúne as oportunidades mais promissoras para quem está buscando expandir…
Um estudo divulgado na segunda-feira (13) pela Serasa Experian mostra que a preocupação com fraudes…
A Honeywell divulgou essa semana a sexta edição de seu Relatório de Ameaças USB de…