All Rights ReservedView Non-AMP Version
IT Forum
  • Homepage
  • Plataformas
Notícias

Hadoop reforça a importância de Big Data

As tecnologias Hadoop, plataforma para análise de dados de código aberto, desenvolvida pela Apache, estão se tornando fundamentais para ajudar empresas a gerirem grandes volumes de dados, informam os especialistas. Entre as principais organizações que abraçaram a ferramenta estão Nasa, Twitter e Netflix.

A plataforma aberta de computação distribuída ganhou impulso como mecanismo para lidar com o conceito de Big Data, segundo o qual as empresas procuram extrair valor dos dados de seus sistemas de informação.
Usuários corporativos estão adotando tanto as tecnologias da plataforma Hadoop existentes como as que complementam sistemas que desenvolvem.

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

A Nasa adota a Hadoop para lidar com grandes volumes de dados em projetos como o Square Kilometer Array, para visualização do céu. Estima-se que este sistema produzirá 700 terabyte de dados quando for construído na próxima década.

Os sistemas vão incluir a Hadoop, assim como tecnologias Apache Object Oriented Data Technology (OODT) para gerenciar grandes volumes de informações explica Chris Mattmann, cientista de computação da agência espacial dos Estados Unidos.

O Twitter é outro grande usuário de Hadoop. “Todos os produtos de relevância [a  partir dos quais oferece recomendações personalizadas aos usuários] têm alguma interação com a Hadoop”, diz Oscar Boykin, um cientista de dados da empresa.

A rede social adota Hadoop há cerca de quatro anos e até desenvolveu o Scalding, um repositório Scala para facilitar tarefas executadas pelo Hadoop MapReduce. A ferramenta foi desenhada sobre o repositório Cascading Java, criado para reduzir a complexidade da plataforma Hadoop.

Os subprojetos da Hadoop incluem a MapReduce, uma matriz de software para o processamento de grandes conjuntos de processamento em clusters; a Hadoop Distributed File System (HDFS), que oferece acesso rápido a dados de aplicações e Common, com utilitários para apoiar outros subprojetos Hadoop.

A empresa de aluguel de filmes Netflix começou a usar o Apache Zookeeper, tecnologia relacionada com Hadoop para gestão de configurações. “Vamos utilizá-lo para todo o tipo de coisas: segurança distribuída, gestão de pedidos e tráfego” para organizar as prioridades do serviço, diz Jordan Zimmerman, engenheiro sênior da  Netflix. “Abrimos o código de um software cliente para o Zookeeper, que escrevi chamado Curador”. O cliente serve como um repositório para programadores.

A rede social Tagged utiliza a tecnologia Hadoop para análise de informações e processa cerca de meio terabyte de novos dados diários, diz Rich McKinley, engenheiro de dados da empresa.

Segundo o engenheiro, a Hadoop está sendo aplicada em tarefas que superam a capacidade da ferramenta Greenplum, comprada pela EMC. “Queremos fazer mais com Hadoop para incrementar a escala”.

Apesar de elogiarem a Hadoop, os usuários apontam deficiências como a fiabilidade e monitoramento de tarefas. McKinley menciona um problema com a latência. “O tempo para obter dados é bastante rápido, mas todos reclamam da grande latência na execução de consultas”. A Tagged utiliza a Apache Hive, outro projeto derivado da Hadoop, para consultas “ad hoc”.

“Isso pode levar vários minutos para obter resultados que, na Greenplum, levaria questões de segundos”. Mas usar a Hadoop é mais barato que Greenplum, ressalva.

O que promete a Hadoop 2.0

A Hadoop 1.0 foi lançada no final de 2011, com tecnologia de autenticação forte via Kerberos e suporte para bases de dados HBase. A versão também impede os usuários individuais de derrubarem clusters, usando restrições sobre a MapReduce.

Mas uma nova versão está no horizonte. O CTO da HortonWorks, Eric Baldeschwieler, forneceu um roteiro de evolução da Hadoop, que inclui a versão 2.0.  A plataforma entrou em fase alfa no início deste ano “e terá a camada de MapReduce recodificada de extremo a extremo, além de uma reescrita completa de toda a lógica de armazenamento e da camada de HDFS “, explica Baldeschwieler, contribuinte frequente para o desenvolvimento da plataforma.

A Hadoop 2.0 estará focada na escala e inovação, baseada na Yarn (próxima geração da MapReduce) e em recursos de federação. A Yarn permitirá aos usuários adicionar os seus próprios modelos de computação para não ficarem presos à MapReduce.

“Temos boas expectativas de que a comunidade invente muitas maneiras de usar a Hadoop”, diz Baldeschwieler. As adoções previstas incluem aplicações de tempo real e algoritmos de aprendizagem artificial, além das operações de armazenamento com capacidade de expansão.

Capacidades de funcionamento o tempo todo da versão 2.0 deverão permitir a constituição de clusters sem tempo de inatividade. A versão prevê também o armazenamento escalável. A Hadoop 2.0 estará disponível dentro de um ano.

Next Stuxnet, Duqu e Flame tinham como alvo Windows pirata no Irã »
Previous « Scopus investe R$ 1 mi em software para ATM compartilhado
Leave a Comment
Share
Published by
Redação
14 anos ago

    Related Post

  • Lula defende regulação da IA no G7 e destaca posição do Brasil
  • China pressiona por regras globais de segurança em IA durante reunião do G7
  • SpaceX supera Amazon em valor de mercado após disparada das ações pós-IPO

Recent Posts

  • Notícias

HPE firma aliança com 8 empresas para avançar em computação quântica híbrida

A computação quântica ainda não tem aplicação comercial em escala. A Hewlett Packard Enterprise (HPE)…

8 horas ago
  • Notícias

China pressiona por regras globais de segurança em IA durante reunião do G7

A China voltou a defender a criação de mecanismos internacionais de governança para inteligência artificial…

10 horas ago
  • Notícias

SpaceX supera Amazon em valor de mercado após disparada das ações pós-IPO

A SpaceX alcançou um marco importante e histórico poucos dias após sua estreia na bolsa…

11 horas ago
  • Notícias

IA é estratégica para 99% das empresas, mas avanço ainda esbarra em maturidade e orçamento

A inteligência artificial já entrou no radar estratégico das empresas brasileiras, mas sua adoção ainda…

12 horas ago
  • Notícias

Para Domingos Bruno, o CIO do futuro deve priorizar comunicação e gestão de pessoas antes mesmo de falar de tecnologia

Na visão de Domingos Bruno, especialista do IT Forum Inteligência, o CIO do futuro não…

12 horas ago
  • Notícias

Lula defende regulação da IA no G7 e destaca posição do Brasil

O presidente Luiz Inácio Lula da Silva apresentou a posição brasileira sobre governança digital e inteligência…

12 horas ago
All Rights ReservedView Non-AMP Version
  • L