Yahoo e Hadoop: juntos por um longo tempo

Author Photo
3:44 pm - 18 de junho de 2012

Como primeiro grande usuário do Hadoop, o Yahoo ainda ocupa um lugar especial no universo em expansão da empresa.

A companhia começou a usar o software para acelerar a indexação de resultados para seu mecanismo de busca. Agora se baseia no Bing, da Microsoft, para obter esses resultados e a equipe da área faz o trabalho pesado com os dados de rede.

Como isso afeta a relação das duas empresas? O Yahoo ainda aposta nessa relação, segundo Scott Burke, vice-presidente sênior de propaganda e plataforma de dados. ?Continuamos comprometidos com o Hadoop. É a única plataforma que usamos globalmente. Temos nossa marca no mundo com base nela?, afirmou durante uma apresentação no Hadoop Summit 2012, na última semana, em San Jose, Califórnia (Estados Unidos).

O Yahoo executa Hadoop em 42 mil servidores ? isso em 1,2 mil racks ? em quatro data centers.  Seu maior cluster tem quatro mil nodes, mas aumentará pra dez mil com o lançamento do Apache Hadoop 2.0.

Após sua apresentação, Burke explicou algumas das razões pelas quais o Hadoop se tornou parte integrante da forma que o Yahoo faz seus negócios. De início, a empresa usa o software para bloquear spams que chegam em seus servidores. Burke disse que recebem cerca de 20,5 bilhões de mensagens por dia. O recurso é usado como base do software dentro do Yahoo e potencializa a ?personalização?, já que usa as informações de visitas anteriores para enviar um ?pacote de valor?, que reflita os interesses dos usuários. (A companhia usa uma combinação de análise automatizada e editores humanos para definir os pacotes. Se deixasse apenas para a automação, todos receberiam pacotes sobre celebridades, que é o que tem maior tráfego no site.)

?Nosso objetivo é dar ao consumidor uma experiência personalizada?, afirmou. Isso significa que o site pode dar aos visitantes que leram uma matéria, uma lista relacionada de escolhas que possam ser interessantes.

O objetivo não é usar o Hadoop como um sistema único. Em vez disso, usá-lo como um fundador de informações para um sistema database Oracle, que retira dados pré-classificados e indexados e os coloca dentro de um Microsoft SQL Server para análise detalhada. Os dados resultantes são mostrados nos sistemas de visualização Tableau ou Microstrategy para analistas da empresa. Esses dados são usados para informar anunciantes sobre o andamento de suas campanhas após o lançamento.

Esse conselho pode ter base demográfica para aumento da audiência. Segundo Burke, isso leva a melhores resultados, às vezes até mesmo dobrando as taxas de respostas esperadas.

A indicação dos dados não foca apenas em quem está visualizando o anúncio, mas também quando tempo fica ali, qual a taxa de cliques e o que fazem no site após a visualização. Essa é uma resposta valiosa para anunciantes, e permite rápida tomada de decisões e planejamento futuro de estratégias.

Além disso, há também o desenvolvimento de um conjunto de código open source chamado Cocktails, que dá aos anunciantes as ferramentas para extraírem informações no sistema Hadoop do Yahoo. O código é escrito em JavaScript, então pode ser executando em uma janela de navegador; Manhattan é pelo lado do servidor e Mojito pelo cliente. Essencialmente, Burke explicou, cada Cocktail pode ser executado em um programa, em um servidor ou em um laptop de usuário final, para buscar informação que o anunciante procura.

Os Cocktails funcionam com um serviço Yahoo, o Advertiser Insights, para achar informação. O sistema funciona em um stack Hadoop-Oracle-Pentaho Mondrian (código open source para construir cubos de múltipla visualização).

O Haddop também é usado para análise interna de informação capturada de interações de usuários. Armazena 140 petabytes. Já que o recurso mantém todos os dados triplicados, mas de 400 petabytes de armazenamento são necessários.

Segundo Burke, o uso do Hadoop pela empresa começou quando ele ainda era um sistema rudimentar. O Yahoo o desenvolveu, o tornou código open source, e ao mesmo tempo apostou em desenvolver um modelo de negócio para monetização de conteúdo.

O vice-presidente sênior de propaganda está confiante que o sucesso das duas empresas levará sua companhia para o topo de várias iniciativas de negócios. O Yahoo está se tornando especialista em capitalização na ?grande mudança de modelo de análise off-line para algo mais próximo de um modelo preditivo: tenha a oferta certa para o cliente no momento correto?.

Para alcançar esse objetivo, a empresa precisa implementar ?a ciência em escala?, ou investir em um sistema open source que parece ter grande potencial, que ainda não foi comprovado. ?Apostamos nosso negócio nessa plataforma em escala global. Não há volta?, finalizou Burke.

Tradução: Alba Milena, especial para o IT Web | Revisão: Thaís Sabatini

Saiba mais:

VMware lança projeto open source para levar Hadoop a ambientes virtuais

Microsoft lança SQL Server 2012 no Brasil, mas sem Hadoop completo

Hadoop e análises de dados

Vídeos ?Big Ideas? : Desmistificando clusters e Hadoop

 

 

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.