Gartner vê Hadoop em apuros. Mas será que o cenário é esse mesmo?

Maioria das empresas só tem muitas novas fontes de dados não estruturados e gostaria de uma visão agregada ou melhor visualização disso

Author Photo
3:57 pm - 21 de setembro de 2015
olho_big_data_625.jpg

Em maio, o Gartner divulgou uma pesquisa destruindo toda a indústria do Hadoop. Dos 284 CIOs consultados pela consultoria, apenas 26 por cento afirmarm estar usando, experimentando em fase piloto ou querendo implantar Hadoop. Mesmo com uma amostra de tamanho reduzido e grande margem de erro, foram números deprimentes – que contradiziam o nível de adoção que pessoas como eu estão vendo no mundo real.

Bem, o Gartner já errou antes. Apresentados hoje, os resultados de uma nova pesquisa encomendada pela AtScal, ouvindo mais de 2,1 mil pessoas, são bem mais próximos daqueles que encontramos em campo: 76 por cento dos entrevistados disseram que planejam usar Hadoop – ou já estão usando e planejam usá-lo mais.

Naturalmente, os números da pesquisa da AtScale precisam ser vistos com uma certa reserva: a AtScale é provedora de soluções de Hadoop e a pesquisa foi realizada em seu nome. Mas ao menos informalmente, posso garantir que os resultados pintam um quadro bem mais próximo da realidade, do que aquele quadro de tristeza e melancolia do Gartner.

A pesquisa da AtScale indica que a killer app do Hadoop é a inteligência empresarial – 69 por cento dos que planejam usar o Hadoop e 65 por cento das pessoas já usam, citam essa como a maior finalidade da implementação.

A maioria das empresas não tem “Big Data” – só muitas novas fontes de dados não estruturados ou semi-estruturados – e gostaria de ter uma visão agregada ou de usar uma ferramenta de visualização. Na verdade, de acordo com o estudo, a maioria quer ter uma visão dos dados usando Tableau ou Excel. Se já estão usando Hadoop, provavelmente estão trabalhando com Tableau também (51 por cento) . Se não, estão usando Excel (60 por cento).

É exatamente o que vejo em campo. Empresas construindo lagoas de dados (ou hubs de dados, se você preferir). Novos sistemas baseados em Hadoop geralmente não substituem Teradata ou Netezza. Em vez disso, os clientes ou desejam aumentar o seu MPP existente para lidar com novos tipos de dados ou não estão uisando MPP. Na verdade, o que vejo é que as empresas não conseguem dimensionar MPP da forma esperada – e descobrem que podem empurrar Hadoop em hardware (ou na Amazon) e adicionar mais nós à medida que crescem.

De acordo com o estudo, o menor custo das soluções Hadoop não é a o principal fator de adoção para a maioria das empresas.

Self-service é o objetivo

A maioria das empresas quer alcançar um nível de auto-serviço no uso do Hadoop. De acordo com o estudo, as empresas que atingiram um valor de negócio significativo já alcançaram algum nível de auto-serviço.

Mas self-service tem múltiplos significados. Por um lado, você precisa de menos pessoas envolvidas na gestão do Hadoop. Por outro lado, você precisa de uma quantidade de dados suficiente na lagoa para alimentar cada novo relatório ou dashboard. Você também precisa de diferentes pontos de vista e de uma estrutura geral em torno deles para se certificar que um mero mortal pode consultá-lo com SQL. Sim, a principal forma das pessoas praticarem auto-serviço é com ferramentas SQL.

De acordo com o estudo, a maioria das pessoas não tem optado pelo auto-serviço e, portanto, não tem alcançado o valor tangível que procuram.

A pequisa tamném comprova que anêmicos clusters de 10 nós não são eficientes. Qualquer coisa menor que 12nós levará o usuário a ter uma versão realmente mais lenta do que se estivesse usando um SQL Server. De acordo com o estudo, as pessoas que têm grandes aglomerados de dados têm conseguido gerar mais valor. Isto não é chocante. Já disse algumas vezes que Hive é lento, mas se adapta bem, e o mesmo pode ser dito de outras tecnologias Hadoop. Se você tiver um cluster de 10 nós, ele provavelmente é pouco funcional.

Além, disso, se a geração de receita (14 por cento) ou os ganhos de escala (37 por cento) são os seus principais impulsionadores de negócios, e não custo, então escala passa a ser fundamental.

outro dado relevante: se você conta com apoio das mais altas instâncias, você tem 20 por cento mais chances de conseguir obter valor. Na minha experiência, ter um mandato executivo geralmente resulta em um cluster maior.

Quem usa?

De acordo com o estudo da AtScale, o varejo não integra a curta lista de indústrias que usam o Hadoop, apesar de produzir muitas histórias de sucesso precoce. Fábricas, consultorias, empresas de telecomunicações, de serviços financeiros e da saúde sim. Na minha opinião, as oportunidades estão crescendo mais rápido entre os financeiros e de saúde.

É de se esperar usuários relativamente maduros em Hadoop no setor financeiro, mas isso é uma verdade até à página dois.

Falta mão de obra

A lacuna de talentos é um ponto preocupante. Se o Gartner estava certo sobre a estagnação do Hadoop, não deveria ser um problema tão grande para encontrar profissionais com habilidades Hadoop. Mas recrutar pessoas experientes em Hadoop não é fácil, e uma vez que você vai treiná-los, você tem que pagá-los bem e mantê-los engajados.

De acordo com levantamento do AtScale, 61 por cento dos entrevistados visualizam a contratação e retenção de talentos como os maiores desafios para a adoção.

A AtScale planeja fazer uma pesquisa de acompanhamento. Espero ver uma visão mais profunda de empresas que nunca compraram Teradata e Netezza, como de empresas que estão usando Spark, e que estão comprando hardware para Hadoop.

Enquanto isso, eu adoraria ouvir de outras pessoas da comunidade Hadoop sobre os níveis de adoção, desafios e oportunidades daqui para frente. Deixe as suas impressões aí nos comentários.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.