Big Data encontra BI: além da moda

Author Photo
12:00 am - 04 de fevereiro de 2014
Big Data encontra BI: além da moda

Big Data foi a grande novidade da Strata Conference, realizada na última semana em Nova York (EUA). Fui atraída ao evento tanto pelos fabricantes que normalmente cubro, como SAP, SAS e Tableau, quanto pelas startups de análises de grandes dados, como Datameer e Karmasphere.

Há muito falatório sobre o tema, mas também há muita inovação, benefícios tangíveis e capital de risco apoiando essa novidade. E, pela perspectiva do mundo já estabelecido de business intelligence, este é o momento em que Big Data se encontra com BI.

Em primeiro lugar, Big Data é mais do que Hadoop, o sistema de arquivo distribuído em código aberto capaz de escalonar para lidar com petabytes de dados. Escalabilidade não é o único atrativo do Hadoop; ele também pode lidar com dados de multiestruturas, como clickstreams, tweets, vídeos, comentários do Facebook e mais. É um desafio ter esses conteúdos como modelo e armazená-los em um banco relacional tradicional. Na primeira vez que sugeri a outro participante que Big Data era mais do que Hadoop, ele me avisou que tal comentário poderia ser considerado blasfêmia durante o Strata.

No mundo tradicional de BI, tecnologias como ferramentas analíticas, banco de dados colunar e mecanismos in-memory também podem lidar com grandes dados. Tudo depende se o desafio é questão de volume ou desempenho, variedade ou complexidade ou outras combinações.

Isso me leva ao primeiro grande anúncio do evento: o Impala, da Cloudera, um novo mecanismo de pesquisa em tempo real para Hadoop. A Cloudera é a principal fornecedora de software e suporte Hadoop; competindo, entre outros, com Hortonworks e MapR.

No ano passado, muitos fornecedores de BI anunciaram suporte ao Hadoop. O acesso pelo ferramental passou pelo Hive, um warehouse virtual de dados para Hadoop que tem sua própria linguagem de pesquisa, o HiveQL. O problema é que HiveQL gera tarefas MapReduce para chegar aos dados em Hadoop. O MapReduce é orientado a grupo e possui desempenho lento, em contraste ao BI, que deve ser rápido. Mas, como estamos falando de petabytes, pedir um pouco de paciência é cabível.

O Impala, diferentemente do Hive, é em tempo real. Com a Cloudera liderando o desenvolvimento do Impala por quase dois anos, os early adopters se perguntavam se a tecnologia seria mantida proprietária, porém, a empresa decidiu liberá-la para a comunidade de código aberto. Os primeiros fornecedores de BI a oferecerem suporte ao Impala foram MicroStrategy, Tableau, Pentaho e QlikView. Pentaho citou aprimoramento de dez veses no desempenho de pesquisa usando o Impala em vez do Hive, mas reconheceu que ainda não é tão rápido quanto os usuários estão acostumados no mundo de BI.

Vencend a impaciência

Então, o que resta ao impaciente usuário de BI? É aqui que entra o resto da arquitetura de Big Data. Pesquisar enormes volumes de dados granulados no Hadoop via Hive pode ser lento, portanto, quando uma exploração inicial é feita, os fabricantes de BI armazenam os resultados em cache na tecnologia para garantir análise em alta velocidade. É aqui que soluções como Hana, da SAP; Olap Services, da MicroStrategy (para in-memory); servidor LASR, da SAS; o Data Engine, da Tableau; ou o mecanismo in-memory da QlikView entram no jogo. A fornecedora startup SiSense também estava no Strata, mostrando sua combinação de mecanismos in-memory e colunar, explorando 1 terabyte de dados em um laptop simples com apenas 8 gigabyte de RAM.

Com o Hadoop ganhando tração, diversos outros novos fornecedores de visualização e exploração de dados surgem para atender este framework. Não é isso o que os fabricantes de BI com conectores Hadoop fazem? Sim, mas eles também podem acessar dados em um warehouse, em uma ferramenta analítica ou planilha. O Hadoop pode ou não ser parte do quadro geral.

Novos fornecedores

Quanto aos novos fornecedores orientados a Big Data, como Datameer, Karmasphere e Platfora, o Hadoop é, definitivamente, parte do quadro geral – e pode ser todo o quadro. A Datameer, por exemplo, gera suas próprias tarefas MapReduce (sem depender do Hive) e fornece mais de 40 conectores para fontes como Salesforce, Twitter e Google Ads, que permitem carregar dados para o Hadoop. Os dados iniciais são explorados em uma interface em estilo planilha e então armazenados em cache no mecanismo in-memory da Datameer. A Datameer anunciou um novo app Market, com 30 aplicativos iniciais gratuitos. A Karmasphere tem uma abordagem diferente, focada no acesso de dados e geração de pesquisa pelo Hive, e em parceria com a Tableau para visualização.

A Platfora, atualmente em versão beta, tem um front end atraente que me lembra o novo Visual Insight, da MicroStrategy, que pesquisa o Hadoop por tarefas de MapReduce, para criar o que chama de lentes. As lentes são cache in-memory de conjuntos de dados que o usuário pode explorar visualmente.

Foi um alívio ver essa mistura de cientistas de dados e tecnólogos no Strata. As duas áreas parecem reconhecer que a exploração de dados, em conjunto com a escassez de talento nesse espaço, está criando a tempestade perfeita, e só os mais inteligentes poderão sobreviver.

A sobrevivência dos mais inteligentes tem sido o tema predominante durante a recessão. Algumas empresas ainda sofrem para analisar vendas e quem está comprando o quê. Na economia do Big Data, as análises se estendem a quem está interessado em seus produtos, quem influencia as decisões de compra e quem não está engajado, mas deveria estar!

Tags:

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.