Notícias

Entre os Vs do Big data, velocidade cresce em importância

O tema Big Data está na mídia e começando a se tornar realidade. Mas curiosamente, até pela inexatidão do nome, atenta-se muito ao fator volume. A capacidade de armazenar dados cresce rapidamente, ao mesmo tempo que seu custo cai. Mas uma variável importante é a velocidade com que, rápida e eficazmente, conseguimos acessar, analisar e tomar decisões baseadas nestas informações. A variável velocidade, ou a velocidade com que o fluxo de informações navega pela organização, é um dos principais Vs dos conceitos embutidos em Big Data.

Velocidade de acesso já é realidade em alguns setores, como financeiro, onde a vantagem competitiva na compra e venda de ações mede-se em microssegundos. Mas à medida que interagimos com as empresas de forma contínua, com nossos smartphones e tablets, elas começam a identificar a importância de interagir com seus clientes durante as próprias interações. Assim, um negócio de comércio eletrônico,  como o da Amazon, propõe recomendações baseadas nos seus padrões de compra no instante em que você está ativo no site. E bancos tentam identificar uma fraude no momento em que você está utilizando um cartão de crédito, em qualquer lugar do planeta.

Mas, vocês pararam para pensar no imenso volume de dados e demanda de processamento que está por trás destas operações? Identificar um padrão de compras ou uma tentativa de fraude envolve a análise de uma montanha de dados estruturados e não estruturados.

Com maior variedade de dados disponiveis, maiores as chances dos algoritmos conseguirem identificar padrões. Em Big Data, a análise, portanto, não se restringe apenas a volumes maiores, mas a um montante mais complexo (diversidade de dados) e a uma velocidade que atenda às necessidades do negócio. Um exemplo interessante é a empresa Dataminr que vasculha cerca de 500 milhões de tuites por dia para buscar informações que mexam com o mercado antes que cheguem ao noticiário. A Dataminr categoriza e analisa cada tuite em tempo real, separando o spam, e comparando a informação com outras fontes de noticias, preços de mercado, padrões climáticos e outros dados para determinar sua importância.

Este quesito, velocidade, tem sido o alvo de inúmeras pesquisas e projetos tecnológicos. Alguns exemplos são o Druid e o Drill. O Drill é a versão open source do Dremel, do Google. Vale a pena estudar um pouco mais a tecnologia Dremel, e para isso sugiro a leitura do texto http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/36632.pdf. Recomendo também olhar o Storm, usado pelo Twitter. É um sistema open source de baixa latência, com o conceito de “stream processing”. Esta modalidade de processamento é necessária quando a aplicação demanda resposta imediata ao dado que chega. Reparem como temos soluções de tecnologia de ponta em open source! Me parece que aos poucos, soluções proprietárias começam a dar lugar a soluções open source, à medida que estas amadurecem e criam um ecossistema consistente em torno de si.

Estas tecnologias complementam o onipresente Hadoop, que foi desenvolvido para operar em batch (tempo muito mais lento…) e provavelmente se consolidarão nos próximos anos. Por sua vez, distribuidores Hadoop, como a Cloudera, desenvolvem soluções que permitem fazer análises rápidas, em cima da massa de dados, sem necessidade de passar por processos batch. O Impala é um exemplo bem emblemático.

Mas temos aí um interessante fato. Ser rápido não significa ser tempo real. Na prática não existe tempo real, mas “quase tempo real”. Tempo real significa que você trata o dado no instante em que ele chega. Trata o dado no presente. Diferente de sistemas como o Drill e o Dremel que tratam dados já armazenados, embora em alta velocidade. O mesmo com o Dataminr, que trata tuites já postados. No dia a dia são poucos os casos de tempo real. Um algoritmo de recomendação como o da Amazon não precisa ser em tempo real. Ele precisa, sim, interagir com o cliente enquanto ele navega pelo site da empresa, o que pode levar alguns segundos ou minutos. Tempo real é necessário para um veículo autonômo como o carro sem motorista do Google, pois tem que tomar decisão no instante que a situação ocorre.

Planejar iniciativas de Big Data passa necessariamente em maior ou menor graus pelos vários Vs, como volume e variedade. Mas, o aspecto velocidade não pode e nem deve ser menosprezado.

Nem sempre o negócio poderá esperar decisões com espera de vários dias…Talvez precisemos analisar e decidir na hora em que o fato está acontecendo.

 

(*) Cezar Taurion é CEO da Litteris Consulting, autor de seis livros sobre Open Source, Inovação, Cloud Computing e Big Data

Recent Posts

Cohesity obtém patente para aplicar IA diretamente em dados de backup corporativos

A Cohesity anunciou a concessão da Patente Nº 12.619.501 pelo Escritório de Patentes e Marcas…

6 horas ago

Para Diogo Cortiz, maior desafio da IA é a falta de capacidade crítica para questionar suas respostas

Diogo Cortiz, professor da PUC-SP e doutor em Tecnologias da Inteligência e Design Digital, tem…

8 horas ago

Agentes de IA vão dar “superpoderes” a profissionais de TI, diz DJ Sampath, da Cisco

DJ Sampath chegou aos Estados Unidos há 30 anos com oito dólares no bolso e…

9 horas ago

Chatbots de bancos e fintechs não entendem as emoções dos clientes, aponta estudo

A evolução da inteligência artificial nos serviços financeiros ainda esbarra em desafios relacionados à experiência…

9 horas ago

Motorola Solutions compra D-Fend por US$ 1,5 bilhão

A Motorola Solutions anunciou a assinatura de um acordo definitivo para adquirir a D-Fend Solutions,…

9 horas ago

Meta amplia controle para adolescentes

Nesta terça-feira (2), a Meta anunciou a expansão global de configurações de conteúdo para contas…

13 horas ago