Big Data: Por que toda essa confusão?

Big data pode ser explorado, mesmo se você não for uma grande empresa, graças ao poder de computação e armazenamento barato, além de novas tecnologias baseadas em nuvem.
Tudo que é velho ficará novo outra vez. Eu já ouvi esse ditado muitas vezes, mas só recentemente percebi o que realmente isso significa: a velha coisa não é nova outra vez, é apenas tecnicamente viável agora.
Adote big data, o qual não é um conceito novo. Empresas têm lidado com grandes conjuntos de dados por um longo tempo, quase desde a invenção do computador. O que mudou é a maneira como lidamos com esses dados.
Tudo começou com a ascensão da computação e do armazenamento a um baixo custo. Tornou-se possível armazenar grandes quantidades de dados e, em seguida, dividir cargas de trabalho. Podemos armazenar e medir mais como um resultado dos avanços tecnológicos, as pessoas estão coletando mais dados do que nunca.
O próximo salto no conceito de big data veio com a computação em nuvem. Agora podemos convocar centenas ou milhares de computadores virtuais com apenas um único comando e, em seguida, retornar os computadores para o pool de recursos.
Então, o que é big data e por que se tornou tão popular agora? A definição que eu gosto: Big data refere-se às ferramentas e processos de gestão e utilização de grandes conjuntos de dados. Desde que eu sou um grande defensor de nuvens públicas, a minha definição também inclui o uso de virtualização. Agora que estamos finalmente em condições de armazenar e processar acessível petabytes de dados, big datag é algo acessível a todos, não apenas as maiores empresas.
Google é um mestre de big data. O diretor da companhia de pesquisa, Peter Norvig, aponta que um algoritmo simples aplicado a um grande conjunto de dados pode ser muito mais útil do que um algoritmo complexo em um conjunto de dados de pequeno porte. Um exemplo é como o Google pode prever surtos de gripe antes do Centro de Controle de Doenças. Usando termos de pesquisa, ele pode encontrar quando muitas pessoas em uma cidade estão à procura de remédios contra a gripe ou termos relacionados aos sintomas da gripe. Utilizando seus vastos recursos de computação, o Google pode digitalizar todos os termos de busca em tempo real, basta contar as ocorrências do indicador de palavras e depois armazenar a localização das pesquisas.
Mas você não precisa ser o Google para usar big data. A sua empresa coleta informações sobre seus clientes? Poderia estar coletando mais, especialmente com a expansão da computação móvel via smartphones? Com o armazenamento e computadores a baixo custo, sua empresa pode coletar o tipo de dados de clientes Amazon.com para mudar a face do varejo.
Com qualquer discussão sobre o big data, NoSQL não fica muito atrás. Fundamentalmente, é a ideia de armazenar dados de forma não relacional, sem esquemas. Uma grande vantagem do NoSQL é que ele permite consumirmos múltiplas fontes de dados, assim não dependeremos de um padrão particular para dados em conformidade.
Se você está trabalhando com grandes conjuntos de dados (ou mesmo pequenos conjuntos), você está familiarizado com dados estruturados que são acessados com alguma forma de SQL. SQL é realmente bom para responder a perguntas específicas, como: “Quanto é que pagamos para todas as pessoas em nossa empresa que tem o nome de Jason e uma esposa chamada Laura?” Para responder a essa pergunta, precisamos ter uma tabela com colunas compostas pelo primeiro nome dos empregados, salários e nomes de cônjuge. Essa tabela deve ser definida antes de colocarmos todos os dados nela.
A definição dessa tabela é chamada de esquema, não significa que nós temos muito mais flexibilidade com o nosso armazenamento de dados. Teríamos que checar pelo menos duas vezes todos os dados – uma vez para encontrar todas as pessoas com o nome de Jason, em seguida, uma segunda passagem para encontrar as esposas chamadas Laura. No entanto, você poderia dividir este trabalho em vários computadores para acelerá-lo.
Com a crescente popularidade da computação virtualizada, especialmente nuvem pública, vem uma explosão de tecnologias de big data como MapReduce, Hadoop e Hive. MapReduce é um conceito popularizado pelo Google e implementado no open source Hadoop, é uma técnica que permite a divisão de cargas de trabalho em vários servidores. Hive traz de volta algumas das funcionalidades SQL que muitos estão acostumados.
Em última análise, big data abrange uma grande variedade de conceitos e tecnologias, mas no final isso realmente não importa. O que importa é o que você faz com seus dados. Fique ligado na minha próxima coluna sobre big data, onde falarei sobre as tecnologias com maior profundidade.
