Big Data: Como administrar a sobrecarga de dados
<p>Exigências complexas e demandas implacáveis por capacidade fustigam administradores de armazenamento. Aqui estão alguns conselhos de especialistas em relação à administração e ao armazenamento da avalanche de dados</p>

Antes isso ocorria apenas com
cientistas, gigantes da internet e das mídias sociais como Amazon,
Twitter, Facebook e Shutterfly. Mas, agora, cada vez mais empresas de todos os portes e setores estão interessadas em ganhar uma vantagem competitiva ao explorar o Biga Data na esperança de desenterrar qualquer informação valiosa escondida na montanha de dados. Companhias como a Walmart, a Campbell Soup, a Pfizer, a Merck
e a rede de lojas de conveniência Wawa têm grandes planos para Big Data.
Alguns estão se aventurando na
análise para atender mais rapidamente aos clientes, acompanhar
melhor o histórico de informações desses clientes ou apresentar novos produtos ao
mercado de forma mais rápida.
“Qualquer negócio nessa Era da Internet,
se você não fizer, seus concorrentes farão”, diz Ashish Nadkarni, um analista
de armazenamento da IDC.
Organizações de todos os tamanhos
estão sendo inundadas por dados, de fontes tanto internas quanto externas.
Grande parte desses dados está sendo transmitida em tempo real – e grande parte
dela é tornada obsoleta em poucos minutos, horas ou em alguns dias.
As
necessidades de armazenamento resultante são especialmente problemáticas para grandes
empresas onde a quantidade de dados estruturados e não estruturados cresceu em média 44% de 2010 a 2011, de acordo com o
Aberdeen Group. Em empresas de todos os
tamanhos, as necessidades de armazenamento de dados estão duplicando a cada
dois anos e meio. Além disso, diferentes ferramentas são necessárias para
otimizar o armazenamento de vídeo, planilhas, bancos de dados formatados e
dados completamente não estruturados.
“O desafio é tentar impedir que suas
despesas com armazenamento alinhem-se com suas crescentes necessidades de
armazenamento”, diz Dick Csaplar, analista de virtualização e armazenamento
do Aberdeen Group. As tecnologias que podem ajudar usuários de Big Data a evitarem esse destino incluem a virtualização de armazenamento,
a deduplicação e o armazenamento em camadas. O armazenamento de bancos de dados
relacionais e orientado a objeto são as melhores opções para grandes usuários
como cientistas, sites de mídia social e desenvolvedores.
Mas os componentes básicos dos
sistemas criados para hospedar petabytes de dados (ou mais) em um
formato facilmente acessível são mais complexos do que o funcionamento interno
das plataformas de armazenamento mais rotineiras.
Aqui estão alguns conselhos de
especialistas em relação à administração e armazenamento de Big Data.
Que tipo de dados você está analisando?
O tipo de armazenamento necessário
depende do tipo e da quantidade de dados que você está analisando. Todos os
dados têm uma vida útil. Uma cotação de ação, por exemplo, só é relevante por
um minuto ou dois antes de seu preço mudar. A pontuação de um jogo de baseball
é solicitada por cerca de 24 horas, ou até o próximo jogo. Dados deste tipo
precisam permanecer no armazenamento primário enquanto sua procura é grande e
podem, depois, serem movidos para um armazenamento mais barato. Uma olhada nas
tendências ao longo de vários anos reforça a ideia de que dados armazenados por
longos períodos normalmente não precisam estar em dispositivos primários
facilmente acessíveis.
Que quantidade de armazenamento você realmente precisa?
A quantidade e o tipo de
armazenamento que você precisa para o Big Data dependem da quantidade de
dados que você precisa armazenar e do tempo que esses dados serão úteis.
Existem três tipos de dados
envolvidos na análise de grandes dados, conta Nadkarni. “Podem ser dados de
transmissão de várias fontes que são enviados a você literalmente a cada
segundo, e você só dispõe de alguns minutos antes que esses dados tornem-se
velhos”, conta ele. Este tipo de dado inclui atualizações sobre o clima,
tráfego, assuntos mais falados em redes sociais e tweets sobre eventos ao redor
do mundo.
Mas o Biga Data pode incluir também dados em repouso ou dados gerados e controlados
pelo negócio para utilização moderada. Transmitir dados exige apenas capacidades
de captura e análise de alto desempenho, conta Nadkarni. “Uma vez que você fez
sua análise, você não precisa mais deles”. Mas no caso de dados em repouso ou para
dados controlados pelos negócios, “cabe a você armazená-los”, conta ele.
Que tipo de ferramenta de armazenamento funciona melhor?
Para empresas que estão apenas
começando a luta com a análise e armazenamento de Biga Data, os
observadores da indústria defendem a virtualização do armazenamento para acomodar
todo o armazenamento em um só lugar, a deduplicação para comprimir os dados e
uma abordagem de armazenamento em camadas para garantir que os dados mais
valiosos sejam mantidos nos sistemas, mais facilmente acessíveis.
A
virtualização do armazenamento oferece uma camada de abstração de software que tira
os dispositivos físicos da vista do usuário e permite que todos os dispositivos
sejam administrados como um único agrupamento. Embora a virtualização de
servidores seja um componente bem estabelecido das infraestruturas de TI hoje em dia, a virtualização do armazenamento ainda precisa chegar a tal nível.
Em pesquisa realizada em
fevereiro de 2012 pelo Aberdeen Group, com participação de 106 grandes empresas,
apenas 20% dos entrevistados disseram possuir um aplicativo único para gestão
de armazenamento. A média era de três aplicativos de gestão para 3,2
dispositivos de armazenamento.
Contudo, muitos fornecedores de
armazenamento relutam em deixar que seus dispositivos sejam administrados pelo
produto de outro fornecedor. “A virtualização de armazenamento é “muito mais
complexa [e] mais demorada, por isso ela ainda não deslanchou como a
virtualização de servidores”, conta Csaplar. Em vez disso, muitos
administradores de armazenamento estão voltando-se para implementações do tipo em
nuvem para armazenamento de terceira ou quarta camada para movimentar dados
mais facilmente por diferentes infraestruturas e reduzir os custos com
armazenamento. “Algumas empresas já fizeram isso e obtiveram bons resultados,
mas não é algo garantido”, adiciona ele.
Csaplar espera ver um aumento no uso de armazenamento baseado em nuvem e em outros recursos
computacionais baseados em nuvem em futuro próximo à medida que a conectividade
de rede melhora, os custos caem e a habilidade de codificar e decodificar dados
em tempo real melhora. “Com a nuvem você recebe uma conta mensal que é paga a
partir do orçamento operacional, e não um orçamento separado”, conta
ele.
Deduplicação e compressão
Administradores podem diminuir a
quantidade de armazenamento necessário por meio da utilização da deduplicação,
que elimina dados redundantes através da utilização de ferramentas de
compressão que identificam “strings” curtos e repetidos em arquivos
individuais e armazenam somente uma cópia de cada.
Até que ponto as necessidades de
armazenamento podem ser reduzidas? Na pesquisa do Aberdeen Group, 13% dos
entrevistados contaram que reduziram os dados em até 50%, mas um índice mais
provável para grande parte das empresas seria uma redução de 30% a 50% dos
dados estruturados altamente repetitivos, conta Csaplar.
Armazenamento em camadas
Depois que o negócio decide o tipo
de dado que quer analisar, os administradores de armazenamento podem colocar os
dados mais novos e mais importantes em meios de armazenamento mais confiáveis e
rápidos. À medida que os dados vão ficando obsoletos, podem ser movidos para um
armazenamento mais lento e barato. Sistemas que automatizam o processo de armazenamento
em camadas estão ganhando espaço, mas ainda não são amplamente utilizados.
Ao desenvolver níveis de
armazenamento, os administradores devem considerar a tecnologia de
armazenamento usada, a velocidade do dispositivo e a forma de RAID necessária para
proteger os dados.
A resposta padrão para o “failover”
é a replicação, normalmente na forma de matrizes RAID. Mas em grandes escalas,
o RAID pode criar mais problemas do que soluções, conta Neil Day,
vice-presidente e CTO da Shutterfly, um site de fotos online que permite
que usuários armazenem um número ilimitado de imagens em sua resolução
original. Seu armazenamento excede os 30 petabytes de dados.
No esquema tradicional de
armazenamento de dados em RAID, cópias de cada dado são espelhadas e
armazenadas nos vários discos que compõem a matriz, garantindo sua integridade e
disponibilidade. Mas isso significa que um único dado armazenado e espelhado
(copiado) pode aumentar cinco vezes de tamanho, exigindo mais espaço para
armazenamento. À medida que o espaço nos discos utilizados nas matrizes de RAID
aumenta – discos de 3 terabytes são muito atraentes do ponto de vista de
densidade e consumo de energia – o tempo gasto para recolocar o substituto de um
disco avariado em paridade plena está cada vez maior.
A Shutterfly eventualmente adotou
uma tecnologia de código de exclusão, onde dados podem ser divididos em
pedaços, com cada pedaço sendo inútil se estiver só, e dispersados em
diferentes discos ou servidores. Os dados podem ser completamente remontados a
qualquer momento com uma fração dos pedaços, mesmo se vários pedaços tiverem
sido perdidos devido a falhas de dispositivo. Em outras palavras, você não
precisa criar várias cópias de dados; uma única instância pode garantir a
integridade e a disponibilidade dos dados. Como os códigos de exclusão são
baseados em software, a tecnologia pode ser utilizada com o hardware em
commodity, diminuindo ainda mais o custo de escala.
Um dos primeiros fornecedores de
software baseado em código de exclusão é a Cleversafe, que acrescentou
informações de localização para criar o que ela chama de código de dispersão,
permitindo que usuários armazenem pedaços de dados – ou fatias, como eles os
denominam – em lugares geograficamente separados, como centros de dados
múltiplos.
Megausuários de Big Data
Assim como a Shutterfly, empresas
com grandes necessidades na área de armazenamento devem olhar além do
armazenamento em blocos, conta Nadkarni. “Quando você está falando sobre imensos
conjuntos de dados, na casa dos petabytes, você precisa buscar os armazenamentos
baseados em objeto ou um sistema de arquivos distribuídos”, conta ele. “Pense
sobre [ofertas comercialmente disponíveis como] o armazenamento de expansão Isilon,
da EMC, ou o Fluid File System, da Dell… e nas
soluções de código aberto, também. Elas são muito mais baratas para armazenar
dados e, de um ponto de vista de desempenho, podem lhe oferecer uma relação
preço/desempenho muito melhor. E, por último, elas são escaláveis”.
Usuários de softwares comerciais
muitas vezes têm dados que são parcialmente descartáveis ou requerem muito
pouco pós-processamento, adiciona ele.
Menos administradores necessários
Quando implantados corretamente, a
virtualização de armazenamento, a deduplicação, o armazenamento em camadas e as
tecnologias de código de exclusão devem reduzir sua necessidade de
administradores, pois as ferramentas possibilitam a gestão de dados através de uma
única tela. No caso da Shutterfly, a infraestrutura de armazenamento automático
permitiu que a empresa diminuísse o crescimento de sua equipe de manutenção. À
medida que a carga diária de trabalho de manutenção da empresa diminui, os
administradores podem passar mais tempo em projetos proativos.
Em alguns casos, projetos de Big Data são realizados por equipes especiais, e não por funcionários de TI
tradicionais, conta Nadkarni. “Eles são operados por, e de propriedade de,
unidades de negócio, pois a infraestrutura de TI não é ágil o suficiente para
suportar ambientes de Big Data ou ela pode não ter o conjunto de
habilidades necessário para isso”.
“Você pode vir a ter uma situação na
qual os administradores de armazenamento não estejam envolvidos”, adiciona ele.
“Ou eles podem apenas ter um pequeno papel onde forneçam armazenamento e o
resto seja feito pelo grupo dos sistemas”.
Em breve
Uma tendência que Nadkarni prevê que
vá fazer sucesso é o conceito de mover a camada de cálculo para os dados. “Você
olha para as soluções da Cleversafe e para as soluções de outros fornecedores
de armazenamento que estão desenvolvendo capacidades de cálculo na camada de
armazenamento”, conta ele. “Não é mais viável mover dados para onde a camada de
cálculo fica. É praticamente impossível, especialmente se você tem apenas
alguns minutos para analisar os dados antes deles tornarem-se banais. Então,
por que eu não deixo a camada de cálculo ficar onde os dados ficam?”.
A Cleversafe oferece uma solução de
alto desempenho baseada no Hadoop para grandes usuários de grandes dados como a
Shutterfly, “mas eles estão tentando torná-la mais abrangente”, conta Nadkarni.
“A Cleversafe quebra o modelo de aquisição [de poder computacional] de um
fornecedor e de armazenamento de aplicativos de outro fornecedor”. Para serem
bem-sucedidas junto às grandes empresas “as unidades de negócio terão de
começar a pensar de forma diferente. Estou confiante de que essa solução logo
deslanchará, pois as eficiências no modelo atual simplesmente não são
favoráveis para Big Data”.
Ele acrescenta que “Big Data é uma forma das pessoas manterem sua vantagem competitiva. A fim de tirar o máximo
proveito de seus dados, elas terão de modificar processos e a forma como
funcionam como empresa – elas terão de ser muito ágeis para derivar valor desses
dados”.
Mas antes de mergulhar em uma nova
infraestrutura de armazenamento de Big Data “as pessoas precisam fazer seu
dever de casa”, conta Csaplar. “Pesquise e fale com pessoas que já passaram por
isso. Não é como se fosse uma tecnologia de ponta que ninguém utilizou, portanto,
converse com alguém que já a utilizou para não cometer os mesmos erros que eles
cometeram”.
O Hadoop não é mais a única opção
O conceito de “Big Data”
cresceu. O termo já foi aplicável a dados complexos que precisavam ser
disponibilizados instantaneamente para consultas altamente repetitivas de
usuários frequentes como cientistas e sites de mídia social. Hoje ele inclui a profusão
de petabytes de dados estruturados e não estruturados que a maioria das
empresas deve armazenar.
Embora os sistemas de código livre
Hadoop e Cassandra sejam as melhores opções para Big Data para os trituradores
de dados mais vorazes, alguns fornecedores comerciais estão melhorando seus
sistemas de armazenamento para lidar com múltiplos petabytes de dados e
oferecer formas rápidas e simples de analisá-los.
“Big Data costumava ser uma
ferramenta que apenas as maiores empresas eram capazes de utilizar, mas agora é
difícil encontrar alguém que não esteja utilizando algo para obter conhecimento
a partir dos dados”, conta Ed Walsh, vice-presidente de estratégia de marketing
para produtos de armazenamento da IBM. Para fazer isso “é melhor você ter um
armazenamento eficiente, ou o custo pode lhe trazer prejuízos”, conta ele.
“Você também precisará extrair um desempenho decente desses aplicativos, que
são muito dinâmicos. E é melhor você poder fazer o backup disso”.
De sua parte, há vários anos a IBM tem
desenvolvido um portfólio de produtos e tecnologias de armazenamento e análises
de alto desempenho, incluindo o Hadoop. Mas, em junho, ela anunciou uma
“abordagem formal” em relação à forma como comercializa seus produtos de armazenamento
e análise, chamada de IBM Smarter Storage.
A empresa também anunciou seus primeiros produtos a incorporarem software da
Platform Computing, adquirida por ela no início desse ano – tudo com a intenção
de ajudar um conjunto mais abrangente de clientes executivos.
“Fizemos isso porque temos um
portfólio muito completo e, às vezes, ele pode ser muito complexo, então uma parte
disso é para ajudar as pessoas a terem uma visão mais holística”, conta Walsh.
“Isso ajuda as pessoas a entenderem o que estão tentando fazer”, com seus
dados.
