A lista de desejos do Big Data

Estamos chegando ao ciclo hype do big data ou caminhando para o vale da desilusão?
Sua posição na curva do Gartner depende do progresso da sua própria empresa. Ela identificou quaisquer casos de uso para análise de big data? Novas plataformas estão em testes, como o Hadoop? Se você chegou até aqui, aposto que também desenvolveu uma lista de desejos de recursos big data ou de problemas que ainda estão para serem resolvidos. E essa lista de desejos pode ter dois focos: apenas armazenar um monte de informações inúteis ou desbloquear valiosos insights de negócios.
As técnicas discutidas aqui ? computação distribuída, processamento de fluxo, a aprendizagem de máquina, análise de gráficos ? prometem aumentar a análise de desempenho, viabilidade e acessibilidade. Com a computação distribuída e processamento de fluxo, as empresas estão tendo uma análise de trabalho que exige escala e velocidade sem precedentes ? como um banco avaliando cada bit de dados que tem sobre um cliente em uma fração de segundo para conseguir veicular anúncios mais relevantes em um site. Estamos vendo a aprendizagem de máquina levando a análises complexas. Por exemplo, o Memorial Sloan-Kettering Cancer Center está experimentando aprendizagem de máquina para monitorar continuamente a literatura médica e oferecer sugestões de tratamento do câncer para complementar as avaliações.
E nós estamos testemunhando o surgimento de tecnologias de código aberto, incluindo Apache Hadoop e R, que permitem que as empresas utilizem maior volume e variedade de dados e aplique em novas análises de negócios. A empresa de fundo mútuo American Century, por exemplo, está escrevendo seus próprios modelos R-based que utilizam técnicas de análise gráfica para mapear conexões entre as empresas ? como as conexões de estudos entre as pessoas feita no Facebook ? para melhorar as suas previsões de resultados financeiros.
Neste ponto, a lista de desejos para o mercado de análise de última geração é longa. A maioria das empresas ainda quer ver ferramentas e métodos analíticos comprovados, em vez de projetos beta-stage. Eles querem uma análise estilo SQL ou SQL fácil e familiar, e não capacidades limitadas, com desempenho longe de ser em tempo real. As pilhas de dados e a variedade de fontes às quais as empresas querem dar sentido continuam crescendo. Enquanto isso, startups especializadas em análise estão a tentando endereçar as lacunas de grandes plataformas de big data emergentes, como o Hadoop. Então, o que vemos se resume em mais outros recentes e promissores esforços para dar sentido aos dados.
Preenchendo as lacunas com Open Source
O Apache Hadoop, estrutura de processamento de dados distribuída que agora é sinônimo de big data, é amplamente aceito como uma plataforma para a construção de alta escala e aplicações de computação. O Hadoop permite que as organizações armazenem grandes volumes e variedades de dados rapidamente sem toda a gestão do trabalho exigido pelos bancos de dados relacionais. Ainda a serem aperfeiçoados, no entanto, esses são os melhores casos de uso e técnicas para a execução de análises em cima do Hadoop.
