O SAS fez alguns anúncios em sua conferência anual do usuário em Las Vegas (EUA), na semana passada, mas nenhuma foi tão importante quanto a notícia do High-Performance Analytic (HPA) Server. O mais relevante é que o HPA funcionará com o Apache Hadoop, a plataforma de rápido crescimento de processamento Big Data.
Curta, no Facebook, a Fan Page do IT Web
O servidor não é o que os clientes da empresa costumam usar, muito menos em conjunção com o Hadoop. Mas o HPA é o produto de ponta da empresa e crucial para seu futuro. Fazer com que ele seja executado em Hadoop é essencial para levar o vasto portfólio de capacidades analíticas do SAS para dentro do mundo dominado pelo Big Data open source, onde cientistas de dados escrevem seus próprios algoritmos ou adaptam o código aberto escrito na linguagem de programação R.
A empresa usa uma abordagem ágil de desenvolvimento com o HPA, então é possível expandir rapidamente suas capacidades e adaptá-las ao mundo de explosão de dados. ?Trabalhamos pareados com a comunidade aberta. Os grupos Hadoop e R fazem muitas mudanças, e temos que nos adaptar?, afirmou Tapan Patel, gerente de marketing de produtos do SAS.
O servidor já é executado no mundo relacional com o EMC Greenplum e Teradata. Ao usar o massively parallel processing (poder massivo de processamento, ou MPP) dessas plataformas para análise no database, os analistas podem economizar horas, senão dias, quando comparado a outros abordagens.
Outros fornecedores adotaram a abordagem dentro da base de dados (in-database), incluindo IBM e Oracle, bem como a EMC Greenplum e Teradata, e esses fornecedores trabalham com a SAS e seus rivais, incluindo Alpine Data Labs, Fuzzy Logix, Revolution Analytics para ampliar a análise de seus produtos.
O SAS foi um dos pioneiros no trabalho in-database, e com o HPA, já dá suporte de análise preditiva e mineração de dados em parceria com a EMC e Teradata. Com o último lançamento anunciado na semana passada (e agora lançado), as capacidades de mineração de texto, otimização e previsão foram adicionadas.
A mineração de texto faz sentido para informações text-rich como alegações de seguro, reivindicações de garantia, pesquisa de cliente ou à crescente enxurrada de comentários de clientes em redes sociais. A otimização ajuda os varejistas e fabricantes de bens de consumo, entre outros, com tarefas como fixação de preços para melhor equilíbrio de vendas com grande abrangência, mas ainda assim, com lucro. A previsão é usada por companhia de seguros, por exemplo, para estimar a exposição ou perdas no caso de um furacão ou inundação.
Em relação ao Hadoop, a última versão já é executada na plataforma, tecnicamente, mas é limitada a uma versão personalizada pelo SAS do software open source com base no Apache Hadoop v 1.0 (também conhecido como versão 0.20.20x). A empresa afirmou que o HPA será executado em distribuidores de grande escala do Hadoop, desde a Cloudera, com o lançamento que chegará em dezembro com base no Apache Hadoop v2.0 (também conhecido como versão 0.23).
Usando a atual versão de software Hadoop do SAS ou planejando usar o lançamento v2.0, o HPA fornece um interface gráfica de usuário (GUI) que permite que seja usado HDFS, MapReduce, Pig e Hive para aplicar análise SAS ao vasto conjunto de dados no Hadoop. Pig é uma ferramenta de programação open source Apache e linguagem para trabalhos escritos com MapReduce. Hive é a infraestrutura de armazenamento de dados embutida sobre o Hadoop que dá suporte à sumarização de dados, consulta e análise. Também dá suporte para geração de código, edição visual e verificação de sintaxe do Pig e MapReduce. Por fim, a transformação de dados SAS Data Integration Studio e a rotina de qualidade de dados SAS DataFluz, também foram atualizadas para o Hadoop.
A pergunta essencial é se os praticantes do Hadoop, que talvez estejam usando análise open source e criadas por eles mesmos, vão querer usar um produto comercial como o oferecido para dentro do que muitos visualizam como um novo paradigma da computação.
?Como empresa, estamos com a abordagem open source, então nosso conjunto de habilidades teve que mudar nos últimos três anos?, afirmou Phil Sheley, vice-presidente e diretor de tecnologia da Sears Holdings. O movimento começou com sistemas operacionais, indo em direção ao Linux, mas a mudança foi além das pilhas para o nível de análise e database. ?Nosso pessoal da estatística costumava usar apenas o SAS e outros produtos (comerciais), mas agora estamos ensinando-os a usarem o R no Hadoop?.
O custo com certeza será um fator de seleção de software e é o motivo das grandes empresas adotarem o Hadoop: elas tentam reter e usar todos seus dados e esperam economias sobre dados relacionais convencionais, quando escalonam sobre centenas de terabytes ou mais. A Sears, por exemplo, tem mais de 2 petabytes de dados à mão, e segundo Shelley, até implantarem o Hadoop, há dois anos, a empresa superou seus bancos de dados constantemente, e ainda não consegue armazenar tudo em uma plataforma.
O SAS não divulgou o custo de seu software ou discutiu onde os modelos de licenciamento irão mudar para adaptarem a open source e o mundo Big Data, mas a fornecedora claramente espera fazer mais na plataforma Hadoop. Um aplicativo SAS High-Performance Marketing Optimization anunciado na semana passada será executado no Hadoop com lançamento esperado para abril de 2013. No momento esse aplicativo, que é incorporado no HPA Server, é executado no EMC Greenplum e Teradata.
O High-Performance Marketing Optimization é projetado para acelerar campanhas de análise de marketing quando empresas lidam com centenas de campanhas e milhões ou mesmo bilhões de registros de clientes. Nessa escala, pode-se levar de oito a 12 horas ou mais para executar otimizações ? mesmo para identificar a maioria das ofertas de sucesso de marketing ou a audiência alvo com maior resposta ? mas executá-los em EMC Greenplum ou Teradata, é muito mais rápido, levando apenas alguns minutos.
Analisando os anúncios da SAS é possível perceber dois padrões claros. Um é a entrega de stream de atualizações para clientes que usam s ferramentas convencionais e abordagens comprovadas para análise em escala que não atinge o Big Data. A segunda, no que concerne à explosão de dados e computação de alto desempenho, a empresa está reconhecendo que as velhas ferramentas e as datas de entrega de produtos não irão ficar de acordo com essa nova classe de clientes.
Tradução: Alba Milena, especial para o IT Web | Revisão: Adriele Marchesini
Saiba mais:
Big Data: entenda o que é o Hadoop e como ele afeta o Data Warehouse
Com big data, surgem dois perfis de profissionais de Data Warehouse
Computação em memória: Hana comprime dados em até 20 vezes
Big Data: computadores ficam mais rápidos e empresas, mais burras
Até 2020, volume do Big Data aumentará 44 vezes
A Unico, empresa brasileira especializada em identidade digital e biometria facial, ingressou com ações nas…
A Salesforce anunciou parceria com a FIFA como apoiadora oficial da Copa do Mundo de…
Neil Redding será o palestrante de abertura do IT Forum Praia do Forte 2026. Com…
Apesar da consolidação da computação em nuvem como um dos pilares da transformação digital, uma…
As equipes de segurança cibernética enfrentarão um cenário cada vez mais complexo nos próximos anos,…
Apenas uma em cada três pessoas dos Estados Unidos aprova o ritmo acelerado de construção…