Categories: Notícias

SAS se ajusta a Hadoop com foco em Big Data

O SAS fez alguns anúncios em sua conferência anual do usuário em Las Vegas (EUA), na semana passada, mas nenhuma foi tão importante quanto a notícia do High-Performance Analytic (HPA) Server. O mais relevante é que o HPA funcionará com o Apache Hadoop, a plataforma de rápido crescimento de processamento Big Data.

Assine a Newsletter do IT Web

Siga o IT Web no Twitter

Curta, no Facebook, a Fan Page do IT Web

O servidor não é o que os clientes da empresa costumam usar, muito menos em conjunção com o Hadoop. Mas o HPA é o produto de ponta da empresa e crucial para seu futuro. Fazer com que ele seja executado em Hadoop é essencial para levar o vasto portfólio de capacidades analíticas do SAS para dentro do mundo dominado pelo Big Data open source, onde cientistas de dados escrevem seus próprios algoritmos ou adaptam o código aberto escrito na linguagem de programação R.

A empresa usa uma abordagem ágil de desenvolvimento com o HPA, então é possível expandir rapidamente suas capacidades e adaptá-las ao mundo de explosão de dados. ?Trabalhamos pareados com a comunidade aberta. Os grupos Hadoop e R fazem muitas mudanças, e temos que nos adaptar?, afirmou Tapan Patel, gerente de marketing de produtos do SAS.

O servidor já é executado no mundo relacional com o EMC Greenplum e Teradata. Ao usar o massively parallel processing (poder massivo de processamento, ou MPP) dessas plataformas para análise no database, os analistas podem economizar horas, senão dias, quando comparado a outros abordagens.

Outros fornecedores adotaram a abordagem dentro da base de dados (in-database), incluindo IBM e Oracle, bem como a EMC Greenplum e Teradata, e esses fornecedores trabalham com a SAS e seus rivais, incluindo Alpine Data Labs, Fuzzy Logix, Revolution Analytics para ampliar a análise de seus produtos.

O SAS foi um dos pioneiros no trabalho in-database, e com o HPA, já dá suporte de análise preditiva e mineração de dados em parceria com a EMC e Teradata. Com o último lançamento anunciado na semana passada (e agora lançado), as capacidades de mineração de texto, otimização e previsão foram adicionadas.

A mineração de texto faz sentido para informações text-rich como alegações de seguro, reivindicações de garantia, pesquisa de cliente ou à crescente enxurrada de comentários de clientes em redes sociais. A otimização ajuda os varejistas e fabricantes de bens de consumo, entre outros, com tarefas como fixação de preços para melhor equilíbrio de vendas com grande abrangência, mas ainda assim, com lucro. A previsão é usada por companhia de seguros, por exemplo, para estimar a exposição ou perdas no caso de um furacão ou inundação.

Em relação ao Hadoop, a última versão já é executada na plataforma, tecnicamente, mas é limitada a uma versão personalizada pelo SAS do software open source com base no Apache Hadoop v 1.0 (também conhecido como versão 0.20.20x). A empresa afirmou que o HPA será executado em distribuidores de grande escala do Hadoop, desde a Cloudera, com o lançamento que chegará em dezembro com base no Apache Hadoop v2.0 (também conhecido como versão 0.23).

Usando a atual versão de software Hadoop do SAS ou planejando usar o lançamento v2.0, o HPA fornece um interface gráfica de usuário (GUI) que permite que seja usado HDFS, MapReduce, Pig e Hive para aplicar análise SAS ao vasto conjunto de dados no Hadoop. Pig é uma ferramenta de programação open source Apache e linguagem para trabalhos escritos com MapReduce. Hive é a infraestrutura de armazenamento de dados embutida sobre o Hadoop que dá suporte à sumarização de dados, consulta e análise. Também dá suporte para geração de código, edição visual e verificação de sintaxe do Pig e MapReduce. Por fim, a transformação de dados SAS Data Integration Studio e a rotina de qualidade de dados SAS DataFluz, também foram atualizadas para o Hadoop.

A pergunta essencial é se os praticantes do Hadoop, que talvez estejam usando análise open source e criadas por eles mesmos, vão querer usar um produto comercial como o oferecido para dentro do que muitos visualizam como um novo paradigma da computação.

?Como empresa, estamos com a abordagem open source, então nosso conjunto de habilidades teve que mudar nos últimos três anos?, afirmou Phil Sheley, vice-presidente e diretor de tecnologia da Sears Holdings. O movimento começou com sistemas operacionais, indo em direção ao Linux, mas a mudança foi além das pilhas para o nível de análise e database. ?Nosso pessoal da estatística costumava usar apenas o SAS e outros produtos (comerciais), mas agora estamos ensinando-os a usarem o R no Hadoop?.

O custo com certeza será um fator de seleção de software e é o motivo das grandes empresas adotarem o Hadoop: elas tentam reter e usar todos seus dados e esperam economias sobre dados relacionais convencionais, quando escalonam sobre centenas de terabytes ou mais. A Sears, por exemplo, tem mais de 2 petabytes de dados à mão, e segundo Shelley, até implantarem o Hadoop, há dois anos, a empresa superou seus bancos de dados constantemente, e ainda não consegue armazenar tudo em uma plataforma.

O SAS não divulgou o custo de seu software ou discutiu onde os modelos de licenciamento irão mudar para adaptarem a open source e o mundo Big Data, mas a fornecedora claramente espera fazer mais na plataforma Hadoop. Um aplicativo SAS High-Performance Marketing Optimization anunciado na semana passada será executado no Hadoop com lançamento esperado para abril de 2013. No momento esse aplicativo, que é incorporado no HPA Server, é executado no EMC Greenplum e Teradata.

O High-Performance Marketing Optimization é projetado para acelerar campanhas de análise de marketing quando empresas lidam com centenas de campanhas e milhões ou mesmo bilhões de registros de clientes. Nessa escala, pode-se levar de oito a 12 horas ou mais para executar otimizações ? mesmo para identificar a maioria das ofertas de sucesso de marketing ou a audiência alvo com maior resposta ? mas executá-los em EMC Greenplum ou Teradata, é muito mais rápido, levando apenas alguns minutos.

Analisando os anúncios da SAS é possível perceber dois padrões claros. Um é a entrega de stream de atualizações para clientes que usam s ferramentas convencionais e abordagens comprovadas para análise em escala que não atinge o Big Data. A segunda, no que concerne à explosão de dados e computação de alto desempenho, a empresa está reconhecendo que as velhas ferramentas e as datas de entrega de produtos não irão ficar de acordo com essa nova classe de clientes.

Tradução: Alba Milena, especial para o IT Web | Revisão: Adriele Marchesini

Saiba mais:

Big Data: entenda o que é o Hadoop e como ele afeta o Data Warehouse

Com big data, surgem dois perfis de profissionais de Data Warehouse

Computação em memória: Hana comprime dados em até 20 vezes

Big Data: computadores ficam mais rápidos e empresas, mais burras

Até 2020, volume do Big Data aumentará 44 vezes

Next Surface RT custará o mesmo que iPad: a partir de US$ 499 »

Previous « Além do BYOD: empresas desenvolvem aplicativos em busca de lucratividade

Published by

Editorial IT Forum 365

14 anos ago

Sem equipes preparadas, IA não entrega transformação

A adoção de inteligência artificial (IA) nas empresas não depende apenas da disponibilidade de ferramentas.…

2 horas ago

Notícias

Cohesity obtém patente para aplicar IA diretamente em dados de backup corporativos

A Cohesity anunciou a concessão da Patente Nº 12.619.501 pelo Escritório de Patentes e Marcas…

21 horas ago

Notícias

Para Diogo Cortiz, maior desafio da IA é a falta de capacidade crítica para questionar suas respostas

Diogo Cortiz, professor da PUC-SP e doutor em Tecnologias da Inteligência e Design Digital, tem…

23 horas ago

Notícias

Agentes de IA vão dar “superpoderes” a profissionais de TI, diz DJ Sampath, da Cisco

DJ Sampath chegou aos Estados Unidos há 30 anos com oito dólares no bolso e…

23 horas ago

Inteligência Artificial

Chatbots de bancos e fintechs não entendem as emoções dos clientes, aponta estudo

A evolução da inteligência artificial nos serviços financeiros ainda esbarra em desafios relacionados à experiência…

23 horas ago

Notícias

Motorola Solutions compra D-Fend por US$ 1,5 bilhão

A Motorola Solutions anunciou a assinatura de um acordo definitivo para adquirir a D-Fend Solutions,…

24 horas ago

SAS se ajusta a Hadoop com foco em Big Data

Related Post

Recent Posts

Sem equipes preparadas, IA não entrega transformação

Cohesity obtém patente para aplicar IA diretamente em dados de backup corporativos

Para Diogo Cortiz, maior desafio da IA é a falta de capacidade crítica para questionar suas respostas

Agentes de IA vão dar “superpoderes” a profissionais de TI, diz DJ Sampath, da Cisco

Chatbots de bancos e fintechs não entendem as emoções dos clientes, aponta estudo

Motorola Solutions compra D-Fend por US$ 1,5 bilhão