Categories: Notícias

SAS se ajusta a Hadoop com foco em Big Data

O SAS fez alguns anúncios em sua conferência anual do usuário em Las Vegas (EUA), na semana passada, mas nenhuma foi tão importante quanto a notícia do High-Performance Analytic (HPA) Server. O mais relevante é que o HPA funcionará com o Apache Hadoop, a plataforma de rápido crescimento de processamento Big Data.

Assine a Newsletter do IT Web

Siga o IT Web no Twitter

Curta, no Facebook, a Fan Page do IT Web

O servidor não é o que os clientes da empresa costumam usar, muito menos em conjunção com o Hadoop. Mas o HPA é o produto de ponta da empresa e crucial para seu futuro. Fazer com que ele seja executado em Hadoop é essencial para levar o vasto portfólio de capacidades analíticas do SAS para dentro do mundo dominado pelo Big Data open source, onde cientistas de dados escrevem seus próprios algoritmos ou adaptam o código aberto escrito na linguagem de programação R.

A empresa usa uma abordagem ágil de desenvolvimento com o HPA, então é possível expandir rapidamente suas capacidades e adaptá-las ao mundo de explosão de dados. ?Trabalhamos pareados com a comunidade aberta. Os grupos Hadoop e R fazem muitas mudanças, e temos que nos adaptar?, afirmou Tapan Patel, gerente de marketing de produtos do SAS.

O servidor já é executado no mundo relacional com o EMC Greenplum e Teradata. Ao usar o massively parallel processing (poder massivo de processamento, ou MPP) dessas plataformas para análise no database, os analistas podem economizar horas, senão dias, quando comparado a outros abordagens.

Outros fornecedores adotaram a abordagem dentro da base de dados (in-database), incluindo IBM e Oracle, bem como a EMC Greenplum e Teradata, e esses fornecedores trabalham com a SAS e seus rivais, incluindo Alpine Data Labs, Fuzzy Logix, Revolution Analytics para ampliar a análise de seus produtos.

O SAS foi um dos pioneiros no trabalho in-database, e com o HPA, já dá suporte de análise preditiva e  mineração de dados em parceria com a EMC e Teradata. Com o último lançamento anunciado na semana passada (e agora lançado), as capacidades de mineração de texto, otimização e previsão foram adicionadas.

A mineração de texto faz sentido para informações text-rich como alegações de seguro, reivindicações de garantia, pesquisa de cliente ou à crescente enxurrada de comentários de clientes em redes sociais. A otimização ajuda os varejistas e fabricantes de bens de consumo, entre outros, com tarefas como fixação de preços para melhor equilíbrio de vendas com grande abrangência, mas ainda assim, com lucro. A previsão é usada por companhia de seguros, por exemplo, para estimar a exposição ou perdas no caso de um furacão ou inundação.

Em relação ao Hadoop, a última versão já é executada na plataforma, tecnicamente, mas é limitada a uma versão personalizada pelo SAS do software open source com base no Apache Hadoop v 1.0 (também conhecido como versão 0.20.20x). A empresa afirmou que o HPA será executado em distribuidores de grande escala do Hadoop, desde a Cloudera, com o lançamento que chegará em dezembro com base no Apache Hadoop v2.0 (também conhecido como versão 0.23).

Usando a atual versão de software Hadoop do SAS ou planejando usar o lançamento v2.0, o HPA fornece um interface gráfica de usuário (GUI) que permite que seja usado HDFS, MapReduce, Pig e Hive para aplicar análise SAS ao vasto conjunto de dados no Hadoop. Pig é uma ferramenta de programação open source Apache e linguagem para trabalhos escritos com MapReduce. Hive é a infraestrutura de armazenamento de dados embutida sobre o Hadoop que dá suporte à sumarização de dados, consulta e análise. Também dá suporte para geração de código, edição visual e verificação de sintaxe do Pig e MapReduce. Por fim, a transformação de dados SAS Data Integration Studio e a rotina de qualidade de dados SAS DataFluz, também foram atualizadas para o Hadoop.

A pergunta essencial é se os praticantes do Hadoop, que talvez estejam usando análise open source e criadas por eles mesmos, vão querer usar um produto comercial como o oferecido para dentro do que muitos visualizam como um novo paradigma da computação.

?Como empresa, estamos com a abordagem open source, então nosso conjunto de habilidades teve que mudar nos últimos três anos?, afirmou Phil Sheley, vice-presidente e diretor de tecnologia da Sears Holdings.  O movimento começou com sistemas operacionais, indo em direção ao Linux, mas a mudança foi além das pilhas para o nível de análise e database. ?Nosso pessoal da estatística costumava usar apenas o SAS e outros produtos (comerciais), mas agora estamos ensinando-os a usarem o R no Hadoop?.

O custo com certeza será um fator de seleção de software e é o motivo das grandes empresas adotarem o Hadoop: elas tentam reter e usar todos seus dados e esperam economias sobre dados  relacionais convencionais, quando escalonam sobre centenas de terabytes ou mais. A Sears, por exemplo, tem mais de 2 petabytes de dados à mão, e segundo Shelley, até implantarem o Hadoop, há dois anos, a empresa superou seus bancos de dados constantemente, e ainda não consegue armazenar tudo em uma plataforma.

O SAS não divulgou o custo de seu software ou discutiu onde os modelos de licenciamento irão mudar para adaptarem a open source e o mundo Big Data, mas a fornecedora claramente espera fazer mais na plataforma Hadoop. Um aplicativo SAS High-Performance Marketing Optimization anunciado na semana passada será executado no Hadoop com lançamento esperado para abril de 2013. No momento esse aplicativo, que é incorporado no HPA Server, é executado no EMC Greenplum e Teradata.

O High-Performance Marketing Optimization é projetado para acelerar campanhas de  análise de marketing quando empresas lidam com centenas de campanhas e milhões ou mesmo bilhões de registros de clientes. Nessa escala, pode-se levar de oito a 12 horas ou mais para executar otimizações ? mesmo para identificar a maioria das ofertas de sucesso de marketing ou a audiência alvo com maior resposta ? mas executá-los em EMC Greenplum ou Teradata, é muito mais rápido, levando apenas alguns minutos.

Analisando os anúncios da SAS é possível perceber dois padrões claros. Um é a entrega de stream de atualizações para clientes que usam s ferramentas convencionais e abordagens comprovadas para análise em escala que não atinge o Big Data. A segunda, no que concerne à explosão de dados e computação de alto desempenho, a empresa está reconhecendo que as velhas ferramentas e as datas de entrega de produtos não irão ficar de acordo com essa nova classe de clientes.

Tradução: Alba Milena, especial para o IT Web | Revisão: Adriele Marchesini

Saiba mais:

Big Data: entenda o que é o Hadoop e como ele afeta o Data Warehouse

Com big data, surgem dois perfis de profissionais de Data Warehouse

Computação em memória: Hana comprime dados em até 20 vezes

Big Data: computadores ficam mais rápidos e empresas, mais burras

Até 2020, volume do Big Data aumentará 44 vezes


Recent Posts

Sem equipes preparadas, IA não entrega transformação

A adoção de inteligência artificial (IA) nas empresas não depende apenas da disponibilidade de ferramentas.…

2 horas ago

Cohesity obtém patente para aplicar IA diretamente em dados de backup corporativos

A Cohesity anunciou a concessão da Patente Nº 12.619.501 pelo Escritório de Patentes e Marcas…

21 horas ago

Para Diogo Cortiz, maior desafio da IA é a falta de capacidade crítica para questionar suas respostas

Diogo Cortiz, professor da PUC-SP e doutor em Tecnologias da Inteligência e Design Digital, tem…

23 horas ago

Agentes de IA vão dar “superpoderes” a profissionais de TI, diz DJ Sampath, da Cisco

DJ Sampath chegou aos Estados Unidos há 30 anos com oito dólares no bolso e…

23 horas ago

Chatbots de bancos e fintechs não entendem as emoções dos clientes, aponta estudo

A evolução da inteligência artificial nos serviços financeiros ainda esbarra em desafios relacionados à experiência…

23 horas ago

Motorola Solutions compra D-Fend por US$ 1,5 bilhão

A Motorola Solutions anunciou a assinatura de um acordo definitivo para adquirir a D-Fend Solutions,…

24 horas ago