All Rights ReservedView Non-AMP Version
IT Forum
  • Homepage
  • Notícias
Categories: Notícias

Como o site americano de genealogia online, Ancestry.com, administra gerações de Big Data

As empresas costumam usar – ou usam excessivamente – o termo “big data” para descrever todos os tipos de produtos e serviços relacionados a dados, mas a palavra da moda se aplica no caso do Ancestry.com, site americano que funciona como serviço de genealogia que ajuda as pessoas a encontrarem suas raízes familiares e foi comprado por 1,6 bilhões de dólares no ano passado por um fundo europeu.

Há pouco mais de um ano, o site estava administrando cerca de 4 petabytes de dados, incluindo mais de 40 mil registros de nascimento, censo, óbito, imigração e documentos militares, bem como fotos, resultados dos testes de DNA e outras informações. Hoje, a coleção quintuplicou e soma mais de 200.000 registros, de modo que os dados armazenados no Ancestry aumentaram de 4 petabytes para 10 petabytes.

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

De acordo com, diretor sênior de engenharia do Ancestry.com, Bill Yetman, lidar com essa grande explosão de dados foi um desafio para a empresa. “Nós medimos cada passo em nosso pipeline”, afirmou Yetman. “Começamos com algoritmos acadêmicos que as pessoas estão usando em universidades e eles funcionam muito bem em escalas menores.”

No entanto, ele explica que esses algoritmos foram divididos à medida que o banco de dados ficou cada vez maior. “Há um algoritmo muito específico que usamos em combinar o DNA. Chama-se Germline e foi criado por cientistas da Universidade de Columbia.”

Para analisar o seu arsenal crescente de dados de DNA, a empresa teve que reimplementar o Germline usando Hadoop e HBase. Esse processo envolveu o armazenamento de dados no HBase e, em seguida, a utilização de duas funções de mapeamento para executar comparações em paralelo. “Usamos duas etapas de MapReduce e depois utilizamos HBase para manter os resultados, o que torna mais fácil para fazer as comparações de DNA. Se não pudéssemos executar essas coisas em paralelo, não conseguiríamos fazê-lo tão rápidamente.”

A expansibilidade prometida pelo Hadoop também ajudou o Ancestry a gerenciar seu crescimento. “Se eu preciso melhorar o meu desempenho, posso escalar horizontalmente”, comentou Yetman . “Basta adicionar mais nós ao cluster e conseguimos lidar com o crescimento.”

O crescimento futuro, no entanto, vai exigir mais inovação para manter tudo isso fluindo normalmente. “Você não pode simplesmente achar que se já conseguiu superar essa montanha de 200.000 dados e que vai fazer o mesmo para 5 milhões. “Sabemos que virão diversos desafios ao longo do caminho e teremos que olhar com atenção para cada um.?

Obviamente, o desempenho do hardware deve ser monitorado de perto. “Nós temos que acompanhar a memória em cada nó, como a estamos usando e como estamos usando a CPU.”

O Ancestry.com também está no processo de otimização da implementação do Germline para reduzir significativamente seu uso de memória, e também considera uma associação com provedores de nuvem para aumentar sua capacidade de processamento.

A opção da nuvem ganhou credibilidade quando Ancestry.com recentemente atualizou seu algoritmo a realização de teste de etnias. “Tivemos que voltar a esses 200 mil pessoas para executar novamente sua etnia”, acrescentou o especialista. “Fizemos isso com máquinas em nosso data center. Mas hardware local não será suficiente se número de usuários subir para 500.000 até 1 milhão.

Ancestry.com está avaliando vários provedores de nuvem, mas o executivo reconhece que as questões de privacidade adicionam um grau de complexidade para o movimento. “É algo complicado, pois dados de DNA são muito sensíveis. Isso é uma das coisas com que a empresa é extremamente cuidadosa”

Uma possível solução: “Estou olhando para a nuvem como um lugar para fazer esses cálculos”, disse Yetman. Mas em vez de deixar os dados na nuvem, ele menciona que pode “puxar tudo de volta” e armazenar localmente para evitar preocupações com a privacidade dos clientes.

 

Next NSA utiliza cookies do Google para rastrear alvos de espionagem »
Previous « Cirurgia robótica: da Vinci versus o ideal
Share
Published by
Redação
13 anos ago

    Related Post

  • HPE une rede e segurança e mira fim da gestão fragmentada
  • Consumidores ainda resistem a delegar pagamentos a agentes de IA, indica Forrester
  • Anthropic alerta governo Trump sobre riscos cibernéticos expostos por modelos avançados de IA

Recent Posts

  • Notícias

Empresas não sabem como comprar IA, e esse é o maior obstáculo da adoção, diz executivo da HPE

A maioria das empresas que hoje investe em inteligência artificial não sabe exatamente quem deve…

14 horas ago
  • Notícias

Datamint capta R$ 25 milhões em rodada seed liderada pela Headline

A Datamint, startup brasileira de inteligência artificial (IA) voltada à gestão de ativos em operações…

14 horas ago
  • Notícias

Consumidores ainda resistem a delegar pagamentos a agentes de IA, indica Forrester

Os consumidores ainda não estão preparados para permitir que agentes de inteligência artificial (IA) realizem…

14 horas ago
  • Notícias

Anthropic alerta governo Trump sobre riscos cibernéticos expostos por modelos avançados de IA

A Anthropic intensificou seus alertas ao governo dos Estados Unidos sobre os riscos cibernéticos associados…

16 horas ago
  • Notícias

HPE une rede e segurança e mira fim da gestão fragmentada

Por anos, equipes de TI operaram segurança e rede como disciplinas separadas, com ferramentas distintas,…

16 horas ago
  • Notícias

Gwynne Shotwell afasta pressão por IPO e diz que SpaceX mantém foco no longo prazo

A presidente e COO da SpaceX, Gwynne Shotwell, afirmou que a abertura de capital da…

17 horas ago
All Rights ReservedView Non-AMP Version
  • L