Pesquisadores brasileiros realizam sequenciamento genético em tempo recorde com tecnologia Nvidia

Resultado foi a mais rápida comparação de cromossomos entre ser humano e um chimpanzé; Novo código poderá auxiliar pesquisas na área de saúde

10:45 am - 18 de novembro de 2021

Pesquisadores brasileiros realizaram um estudo que propôs uma solução computacional para comparação de sequências de DNA de cadeia longa, viabilizando sequenciamento genético em tempo recorde com tecnologia da divisão Nvidia Enterprise. Os pesquisadores utilizaram um cluster com 512 GPUs Nvidia V100, que tornou possível concluir a comparação entre cromossomos humanos e de chimpanzé em apenas 11 minutos, o melhor desempenho conhecido atualmente.

“Aplicações em Bioinformática usualmente requerem algoritmos paralelos e dispositivos com alto poder computacional para que se obtenha um desempenho expressivo. Nesta pesquisa, conseguimos aliar estes dois aspectos para realizar a comparação de sequências longas de DNA em placas gráficas”, diz Marco Figueirêdo, pesquisador da Universidade de Brasília e um dos coautores do estudo.

Com a solução brasileira, os pesquisadores levaram apenas 11 minutos para obter a taxa de 82.822 GCUPS (bilhões de células atualizadas por segundo), o melhor desempenho já registrado até o momento, segundo comunicado da empresa. Para alcançar o feito, os pesquisadores utilizaram um cluster com 512 GPUs Nvidia V100.

“A solução proposta possui duas estratégias de distribuição de carga de trabalho entre as GPUs e foi testada em dispositivos da Nvidia de diversas arquiteturas. Os resultados obtidos mostram que ainda é possível avançar nas pesquisas neste tópico, visando projetar soluções compatíveis com ambientes de diferentes portes, mas sempre buscando aprimorar o desempenho em cada cenário”, adiciona Figueirêdo.

O novo código desenvolvido pelos pesquisadores poderá auxiliar pesquisas na área de saúde e medicamentos a encontrar respostas assertivas no diagnóstico de patologias e desenvolvimento de tratamentos em menos tempo.

“Embora a comparação entre sequências biológicas seja uma tarefa bastante conhecida em aplicações de bioinformática, ainda exige soluções computacionais paralelizáveis e hardware de alto desempenho. Por isso o uso da tecnologia Nvidia Enterprise se mostra essencial para os resultados surpreendentes que os pesquisadores brasileiros demonstraram”, afirma Marcio Aguiar, Diretor Nvidia Enterprise para América Latina.

Sequenciamento genético

As GPUs Nvidia fazem parte da arquitetura computacional utilizada para executar soluções desse tipo. Além disso, alguns algoritmos já estão previstos, como o Smith-Waterman (SW), que permite obter um resultado ótimo na comparação entre as sequências. Para comparar o cromossomo-1 humano com o cromossomo-1 de um chimpanzé (249 milhões de pares de bases – MBP x 228 MBP), são necessários pelo menos 240 petabytes de memória. Esta comparação SW foi considerada inviável em 2008 por conta da tecnologia utilizada até então.

Ao longo dos anos, a paralelização das ferramentas de comparação de sequências SW para longas sequências de DNA têm sido um grande desafio, exigindo o uso de diversos dispositivos e otimizações sofisticadas. A poda é uma dessas otimizações, que pode reduzir consideravelmente a quantidade de computação utilizada. O CUDAlign, código que utiliza a linguagem de programação de GPUs da Nvidia, o CUDA, propõe uma implementação com poda em bloco (BP), que toma a decisão de poda com base em blocos de células, usando apenas uma GPU. O SW# implementa a mesma técnica BP proposta pelo CUDAlign em múltiplas GPUs, mas é restrito a apenas dois dispositivos.

No estudo brasileiro, duas estratégias MultiBP são propostas. Na abordagem estática com compartilhamento de pontuação, a carga de trabalho é distribuída estaticamente para as GPUs, e a melhor pontuação é enviada para GPUs vizinhas para simular uma visão global. Na estratégia dinâmica, a execução é dividida em ciclos e a carga de trabalho é atribuída dinamicamente, de acordo com a taxa de processamento das GPUs.

O MultiBP foi integrado ao MASA-CUDAlign e testado em plataformas homogêneas e heterogêneas, com diferentes arquiteturas de GPU Nvidia. Os melhores resultados foram obtidos principalmente pelas abordagens estática e dinâmica, respectivamente. O estudo também mostrou que o módulo de decisão é capaz de selecionar a melhor estratégia na maioria dos casos.

“O código desenvolvido já foi compartilhado publicamente para que possa auxiliar pesquisas relevantes para a saúde humana em todo o mundo. Como desafio futuro, pretendemos melhorar nossas estratégias MultiBP identificando quais características têm mais impacto nas abordagens estáticas e dinâmicas. Também investigaremos se há cenários em que seja benéfico para que o modo dinâmico seja revertido para estático”, conclui Figueirêdo.

O pesquisador Figueiredo Jr. assina o estudo junto dos pesquisadores Edans Sandes (UnB), João Paulo Navarro (Nvidia) e George Teodoro (UFMG), sob a coordenação da pesquisadora Alba Cristina Magalhães Alves de Melo (UnB), pioneira nos estudos sobre o assunto no Brasil.

O estudo foi apresentado na edição de 2020 da conferência PDP (Euromicro Conference on Parallel, Distributed and Network-Based Processing) em Västerås, Suécia, e publicado na prestigiada revista IEEE Transactions on Parallel and Distributed Systems.

Tags: