Nvidia constrói supercomputador em 20 semanas com a ajuda de um pequeno robô

Maioria dos supercomputadores que estão atualmente na lista Top500 levou, em média, alguns anos do planejamento do conceito à construção final

Author Photo
11:39 am - 24 de março de 2021

Em um projeto que deu início há cerca de 20 semanas, quando a Nvidia anunciou seus planos de começar a construir um supercomputador projetado especificamente para aplicativos de machine learning, a empresa finalmente deu luz ao Cambridge-1. Sob o investimento de US$ 51,7 milhões e os desafios gerados pela pandemia da Covid-19, o supercomputador está quase instalado e em funcionamento.

O equipamento está em um dos prédios do provedor de data center Kao Data, em Cambridge, passando por testes finais. Em breve, os cientistas poderão começar a executar projetos com o dispositivo, neste caso, com foco na pesquisa de saúde. O Cambridge-1 já entrou em seus primeiros estágios de operação, em um tempo considerado “extraordinário” em circunstâncias normais, mas, sobretudo, no contexto de uma pandemia, segundo Spencer Lamb, Vice-Presidente de Vendas e Marketing da Kao Data.

Segundo publicação do site ZDNet, o Cambridge-1 foi projetado especificamente para aplicativos de machine learning, alimentado por 80 dos sistemas DGX A100 da Nvidia, que são construídos para executar software de IA em grande escala. Apenas 20 DGX A100 fornecem o equivalente a centenas de CPUs, permitindo que Cambridge-1 empacote um total de 400 petaflops de desempenho de IA e efetivamente tornando o sistema o computador mais rápido do país.

Quando o Cambridge-1 foi anunciado pela primeira vez, a Kao Data já estava há meses atuando com medidas de restrição da equipe para conter a disseminação da Covid-19 no local. Dessa forma, mesmo trabalhando no supercomputador mais rápido do Reino Unido, não foi possível permitir a entrada da equipe, que precisou trabalhar de forma remota – “um desafio”, segundo Lamb.

“A equipe da Nvidia está baseada na Costa Oeste [Califórnia, EUA] e normalmente eles teriam vindo às instalações para dar uma olhada. O que eles tinham que fazer era gerenciar a instalação remotamente, sem estar fisicamente no prédio”, disse ao ZdNet. “A realidade que descobrimos é que quanto menos humanos você tiver lá, que não são estritamente necessários, melhor você pode fazer o trabalho com mais eficácia. Com os olhos no solo, trabalhando em parceria com a equipe remota da Nvidia, alcançaram o resultado desejado, sem a necessidade de enviar fisicamente indivíduos da Nvidia até Cambridge”.

Montagem remota

O Cambridge-1 foi projetado para se estender por três salas do edifício, todas equipadas com sistemas de energia e ar condicionado separados. Cada sala é equipada com duas fileiras de 12 racks do tamanho de um refrigerador e milhares de cabos de fibra ótica conectando os sistemas, dispostos como escadas horizontais no topo dos racks, diz o site.

Os engenheiros da Nvidia usaram um método chamado dinâmica de fluidos computacional para modelar com precisão o espaço à sua disposição no prédio da Kao Data e decidir onde eles queriam colocar os servidores e racks de computador que constituem os blocos de construção do supercomputador.

Eles também contaram com um pequeno robô da Nvidia levado aos Estados Unidos para acompanhar de perto o que ocorria no prédio. O robô já havia sido implantado para a construção de outro supercomputador da Nvidia. Marc Hamilton, Vice-Presidente de Arquitetura e Engenharia de Soluções da empresa o descreve como “uma coisinha sobre duas rodas que parece um tablet em uma vara”.

cambridge 1 reproducao

“Com a Kao, é claro, não tínhamos nenhum funcionário no local do prédio”, disse Hamilton, diferenciando da experiência que tiveram com o robô na construção de Selene. “Então, uma das pequenas melhorias que nossos engenheiros fizeram é que eles colocaram portas de vidro deslizantes que abrem automaticamente. Isso é uma coisa tão trivial – definitivamente não é supercomputação – mas eu nunca tinha visto um supercomputador em um data center com portas deslizantes”.

Outro desafio surgiu ao montar o supercomputador fisicamente com uma equipe que estava sendo instruída à distância. Porém, de acordo com Hamilton, a mão experiente da Nvidia no desenvolvimento de dispositivos deste tipo evitou que surpresas ruins acontecessem.

Os racks do tamanho de uma geladeira que compõem um supercomputador são todos feitos de computadores menores, cada um com dez cabos de fibra óptica. “Isso é muita montagem manual se você tiver que conectar todos aqueles milhares de cabos dentro do data center”, diz Hamilton. “No início, para ir de um supercomputador a outro, refizemos e recondicionamos todos aqueles milhares de cabos. Foi então que dissemos: ‘Queremos tornar a construção de um supercomputador tão fácil quanto construir blocos de Lego’. Por isso, projetamos um supercomputador modular e, tanto quanto possível, pré-fabricado na fábrica”.

A Nvidia começou a implementar esta nova abordagem em 2018, diz a publicação, para a terceira geração de supercomputadores que foi projetada pela empresa, e com os mesmos princípios aplicados ao Cambridge-1. Pacotes de centenas de cabos de fibra óptica foram conectados e pré-embalados e, em seguida, enviados para o data center, onde os engenheiros só ficaram com a tarefa de conectar uma extremidade aos servidores e outra aos switches da rede.

Com o poder computacional extra habilitado pelo Cambridge-1, os cientistas serão capazes de resolver problemas baseados em dados que antes eram difíceis de controlar, como diagnosticar melhor os pacientes e identificar os tratamentos apropriados; mas também estão confiantes de que o dispositivo pode causar avanços na pesquisa médica, por exemplo, com a descoberta de novos medicamentos.

Com informações do ZDNet

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.