IDF Fall 2006 – High Performance Computing parte 1
Semestralmente a Intel oferece ao mercado com este evento uma oportunidade para se alinhar com suas inovações, estratégias, lançamentos, sonhos, erros e acertos.
Particularmente achei este IDF um evento diferenciado. Sempre são esperadas revelações bombásticas, uma enxurrada de lançamentos etc. e desta não foi bem assim. Mas por outro lado muitas tendências se confirmaram e se a quantidade de novidades não foi tão grande, a importância destas precisa ser destacada. Esta série de colunas sobre o IDF visam repassar para os leitores uma visão geral do evento e informações relevantes sobre tecnologia que foram apresentadas. Na seqüência (em outras colunas) outros temas serão apresentados sobre assuntos específicos.
HPC ou High Performance Computing, suas aplicações e forma de implementação capturaram minha curiosidade. No IDF do ano passado (2005) falou-se em “A era do Tera”, referindo-se à massiva quantidade de informações que cada vez mais transita em nosso dia a dia. Desta vez o “Tera” citado no contexto de HPC refere-se a TERAFLOPs, ou seja, uma quantidade imensa de poder de processamento. Com seus novos processadores este nível de performance pode ser atingido em sistemas sofisticados compostos por muitas dezenas de núcleos. Parece ser simples, quer mais desempenho, adicione tantos processadores quantos forem necessários. Mas não é bem assim. Muitos problemas emergem quando se leva ao limite a tecnologia. Não basta uma só tarefa ser executada rapidamente e sim várias em paralelo. Uma vez concretizada e massificada esta tendências vários tipos novos de aplicação emergirão como inteligência artificial e realidade virtual em tempo real, bem como simulações físicas muito complexas, e tratamento de quantidades gigantes de dados para gerar novas informações.
Desafios no design dos processadores e plataforma
– Alta velocidade na interconexão de dezenas ou centenas de núcleos
– Mais cores por chip para incrementar produtividade sem igual aumento de consumo de energia
– Incorporar diversos tipos de recursos computacionais no chip de forma a lidar também com processamento de sinais digitais (DSP), texturas etc.
– Forma eficiente de compartilhar memória cache entre todos os núcleos
– I/O compatível com a necessidade massiva de dados a processar
Veja com atenção o gráfico abaixo. Ele ilustra onde a Intel está buscando os ganhos de performance. Quando simplesmente se agregam núcleos há eficiência somente até cerca de 16 elementos. Acima disso ocorre um “deseconomia” de escala explicada pela complexidade de lidar com todas estas tarefas em simultâneo somente pela adição de “elementos pensantes” no sistema. O que traz benefícios adicionais são novas instruções, gerenciamento mais inteligente do cache e alocação dinâmica por hardware das tarefas a serem executadas pelo “pool” de núcleos.
[singlepic id=7499 w=320 h=240 float=]
O desafio é complexo e se já existem protótipos capazes de Teraflops, obter isso em escala comercial ainda demandará muito desenvolvimento (que está sendo feito). Neste IDF foi anunciado que em novembro próximo o mercado já poderá contar com os processadores QUADCORE, antes que se poderia supor. Na verdade este Quadcore é uma implementação do Core 2 Duo Extreme (QX6700) na qual dois processadores DUALCORE são agrupados em uma única pastilha. Esta forma de implementação permitiu acelerar a chegada deste produto ao mercado. A versão QUAD “full” está prevista para o ano de 2007. Mesmo assim este Quadcore faz bonito ao trazer ganhos de performance de pelo menos 50% em relação ao Dual core original. Idealmente se poderia esperar mais, algo entre 80% e 90% mas é o ganho que o atual estágio da tecnologia permite (bom para quem precisa deste poder computacional extra agora).
[singlepic id=7500 w=320 h=240 float=]
[singlepic id=7501 w=320 h=240 float=]
As duas figuras acima trazem dados interessantes. Para quem não reconheceu o simpático senhor da primeira foto, é nada menos que Gordon Moore, o famoso co-fundador da Intel que enunciou ainda no começo da década de 70 a famosa “lei de Moore”-a quantidade de transistores em cada chip dobrará a cada 18/24 meses aproximadamente. Atualmente já se fala em protótipos da Intel de chips feitos na tecnologia de 45 nm. Para 2009/2010 está prevista a geração de 32 nm e mais no futuro (2011/2012) a geração de 22 nm. A segunda figura traz o posicionamento de mais curto prazo mostrando a geração atual (denominada Core-65 nm) a as próximas com seus respectivos codinomes.
Voltando ao assunto HPC, obter desempenhos “Tera” não significa somente acumular mais e mais transistores na superfície de um chip, fabricá-lo em dimensões cada vez menores (45 nm ou 32 nm). É mais do que isso. Um dos gargalos atuais é o problema da latência (na ordem de 400 ciclos) que precisaria melhorar em uma ordem de 20 vezes (20 ciclos). Mas o maior problema é a largura de banda na comunicação entre os subsistemas, processadores, memórias etc. Um grande esforço de desenvolvimento tem sido feito pela Intel em conjunto com a Universidade de Santa Barbara na Califórnia. O resultado disso é a criação do primeiro “Eletrically Pumped Hybrid Silicon Laser”. Esta tecnologia com certeza seria muito melhor explicada pelo Mestre Piropo, o qual já escreveu no ano passado uma coluna sobre “Laser de Silício” . Não vou me arriscar a falar do que não sei (Mestre Piropo venha em meu auxílio PLEASE!!). Mas o que interessa neste momento é que esta tecnologia viabiliza taxas de transmissão de dados estelares nos circuitos da placa mãe, processadores (dezenas ou centenas) e memórias, sendo vital para a construção dos Teracomputadores.
[singlepic id=7503 w=320 h=240 float=]
[singlepic id=7504 w=320 h=240 float=]
Semana que vem, na próxima coluna, continarei este assunto (HPC) falando do desafio do software no ambiente do Teracomputer, aplicações desta tecnologia, descrição do protótipo existente e (pasmem) os passos para algo ainda mais rápido… confira na semana que vem.
Para ler a continuação clique aqui