A Ponte Vecchio da Intel e o Zen 3 da AMD mostram a promessa da tecnologia avançada de embalagem de semicondutores

A Intel e a AMD discutiram alguns de seus designs de chips mais avançados na Conferência Internacional de Circuitos de Estado Sólido desta semana e destacaram o papel que as embalagens avançadas desempenham em seus futuros produtos de chip de ponta. Em ambos os casos, os novos e impressionantes recursos de desempenho vêm de abordagens modulares que combinam blocos de construção feitos em diferentes fábricas usando diferentes processos de fabricação. Ele ilustra o vasto potencial da embalagem de chips no futuro da inovação de semicondutores.

O mercado-alvo da Intel para a Ponte Vecchio é um módulo de alto desempenho a ser incorporado em grandes sistemas de datacenter. É uma unidade de processamento gráfico (GPU) e foi projetada para aplicações em inteligência artificial, aprendizado de máquina e computação gráfica. É nomeado após a ponte de pedra medieval que liga a Piazza della Signoria de um lado do rio Arno, em Florença, Itália, com o Pallazzo Pitti do outro lado. Um dos destaques do design é como ele conecta uma infinidade de chiplets especializados – blocos de construção de circuitos integrados que devem ser combinados para criar sistemas completos.

A Ponte Vecchio usa oito “telhas” fabricadas no processo de 5 nm mais avançado da Taiwan Semiconductor Manufacturing Company (TSMC). Cada ladrilho tem oito “Xe” e cada um dos oito núcleos, por sua vez, possui oito vetores e oito mecanismos de matriz especializados. Os ladrilhos são colocados em cima de um “ladrilho base”, que os conecta à memória e ao mundo exterior com um tecido de comutação gigante. Este bloco de base é construído usando o processo “Intel 7” da empresa, que é um novo nome para o processo de fabricação SuperFin de 10 nm aprimorado da empresa. Há também um sistema de memória de alto desempenho chamado “RAMBO”, que significa Random Access Memory, Bandwidth Optimized, que foi construído em um bloco de base usando a tecnologia de interconexão Intel 7 Foveros. Muitos outros blocos de construção também são incorporados.

O projeto da Ponte Vecchio é um estudo de caso de integração heterogênea – combinando 63 blocos diferentes (47 que executam funções de computação e 16 para gerenciamento térmico) com um total de mais de 100 bilhões de transistores em um único pacote de 77.5 x 62.5 mm (aproximadamente 3 x 2.5 polegadas). Não faz muito tempo que tanto poder de computação enchia um armazém e exigia sua própria conexão com a rede elétrica. Os desafios de engenharia em tal projeto são abundantes:

Conectando todas as partes. Os designers precisam de uma maneira de mover os sinais entre todos os chips diferentes. Antigamente, isso era feito com fios ou traços em placas de circuito impresso, e os chips eram fixados por solda nas placas. Mas isso perdeu força há muito tempo, à medida que o número de sinais e a velocidade aumentavam. Se você colocar tudo em um único chip, poderá conectá-los com traços de metal no final do processo de fabricação. Se você quiser usar vários chips, isso significa que você precisa de muitos pinos de conexão e deseja que as distâncias de conexão sejam curtas. A Intel usa duas tecnologias para dar suporte a isso. A primeira é sua “ponte de interconexão multi-die incorporada” (EMIB), que é feita de uma pequena lasca de silício que pode fornecer centenas ou milhares de conexões ao mesmo tempo, e a segunda é sua tecnologia de empilhamento de matriz a matriz Foveros. usado em seu processador móvel Lakefield.

Certificando-se de que todas as peças estão sincronizadas. Depois de conectar muitas peças diferentes, você precisa garantir que todas as partes possam conversar umas com as outras em sincronia. Isso geralmente significa distribuir um sinal de temporização conhecido como clock, para que todos os chips possam trabalhar em sincronia. Isso acaba não sendo trivial, pois os sinais tendem a ficar distorcidos e o ambiente é muito barulhento, com muitos sinais saltando. Cada bloco de computação, por exemplo, tem mais de 7,000 conexões em um espaço de 40 milímetros quadrados, então é muito para manter em sincronia.

Gerenciando o calor. Cada um dos ladrilhos modulares exige muita energia, e fornecê-la uniformemente em toda a superfície enquanto remove o calor gerado é um grande desafio. Os chips de memória estão empilhados há algum tempo, mas o calor gerado é distribuído de maneira bastante uniforme. Os chips ou blocos do processador podem ter pontos quentes, dependendo da intensidade com que estão sendo usados, e gerenciar o calor em uma pilha de chips 3D não é fácil. A Intel usou um processo de metalização para os lados traseiros dos chips e os integrou com dissipadores de calor para lidar com os 600 watts projetados produzidos pelo sistema Ponte Vecchio.

Os resultados iniciais de laboratório que a Intel relatou incluíam desempenho >45 Teraflops. O supercomputador Aurora que está sendo construído nos Laboratórios Nacionais de Argonne usará mais de 54,000 Ponte Vecchios, juntamente com mais de 18,000 processadores Xeon de próxima geração. O Aurora tem um desempenho máximo de mais de 2 Exaflops, que é 1,000 vezes mais do que uma máquina Teraflop. Em meados da década de 1990, quando eu estava no ramo de supercomputadores, uma máquina de um Teraflop era um projeto científico de US$ 100 milhões.

Zen 3 da AMD

A AMD falou sobre seu núcleo de microprocessador Zen 3 de segunda geração construído no processo de 7 nm da TSMC. Esse núcleo de microprocessador foi projetado para ser usado em todos os segmentos de mercado da AMD, desde dispositivos móveis de baixo consumo de energia, computadores desktop e até seus servidores de datacenter mais poderosos. O princípio central dessa estratégia foi empacotar seu núcleo Zen 3 com funções de suporte como um “complexo de núcleo” em um único chiplet, que serviu como blocos de construção modulares muito parecidos com os blocos da Intel. Assim, eles poderiam empacotar oito chiplets juntos para um desktop ou servidor de alto desempenho, ou quatro chiplets para um sistema de valor, como um sistema doméstico barato que eu poderia comprar. A AMD também empilha os chips verticalmente usando as chamadas vias de passagem de silício (TSVs), uma maneira de conectar vários chips colocados uns sobre os outros. Também poderia combinar de dois a oito desses chiplets com uma matriz de servidor feita em um processo de 12 nm da GlobalFoundries para fazer seus 3rd chips de servidor EPYC de geração.

A grande oportunidade que Ponte Vecchio e Zen 3 destacam é a possibilidade de misturar e combinar fichas feitas por diferentes processos. No caso da Intel, isso incluiu peças feitas tanto por conta própria quanto pelos processos mais avançados da TSMC. A AMD poderia combinar partes da TSMC e da GlobalFoundries. Uma grande vantagem de conectar chips ou ladrilhos menores em vez de apenas construir um chip grande é que os menores terão melhores rendimentos de fabricação e, portanto, são menos caros. Você também pode misturar e combinar novos chiplets com os mais antigos comprovados que você sabe que são bons ou que são feitos em um processo mais barato.

Ambos os designs da AMD e da Intel são técnicos passeios de força. Sem dúvida, eles representam muito trabalho e aprendizado, e representam enormes investimentos de recursos. Mas assim como a IBM introduziu subsistemas modulares em seu mainframe System/360 na década de 1960, e os computadores pessoais se tornaram modulares na década de 1980, o particionamento modular de microssistemas de silício como exemplificado por esses dois projetos e possibilitado pelo encapsulamento avançado de chips anuncia uma mudança tecnológica significativa. É verdade que muitos dos recursos exibidos aqui ainda estão fora do alcance da maioria das startups, mas podemos imaginar que, quando a tecnologia se tornar mais acessível, ela desencadeará uma onda de inovação mista.

Fonte: https://www.forbes.com/sites/willyshih/2022/02/22/intels-ponte-vecchio-and-amds-zen-3-show-the-promise-of-advanced-semiconductor-packaging- tecnologia/