Qué son los chiplets y por qué son tan importantes para el futuro de los procesadores | Unidad de estado sólido SSD Guizhou Co., Ltd.

Si bien los chiplets se han utilizado durante décadas, se han empleado con moderación y para fines muy específicos. Ahora, están a la vanguardia de la tecnología, con millones de personas en todo el mundo usándolos en PC de escritorio, estaciones de trabajo y servidores.

Recientemente, un líder de la industria aprovechó los chiplets para recuperar su posición a la vanguardia de la innovación y está claro que no pasará mucho tiempo antes de que los chiplets se conviertan en el estándar en el mundo de la computación. Entonces, siéntese y aprenda sobre los chiplets y exactamente por qué son tan importantes.

Los chiplets son procesadores segmentados. En lugar de consolidar cada parte en un solo chip (lo que se conoce como enfoque monolítico), las secciones específicas se fabrican como chips separados. Estos chips individuales luego se montan juntos en un solo paquete utilizando un sistema de conexión complejo.

Esta disposición permite reducir el tamaño de las piezas que pueden beneficiarse de los últimos métodos de fabricación, mejorando la eficiencia del proceso y permitiéndoles encajar en más componentes.

Las partes del chip que no se pueden reducir significativamente o que no requieren reducción se pueden producir utilizando métodos más antiguos y económicos.

Si bien el proceso de fabricación de tales procesadores es complejo, el costo general suele ser menor. Además, ofrece a las empresas procesadoras un camino más manejable para ampliar su gama de productos.

Para comprender completamente por qué los fabricantes de procesadores recurrieron a los chiplets, primero debemos profundizar en cómo se fabrican estos dispositivos. Las CPU y las GPU comienzan su vida como discos grandes hechos de silicio ultrapuro, por lo general un poco menos de 12 pulgadas (300 mm) de diámetro y 0,04 pulgadas (1 mm) de grosor.

Esta oblea de silicio se somete a una secuencia de pasos intrincados, lo que da como resultado múltiples capas de diferentes materiales: aislantes, dieléctricos y metales. Los patrones de estas capas se crean a través de un proceso llamado fotolitografía, donde la luz ultravioleta brilla a través de una versión ampliada del patrón (una máscara), y luego se encoge a través de lentes al tamaño requerido.

El patrón se repite, a intervalos establecidos, a lo largo de la superficie de la oblea y cada uno de estos finalmente se convertirá en un procesador. Dado que los chips son rectangulares y las obleas son circulares, los patrones deben superponerse al perímetro del disco. Estas partes superpuestas finalmente se descartan ya que no son funcionales.

Una vez completada, la oblea se prueba usando una sonda aplicada a cada chip. Los resultados del examen eléctrico informan a los ingenieros sobre la calidad del procesador frente a una larga lista de criterios. Esta etapa inicial, conocida como agrupamiento de chips, ayuda a determinar el "grado" del procesador.

Por ejemplo, si el chip está destinado a ser una CPU, cada parte debería funcionar correctamente, operando dentro de un rango establecido de velocidades de reloj a un voltaje específico. Luego, cada sección de oblea se clasifica en función de los resultados de estas pruebas.

Una vez completada, la oblea se corta en piezas individuales, o "troqueles", que son viables para su uso. Estos troqueles luego se montan en un sustrato, similar a una placa base especializada. El procesador se somete a un embalaje adicional (por ejemplo, con un disipador de calor) antes de que esté listo para su distribución.

La secuencia completa puede tomar semanas de fabricación y compañías como TSMC y Samsung cobran tarifas altas por cada oblea, entre $ 3,000 y $ 20,000, según el nodo de proceso que se utilice.

"Nodo de proceso" es el término utilizado para describir todo el sistema de fabricación. Históricamente, recibieron el nombre de la longitud de puerta del transistor. Sin embargo, a medida que la tecnología de fabricación mejoró y permitió componentes cada vez más pequeños, la nomenclatura ya no siguió ningún aspecto físico del troquel y ahora es simplemente una herramienta de marketing.

Sin embargo, cada nuevo nodo de proceso trae beneficios sobre su predecesor. Podría ser más barato de producir, consumir menos energía a la misma velocidad de reloj (o viceversa) o tener una mayor densidad. La última métrica mide cuántos componentes pueden caber dentro de un área de troquel determinada. En el siguiente gráfico, puede ver cómo ha evolucionado esto a lo largo de los años para las GPU (los chips más grandes y complejos que encontrará en una PC)...

Las mejoras en los nodos de proceso brindan un medio para que los ingenieros aumenten las capacidades y el rendimiento de sus productos, sin tener que usar chips grandes y costosos. Sin embargo, el gráfico anterior solo cuenta una parte de la historia, ya que no todos los aspectos de un procesador pueden beneficiarse de estos avances.

Los circuitos dentro de los chips se pueden asignar a una de las siguientes categorías amplias:

Desafortunadamente, mientras que los circuitos lógicos continúan reduciéndose con cada gran avance en la tecnología de nodos de proceso, los circuitos analógicos apenas han cambiado y la SRAM también está comenzando a alcanzar un límite.

Si bien la lógica aún forma la parte más grande del dado, la cantidad de SRAM en las CPU y GPU de hoy en día ha crecido significativamente en los últimos años. Por ejemplo, el chip Vega 20 de AMD utilizado en su tarjeta gráfica Radeon VII tiene un total combinado de 5 MB de caché L1 y L2. Solo dos generaciones de GPU más tarde, el Navi 21 tiene más de 130 MB de caché variada, 25 veces más que Vega 20.

Podemos esperar que estos niveles continúen aumentando a medida que se desarrollen nuevas generaciones de procesadores, pero dado que la memoria no se reduce tan bien como la lógica, será cada vez menos rentable fabricar todos los circuitos en el mismo nodo de proceso.

En un mundo ideal, uno diseñaría un troquel en el que las secciones analógicas se fabrican en el nodo más grande y más barato, las piezas SRAM en uno mucho más pequeño y la lógica reservada para la tecnología más avanzada. Desafortunadamente, esto no se puede lograr en la práctica. Sin embargo, existe un enfoque alternativo.

En 1995, Intel lanzó un sucesor de su procesador P5 original, el Pentium II. Lo que lo diferenció de la tarifa habitual en ese momento fue que debajo del escudo de plástico se encontraba una placa de circuito que albergaba dos chips: el chip principal, que contenía toda la lógica de procesamiento y los sistemas analógicos, y uno o dos módulos SRAM separados que servían como Nivel 2 cache.

Intel fabricó el chip principal, pero el caché se obtuvo de otras empresas. Esto se volvería bastante estándar para las PC de escritorio a mediados y finales de la década de 1990, hasta que las técnicas de fabricación de semiconductores mejoraron hasta el punto en que la lógica, la memoria y el análogo podían integrarse en el mismo troquel.

Pentium II de Intel: CPU en el medio, chips de caché a la derecha. Fuente: Wikimedia

Si bien Intel continuó incursionando con múltiples chips en el mismo paquete, se mantuvo en gran medida con el llamado enfoque monolítico para procesadores, es decir, un chip para todo. Para la mayoría de los procesadores, no había necesidad de más de un troquel, ya que las técnicas de fabricación eran lo suficientemente competentes (y asequibles) para mantenerlo sencillo.

Sin embargo, otras empresas estaban más interesadas en seguir un enfoque multichip, sobre todo IBM. En 2004, fue posible comprar una versión de 8 chips de la CPU del servidor POWER4 que constaba de cuatro procesadores y cuatro módulos de caché, todos montados dentro del mismo cuerpo (conocido como módulo multichip o enfoque MCM).

Alrededor de este tiempo, el término "integración heterogénea" (HI) comenzó a aparecer, en parte debido al trabajo de investigación realizado por DARPA (Agencia de Proyectos de Investigación Avanzada de Defensa). HI tiene como objetivo separar las diversas secciones de un sistema de procesamiento, fabricarlas individualmente en los nodos más adecuados para cada una y luego combinarlas en el mismo paquete.

Hoy en día, esto se conoce mejor como sistema en paquete (SiP) y ha sido el método estándar para equipar relojes inteligentes con chips desde su creación. Por ejemplo, el Apple Watch Serie 1 alberga una CPU, algo de DRAM y NAND Flash, múltiples controladores y otros componentes dentro de una sola estructura.

Una radiografía del S1 SiP de Apple. Fuente: iFixit

Se puede lograr una configuración similar al tener diferentes sistemas en un solo dado (conocido como sistema en chip o SoC). Sin embargo, este enfoque no permite aprovechar los diferentes precios de nudo, ni todos los componentes pueden fabricarse de esta manera.

Para un proveedor de tecnología, usar la integración heterogénea para un producto de nicho es una cosa, pero emplearla para la mayoría de su cartera es otra. Esto es precisamente lo que hizo AMD con su gama de procesadores. En 2017, el gigante de los semiconductores lanzó su arquitectura Zen en forma de CPU de escritorio Ryzen de una sola matriz. Varios meses después, debutaron dos líneas de productos de múltiples chips, Threadripper y EPYC, y esta última con hasta cuatro troqueles.

Con el lanzamiento de Zen 2 dos años después, AMD adoptó por completo HI, MCM, SiP, llámelo como quiera. Sacaron la mayoría de los sistemas analógicos del procesador y los colocaron en un troquel separado. Estos se fabricaron en un nodo de proceso más simple y económico, mientras que se usó uno más avanzado para la lógica y el caché restantes.

Y así, los chiplets se convirtieron en la palabra de moda preferida.

Para entender exactamente por qué AMD eligió esta dirección, examinemos la imagen a continuación. Muestra dos CPU de la serie Ryzen 5: la 2600 a la izquierda, que emplea la llamada arquitectura Zen+, y la 3600 con tecnología Zen 2 a la derecha.

Se quitaron los disipadores de calor de ambos modelos y las fotografías se tomaron con una cámara de infrarrojos. La matriz única del 2600 alberga ocho núcleos, aunque dos de ellos están deshabilitados para este modelo en particular.

Fuente: Fritzchen Fritz

Este también es el caso del 3600, pero aquí podemos ver que hay dos troqueles en el paquete: el troquel complejo central (CCD) en la parte superior, que alberga los núcleos y el caché, y el troquel de entrada/salida (IOD) en la parte inferior contiene todos los controladores (para memoria, PCI Express, USB, etc.) e interfaces físicas.

Dado que ambas CPU Ryzen encajan en el mismo zócalo de la placa base, las dos imágenes están esencialmente a escala. En la superficie, podría parecer que los dos troqueles del 3600 tienen un área combinada más grande que el único chip del 2600, pero las apariencias pueden ser engañosas.

Si comparamos directamente los chips que contienen los núcleos, está claro cuánto espacio ocupan los circuitos analógicos en el modelo anterior: son todos los colores azul verdosos que rodean los núcleos dorados y el caché. Sin embargo, en el CCD Zen 2, se dedica muy poca área de matriz a los sistemas analógicos; está compuesto casi en su totalidad por lógica y SRAM.

El chip Zen+ tiene un área de 213 mm² y fue fabricado por GlobalFoundries utilizando su nodo de proceso de 12 nm. Para Zen 2, AMD retuvo los servicios de GlobalFoundries para el IOD de 125 mm² pero utilizó el nodo N7 superior de TSMC para el CCD de 73 mm².

Zen+ (arriba) frente a Zen 2 CCD (abajo)

El área combinada de los chips en el modelo más nuevo es más pequeña y también cuenta con el doble de caché L3, lo que admite una memoria más rápida y PCI Express. Sin embargo, la mejor parte del enfoque del chiplet fue que el tamaño compacto del CCD hizo posible que AMD incluyera otro en el paquete. Este desarrollo dio origen a la serie Ryzen 9, que ofrece modelos de 12 y 16 núcleos para PC de escritorio.

Aún mejor, al usar dos chips más pequeños en lugar de uno grande, cada oblea puede producir potencialmente más troqueles. En el caso del CCD Zen 2, una sola oblea de 12 pulgadas (300 mm) puede producir hasta un 85 % más de matrices que el modelo Zen+.

Cuanto más pequeño sea el trozo que se extrae de una oblea, es menos probable que se encuentren defectos de fabricación (ya que tienden a estar distribuidos aleatoriamente en el disco), por lo que teniendo todo esto en cuenta, el enfoque del chiplet no solo le dio a AMD la capacidad de expandir su cartera, lo hizo de manera mucho más rentable: ¡los mismos CCD se pueden usar en múltiples modelos y cada oblea produce cientos de ellos!

Cuanto más pequeña sea la pieza extraída de una oblea, es menos probable que se produzcan defectos de fabricación (ya que tienden a distribuirse aleatoriamente por el disco). Entonces, teniendo todo esto en cuenta, el enfoque de chiplet no solo permitió a AMD expandir su cartera, sino que también lo hizo de manera mucho más rentable. Los mismos CCD se pueden usar en varios modelos, ¡y cada oblea produce cientos de ellos!

Pero si esta elección de diseño es tan ventajosa, ¿por qué Intel no la está haciendo? ¿Por qué no vemos que se use en otros procesadores, como las GPU?

Para abordar la primera pregunta, Intel está adoptando la ruta de chiplet completo y está en camino de hacerlo con su próxima arquitectura de CPU de consumo, llamada Meteor Lake. Naturalmente, el enfoque de Intel es algo único, así que exploremos en qué se diferencia del enfoque de AMD.

Usando el término mosaicos en lugar de chiplets, esta generación de procesadores dividirá el diseño previamente monolítico en cuatro chips separados:

Hay conexiones de alta velocidad y baja latencia entre el SOC y los otros tres mosaicos, y todos ellos están conectados a otro troquel, conocido como intercalador. Este intercalador entrega energía a cada chip y contiene las huellas entre ellos. Luego, el intercalador y cuatro placas se montan en una placa adicional para permitir empaquetar todo el conjunto.

A diferencia de Intel, AMD no utiliza ningún troquel de montaje especial, sino que tiene su propio sistema de conexión único, conocido como Infinity Fabric, para manejar transacciones de datos de chiplet. La entrega de energía se ejecuta a través de un paquete bastante estándar, y AMD también usa menos chipsets. Entonces, ¿por qué el diseño de Intel es como tal?

Un desafío con el enfoque de AMD es que no es muy adecuado para el sector ultramóvil y de bajo consumo. Es por eso que AMD todavía usa CPU monolíticas para ese segmento. El diseño de Intel les permite mezclar y combinar diferentes mosaicos para satisfacer una necesidad específica. Por ejemplo, los modelos económicos para computadoras portátiles asequibles pueden usar mosaicos mucho más pequeños en todas partes, mientras que AMD solo tiene un tamaño de chiplet para cada propósito.

La desventaja del sistema de Intel es que es complejo y costoso de producir, aunque es demasiado pronto para predecir cómo afectará esto a los precios minoristas. Sin embargo, ambas firmas de CPU están totalmente comprometidas con el concepto de chiplet. Una vez que cada parte de la cadena de fabricación esté diseñada a su alrededor, los costos deberían disminuir.

Con respecto a las GPU, contienen relativamente poco en términos de circuitos analógicos en comparación con el resto del dado, pero la cantidad de SRAM en su interior aumenta constantemente. Esta es la razón por la que AMD aplicó su conocimiento de chiplet a su última serie Radeon 7000, con las GPU Radeon RX 7900 compuestas de múltiples matrices: una única grande para los núcleos y la memoria caché L2, y cinco o seis chips pequeños, cada uno con una porción de memoria caché L3. y un controlador de memoria.

Al sacar estas piezas del troquel principal, los ingenieros pudieron aumentar significativamente la cantidad de lógica sin necesidad de utilizar los últimos nodos de proceso para mantener el tamaño de los chips bajo control. Sin embargo, el cambio no reforzó la amplitud de la cartera de gráficos, aunque probablemente ayudó a mejorar los costos generales.

Actualmente, Intel y Nvidia no muestran signos de seguir el ejemplo de AMD con sus diseños de GPU. Ambas empresas utilizan TSMC para todas las tareas de fabricación y parecen contentas con producir chips extremadamente grandes, transfiriendo el costo a los consumidores.

Sin embargo, con la disminución constante de los ingresos en el sector de gráficos, es posible que veamos que todos los proveedores de GPU adopten la misma ruta en los próximos años.

No importa cuándo ocurran estos cambios, la verdad fundamental es que deben ocurrir. A pesar de los tremendos avances tecnológicos en la fabricación de semiconductores, existe un límite definido de cuánto se puede encoger cada componente.

Para continuar mejorando el rendimiento del chip, los ingenieros básicamente tienen dos vías: agregar más lógica, con la memoria necesaria para admitirlo, y aumentar las velocidades del reloj interno. Respecto a esto último, la CPU media no se ha alterado significativamente en este aspecto desde hace años. El procesador FX-9590 de AMD, de 2013, podía alcanzar los 5 GHz en determinadas cargas de trabajo, mientras que la velocidad de reloj más alta en sus modelos actuales es de 5,7 GHz (con el Ryzen 9 7950X).

Intel lanzó recientemente el Core i9-13900KS, capaz de alcanzar los 6 GHz en las condiciones adecuadas, pero la mayoría de sus modelos tienen velocidades de reloj similares a las de AMD.

Sin embargo, lo que ha cambiado es la cantidad de circuitos y SRAM. El FX-9590 mencionado anteriormente tenía 8 núcleos (y 8 subprocesos) y 8 MB de caché L3, mientras que el 7950X3D cuenta con 16 núcleos, 32 subprocesos y 128 MB de caché L3. Las CPU de Intel se han expandido de manera similar en términos de núcleos y SRAM.

La primera GPU de sombreado unificado de Nvidia, la G80 de 2006, constaba de 681 millones de transistores, 128 núcleos y 96 kB de caché L2 en un chip de 484 mm2 de área. Avance rápido hasta 2022, cuando se lanzó el AD102, y ahora comprende 76,3 mil millones de transistores, 18,432 núcleos y 98,304 kB de caché L2 dentro de 608 mm2 de área de matriz.

En 1965, el cofundador de Fairchild Semiconductor, Gordon Moore, observó que en los primeros años de la fabricación de chips, la densidad de los componentes dentro de una matriz se duplicaba cada año por un costo de producción mínimo fijo. Esta observación se conoció como la Ley de Moore y luego se interpretó en el sentido de que "la cantidad de transistores en un chip se duplica cada dos años", según las tendencias de fabricación.

La Ley de Moore se ha mantenido como una descripción razonablemente precisa de la progresión de la industria de los semiconductores durante casi seis décadas. Las tremendas ganancias en lógica y memoria tanto en CPU como en GPU se han logrado a través de mejoras continuas en los nodos de proceso, con componentes cada vez más pequeños a lo largo de los años.

Sin embargo, esta tendencia no puede continuar para siempre, independientemente de la nueva tecnología que surja.

En lugar de esperar a que se alcance este límite, empresas como AMD e Intel han recurrido a los chiplets, explorando varias formas en que pueden combinarse para seguir avanzando en la creación de procesadores cada vez más potentes.

Décadas en el futuro, la PC promedio podría albergar CPU y GPU del tamaño de su mano, pero retire el disipador de calor y encontrará una gran cantidad de pequeños chips, no tres o cuatro, sino docenas de ellos, todos ingeniosamente embaldosados y apilados juntos.

El dominio de la chiplet no ha hecho más que empezar.

Índice