La influencia de NVIDIA parece imparable frente a los intentos de Biden por frenarla. Jensen Huang, con habilidad magistral, sortea cada sanción y bloqueo impuesto por su propio país hacia China.
NVIDIA no quiere perder el gran mercado en china
En este escenario, a menos que se implemente un bloqueo directo a la compañía, el gigante de la inteligencia artificial continuará suministrando sus unidades de procesamiento gráfico a China, desafiando las restricciones gubernamentales estadounidenses.
La situación plantea un desafío significativo para Biden, ya que, contrariamente a lo que podría esperarse debido a la supuesta menor potencia de las nuevas GPU, resulta que una de ellas supera en velocidad a la H100 en un punto específico. Así, se vislumbra el futuro de las HGX H20, L20 PCIe y L2 PCIe.
Apoyados en la arquitectura Hopper, que está al borde de la obsolescencia (dos de ellas son de Ada Lovelace), NVIDIA ha respondido rápidamente a los requisitos de Biden con un ingenioso movimiento.
Nuevas GPU que cumplirían con la normativa
En apenas unas semanas, han presentado tres nuevos productos que, si bien no cumplen exactamente con las expectativas de China, están destinados a alterar nuevamente el panorama tecnológico.
No se trata simplemente de un inconveniente, sino de un verdadero desafío. Para comprender la magnitud del problema, es crucial examinar las especificaciones que se han filtrado.
Con la próxima HGX H20, nos encontraremos con una GPU equipada con impresionantes 96 GB de memoria HBM3, un asombroso ancho de banda de 4 TB/s, aunque con un rendimiento relativamente limitado impuesto por las restricciones establecidas por la administración de Biden:
– INT8 y FP8 a través del Tensor Core, ofreciendo 296 TFLOPS.
– BF16 y FP16, también con el soporte del Tensor Core, con un rendimiento de 148 TFLOPS.
– TF32 con Tensor Core, alcanzando los 74 TFLOPS.
– FP32, brindando 44 TFLOPS.
– FP64, sin embargo, se limita a 1 TFLOP.
Poder gráfico no tan limitado
Acompañando a estas especificaciones, encontraremos 60 MB de memoria caché L2, una cifra que, aunque modesta, debe tenerse en cuenta, especialmente considerando que el consumo de energía alcanzará los 400W.
Sorprendentemente, y aún desconcertante para muchos, NVIDIA ha integrado NVLink sin restricciones, operando a una velocidad de 900 GB/s, una cifra teóricamente imposible debido a las limitaciones impuestas.
Regresando al meollo del asunto, ¿Dónde reside la controversia con esta GPU? La NVIDIA HGX H20 incorpora innovaciones del próximo chip insignia de la compañía, el B100, resultando en un impresionante ancho de banda de 4 Tbps, un aumento del 17,64% en comparación con el actual H100.
¿Qué repercusiones tiene esto? Significa que el rendimiento en Inferencia LLM supera, no se ve mermado, en comparación con el mejor chip de la generación actual de NVIDIA. En consecuencia, China y NVIDIA han sorteado con maestría las restricciones de Biden, al menos en parte.
Una versión recortada de Ada Lovelace
Entramos ahora en la arquitectura Ada Lovelace, lo que implica características distintivas heredadas del chip RTX 4090, conocido como AD102. Este chip contará con una capacidad de 48 GB de memoria GDDR6, ofreciendo un impresionante ancho de banda de 864 GB/s. En términos de rendimiento, alcanzará los 239 TFLOPS en INT8 y FP8, así como 119,5 TFLOPS en BF16 y FP16.
Es relevante señalar que, a pesar de ser una versión recortada de la L40, esta variante mantendrá elementos clave como los RT Cores y una considerable capacidad de memoria L2, con notables 96 MB.
Sin embargo, se verá limitada en las capacidades de Media Engines NVENC y NVDEC. Con un consumo más moderado de 275W y la compatibilidad con PCIe Gen 4, se presenta como una opción eficiente en términos de energía.
Esta será la variante más modesta de las tres y comparte la filosofía de diseño que acabamos de explorar con la L20. Sin embargo, su rendimiento será ligeramente inferior, comenzando con una capacidad de VRAM GDDR6 de 24 GB y un ancho de banda para dicha memoria de 300 GB/s.
Disponibilidad antes de fin de año
En términos de rendimiento, se mantiene en un nivel aceptable con cifras de 193 TFLOPS, 96,5 TFLOPS y 48,3 TFLOPS para INT8/FP8, BF16/FP16 y TF32, respectivamente. Aunque presenta un número reducido de RT Cores, dispone de 36 MB de memoria L2 y una capacidad ligeramente inferior en términos de NVENC y NVDEC. Curiosamente, no se han revelado detalles sobre su consumo energético.
En cuanto a la disponibilidad, se espera que las HGX H20 y L20 PCIe estén disponibles entre finales de este mes y principios de diciembre, lo que sugiere que NVIDIA ha estado varios pasos por delante de las sanciones planeadas por Estados Unidos hacia China.
En cambio, la L2 PCIe experimentará un retraso y se espera para finales de diciembre o principios de 2024. Como era de esperar, los precios aún no han sido revelados.
Un dato crucial en la intensa competencia tecnológica entre China y Estados Unidos, donde NVIDIA ocupa un papel central, es que solo la HGX H20 incorporará la tecnología CoWoS, mientras que las L20 PCIe y L2 PCIe emplearán un interposer común.
NVIDIA no perderá terreno con los Modelos de Lenguaje
Este detalle implica que el cuello de botella de TSMC asociado con CoWoS afectará únicamente a la primera, dejando a salvo a las dos últimas, que podrán producirse en grandes cantidades para aquellas empresas que necesiten capacidades de entrenamiento de modelos de lenguaje menos avanzados.
En resumen, la estrategia de NVIDIA demuestra ser astuta. Aunque China experimentará una disminución en su capacidad de cómputo global, ganará ventaja en inferencia LLM, permitiéndole adquirir GPU a una escala significativa.
Esto sugiere que Estados Unidos busca ejercer presión sin asfixiar a China por completo, ya que reconoce la importancia de continuar vendiendo hardware en este contexto geopolítico.