Rankito
15/05/26 17:15
Ha respondido al tema
Cerebras,¿La nueva Nvidia?
Sí, por lo que describes estás hablando casi seguro de Cerebras y sus chips tipo wafer-scale, es decir, usar prácticamente una oblea entera de silicio como “un único chip gigante”, en vez de cortar la oblea en muchos chips pequeños como hace Nvidia, AMD, Intel, etc.
La idea es muy potente, pero tiene bastantes matices.
¿Qué problema intenta resolver?
En IA, especialmente en entrenamiento e inferencia de modelos grandes, el cuello de botella no es solo “tener muchos núcleos”, sino mover datos entre ellos.
En un sistema tradicional tienes muchas GPU conectadas entre sí mediante NVLink, InfiniBand, PCIe, switches, memoria HBM, redes externas, etc. Eso funciona, pero introduce:
Latencia.
Consumo energético.
Complejidad de red.
Cuellos de botella en comunicación.
Mucho coste de integración.
Cerebras dice: “en vez de conectar miles de chips, meto muchísimos núcleos en una oblea completa y reduzco al máximo la distancia física entre ellos”.
Por eso lo de “una mega oblea de silicio”.
Ventajas reales de esta arquitectura
La tesis tecnológica tiene sentido. No es una ocurrencia absurda.
Las ventajas principales son:
1. Menos comunicación externa entre chips Al estar muchos núcleos en el mismo sustrato, se reduce parte del problema de interconexión. En IA, eso puede ser muy importante.
2. Muchísimo paralelismo Puedes tener una cantidad enorme de núcleos trabajando en paralelo sobre una misma carga.
3. Latencias menores dentro del wafer Las distancias internas son mucho menores que las de un clúster lleno de GPUs separadas.
4. Sistema más integrado El cliente no compra solo un chip, sino una máquina completa optimizada para IA. Esto puede simplificar despliegues en ciertos casos.
5. Muy interesante para modelos grandes o cargas específicas En determinados escenarios puede ser competitivo frente a clústeres convencionales de GPUs.
Pero el problema que comentas del rendimiento de fabricación es clave
Tu intuición es buena: si haces chips normales, cortas la oblea en muchos dies. Si algunos salen defectuosos, tiras esos chips y aprovechas los demás.
Pero si haces un “chip” del tamaño de casi toda la oblea, parece que un fallo podría arruinarlo todo.
¿Cómo se intenta solucionar? Con redundancia y tolerancia a fallos. Es decir, el diseño asume que habrá defectos y permite desactivar zonas defectuosas, rutear alrededor de ellas y seguir usando la oblea. No es que necesiten que el 100% de la oblea salga perfecta.
Aun así, esto no elimina el problema. Solo lo hace manejable. Fabricar algo así sigue siendo:
Difícil.
Caro.
Poco convencional.
Dependiente de procesos avanzados.
Más complicado de empaquetar, refrigerar y alimentar eléctricamente.
Así que sí: cada fallo potencial duele más que en chips pequeños, aunque tengan mecanismos para mitigarlo.
¿Pierden escalabilidad?
Aquí hay una paradoja interesante.
A nivel de “un sistema”, ganan porque concentran mucho cómputo y reducen interconexiones. Pero a nivel de ecosistema, Nvidia tiene una ventaja brutal: puede escalar conectando miles y miles de GPUs, con un software muy maduro y una cadena de suministro enorme.
Cerebras puede ser muy buena en ciertos nichos, pero competir con Nvidia no es solo hacer un chip mejor. Hay que competir contra:
CUDA.
Ecosistema de desarrolladores.
Librerías.
Soporte empresarial.
Integración en nubes.
Disponibilidad de hardware.
Coste por rendimiento.
Confianza de clientes.
Capacidad de fabricación.
Roadmap de producto.
Y ahí Nvidia tiene un foso tremendo.
¿Es mejor tecnología?
Depende de qué entiendas por “mejor”.
Como concepto de ingeniería, es muy interesante y posiblemente superior en algunas cargas concretas. Pero “mejor tecnología” no siempre equivale a “mejor negocio”.
En semiconductores, muchas veces gana quien tiene la mejor combinación de:
Rendimiento.
Coste.
Software.
Producción en volumen.
Compatibilidad.
Ecosistema.
Márgenes.
Capacidad comercial.
Cerebras puede tener una arquitectura brillante, pero eso no garantiza que sea la ganadora masiva del mercado.
¿Es más rentable?
Aquí tengo más dudas.
Una arquitectura así puede ofrecer mucho rendimiento, pero fabricar sistemas wafer-scale no parece barato. Además, al vender máquinas muy especializadas, el mercado potencial puede ser más limitado que el de GPUs generalistas.
Nvidia vende a hyperscalers, empresas, investigadores, nubes, fabricantes, startups, sector público, etc. Sus GPUs sirven para entrenamiento, inferencia, gráficos, simulación, computación científica y muchas cosas más.
Cerebras está mucho más centrada en IA de alto rendimiento. Si el mercado sigue creciendo brutalmente, puede haber sitio. Pero si los clientes prefieren soluciones más estándar, puede quedar como una tecnología muy buena pero de nicho.
¿Hype de IA o tecnología disruptiva?
Diría que puede ser ambas cosas.
No me parece una simple empresa “vendehumo”. La arquitectura wafer-scale es técnicamente seria y resuelve un problema real. Pero también está claramente envuelta en el hype de IA, porque ahora cualquier compañía relacionada con aceleradores de IA recibe valoraciones y atención enormes.
La pregunta importante no es si la tecnología es bonita, sino:
1. ¿Puede vender suficientes sistemas?
2. ¿Puede escalar producción?
3. ¿Puede competir en coste/rendimiento contra Nvidia, AMD y ASICs propios de Google, Amazon, Meta, Microsoft, etc.?
4. ¿Tiene software suficientemente bueno?
5. ¿Puede mantener márgenes atractivos?
6. ¿Tiene clientes recurrentes o solo proyectos puntuales?
7. ¿Su solución es generalista o solo gana en benchmarks concretos?
Ahí está la clave inversora.
El gran riesgo: no compite solo contra Nvidia
Mucha gente lo plantea como “Cerebras contra Nvidia”, pero el mercado de IA se está llenando de alternativas:
Nvidia con GPU y sistemas completos.
AMD con Instinct.
Google con TPU.
Amazon con Trainium e Inferentia.
Microsoft diseñando sus propios chips.
Meta trabajando también en aceleradores.
Broadcom y Marvell diseñando ASICs para hyperscalers.
Startups de IA hardware.
Chips especializados para inferencia.
Es decir, aunque Cerebras tenga un producto muy bueno, el mercado no está vacío.
Mi lectura
Yo lo vería así:
Tecnológicamente: sí, es una arquitectura muy interesante y potencialmente disruptiva.
Industrialmente: es difícil, cara y compleja.
Comercialmente: tiene que demostrar adopción real más allá del entusiasmo inicial.
Como inversión: sería una apuesta de alto riesgo, más cercana a “venture/growth agresivo” que a una compañía consolidada.
Frente a Nvidia: no la sustituye fácilmente; puede ocupar nichos o casos concretos.
Sobre el hype: hay hype, seguro, pero no parece una empresa sin sustancia.
Tu comentario sobre los defectos de fabricación va justo al punto débil histórico de esta aproximación. La diferencia es que Cerebras intenta resolverlo con redundancia interna, pero aun así no convierte la fabricación en trivial.
En resumen: no diría que es humo, pero tampoco asumiría que por ser una tecnología espectacular vaya a ser automáticamente un gran negocio. Puede ser una innovación real y aun así no capturar una parte enorme del mercado si el coste, el software o la adopción no acompañan.