Nvidia отложила CPX ради Groq 3 LPU и раскрыла возможности Vera CPU для ИИ

(Image credit: Getty Images / Bloomberg)

Вице-президент Nvidia по гиперскейлу и суперкомпьютерам Иан Бак на конференции GTC 2026 рассказал о смене приоритетов компании — вместо выпуска чипа CPX сейчас основной акцент сделан на архитектуру Groq 3 LPU. Он также представил возможности процессора Vera CPU, который предназначен для эффективной работы в ИИ-центрах обработки данных.

CPX — амбициозный, но технически сложный в реализации чип — временно исключён из ближайших планов Nvidia. LPU с архитектурой Groq 3, вместе с программным комплексом Dynamo, разработанным совместно с Groq, будет отвечать за ускоренную декодировку ИИ-моделей. При этом Vera Rubin NVL72 GPU берёт на себя задачи с вниманием, маршрутизацией и KV-кэшированием. В таком тандеме достигается производительность до 1000 токенов в секунду при разумных затратах на оборудование.

Содержание

1. Отложенный CPX и преимущества Groq 3 LPU

2. Vera CPU — новый этап в вычислениях для ИИ

3. Партнёрство с Intel и развитие NVLink Fusion

4. Масштабирование инфраструктуры Vera Rubin и Groq 3 LPX

Отложенный CPX и преимущества Groq 3 LPU

По словам Иана Бака, Nvidia сосредотачивается на выпуске LPU уже в этом году. Чипы Groq 3 LPX объединены в стойки по 256 экземпляров и оптимизированы для максимальной пропускной способности SRAM, что позволяет быстро выделять токены. GPU же выполняют сложные вычисления для обработки внимания и маршрутизации внутри нейросети. Такой подход обеспечивает более эффективное масштабирование и экономичность по сравнению с идеей размещать всю нагрузку на единый тип процессоров.

Разработка CPX перенесена на следующее поколение. При этом сама концепция оптимизации начала декодирования первых токенов остаётся важной и перспективной. Отказ от CPX сейчас обусловлен необходимостью унификации аппаратного решения и программного обеспечения для LPU, а также оптимизацией экономической модели масштабирования ИИ-инфраструктуры.

Vera CPU — новый этап в вычислениях для ИИ

Модуль Vera, продемонстрированный Ианом Баком и ожидаемый к запуску в ближайшее время, содержит два 88-ядерных процессора с поддержкой LPDDR5. Он нацелен на критически важные задачи с высокой производительностью на поток и пропускной способностью памяти. Vera CPU оптимизирован для многопоточных агентных ИИ-приложений, где выполнение, компиляция и оценка кода происходят одновременно и генерируются самой моделью.

Это устройство не предназначено для массового сегмента или игровых решений на базе x86. Vera CPU решает специализированные задачи по ускорению генерации обучающих данных и обеспечению непрерывной работы, снижая простои GPU. Новый процессор задаёт уровень синергии между CPU и GPU, что особенно актуально в быстро развивающейся сфере агентного ИИ.

Партнёрство с Intel и развитие NVLink Fusion

Сотрудничество с Intel продолжается в рамках технологии NVLink Fusion, которая обеспечивает ускоренную связь между процессорами x86 и GPU Nvidia. Несмотря на активное развитие, детали реализации пока не раскрываются. Fusion представляет собой набор IP-блоков и чиплетов, облегчающих передачу данных между ускорителями и процессорами, но полная интеграция требует времени.

Производство чипов и интеграция IP будут распределены между различными партнёрами в зависимости от конкретных проектов. Nvidia ожидает скорых заявлений по дальнейшему сотрудничеству с Intel. Однако перенос Nvidia IP на техпроцессы Intel пока вызывает осторожный подход у руководства компании.

Масштабирование инфраструктуры Vera Rubin и Groq 3 LPX

Архитектура Vera Rubin рассчитана на масштабирование до 40 стоек с высокой пропускной способностью NVLink. Такая инфраструктура создаёт крупные ИИ-центры с сотнями GPUs, связанных медной шиной, что позволяет избежать дорогих и энергоёмких оптических трансиверов. В будущем Nvidia планирует расширить NVLink до второго уровня, увеличив число графических процессоров в кластере до 576, а новые комплекты Grace Blackwell обеспечат поддержку оптических соединений.

Идея объединения Groq 3 LPX и Vera Rubin направлена на достижение экономии в масштабных дата-центрах с моделями ИИ триллионных параметров и контекстом до полумиллиона токенов. Такая стратегия контрастирует с односторонними архитектурами и создаёт основу для масштабируемых решений будущих поколений ИИ.

Кроме аппаратной эффективности, в стратегии важно программное обеспечение и экосистема разработки. Оптимизация софта, включающая 1,2 миллиона GPU-часов работы и поддержку 400 инженеров, а также развитие вычислительных ядер с поддержкой форматов FP16, FP8 и FP4, подчёркивают, что успех зависит от сочетания железа и ПО.

Источник: Tomshardware