Тензорный ускоритель Tensordyne Napier с графическим чипом

Tensordyne, ранее работавшая под названием Recogni, представила платформу Napier для ИИ-инференса. Стартап обещает решить две самые дорогие проблемы рынка: скорость генерации токенов и энергопотребление за счёт «логарифмической» арифметики и плотной интеграции памяти. Партнёрами проекта названы Broadcom и HPE Juniper Networks.

Подход Tensordyne сводится к замене части операций умножения более простыми операциями сложения. Компания утверждает, что это освобождает площадь кристалла под SRAM и повышает производительность на ватт. Для сегмента инференса это не абстрактная оптимизация: по оценке Dell’Oro Group, расходы дата-центров на ускорители для генеративного ИИ уже смещаются от обучения к обслуживанию запросов, где важны не пиковые FLOPS, а цена токена и плотность размещения.

Напрямую Tensordyne сравнивает Napier с системами NVIDIA. Это ожидаемо: у NVIDIA в сегменте ускорителей для ИИ более 80% выручки рынка дата-центров, а альтернативные игроки, от Groq до Cerebras и SambaNova, обычно пытаются атаковать именно инференс, где проще обосновать выигрыш по энергопотреблению и задержкам. На этом фоне Napier выглядит как ещё одна попытка продать не просто чип, а готовую стойку.

Характеристики Tensordyne Napier

Сам чип Napier включает 138 млрд транзисторов, поддерживает форматы NVFP4, FP8 и FP16 и, по данным компании, выдаёт 2,1 Пфлопс в плотных FP8-вычислениях на кристалл. Частота вычислительных ядер составляет 1,33 ГГц, встроенных RISC-V-ядер — 1,5 ГГц. В беседе с The Next Platform сооснователь и директор по продуктам Р.К. Ананд сообщил, что ускоритель оснащён 48 ядрами, связанными с векторными блоками и таблицами поиска LUT.

  • 4 стека HBM объёмом 36 ГБ каждый
  • 144 ГБ HBM суммарно
  • Пропускная способность HBM до 4,7 ТБ/с
  • 256 МБ SRAM на кристалле
  • Пропускная способность SRAM до 40 ТБ/с
  • Заявленное энергопотребление одного чипа 300 Вт

Самый сложный вопрос для Napier не в железе, а в софте. Tensordyne запускает центр моделей на Hugging Face, обещает собственный SDK, прямую компиляцию для PyTorch и Triton и кастомный Python eDSL. Этого набора достаточно для демонстраций, но недостаточно, чтобы быстро повторить эффект CUDA, вокруг которой NVIDIA строила экосистему больше десяти лет. Похожую проблему проходили почти все новые игроки рынка, включая Intel Gaudi и Graphcore: хорошая архитектура без зрелого инструментария продаётся медленно.

Рынок даст ответ не по паспортным характеристикам, а по внедрениям в 2026-2027 годах. Если Tensordyne подтвердит заявленную производительность на реальных LLM и удержит обещанное энергопотребление на уровне стойки, компания сможет занять нишу в дата-центрах, где ограничением уже стала не цена GPU, а доступная мощность на площадке.

Источник: 3dnews
Илья Игнатов
Технический журналист и новостник. Окончил МТУСИ по специальности «Информационная безопасность». Пишет о железе, софте и потребительской электронике с 2018 года. Верит, что хорошая новость — это когда всё по делу и без воды.

Leave a reply