Google открыла ИИ-модель DiffusionGemma со скоростью 1000 токенов в секунду

Логотип DiffusionGemma на фоне цифровых данных

Google представила экспериментальную языковую модель DiffusionGemma с открытым исходным кодом. Она отличается от большинства чат-ботов тем, что не дописывает текст токен за токеном, а генерирует сразу блок и затем несколько раз его уточняет. Компания делает ставку не на максимальное качество ответа, а на минимальную задержку, поэтому проект адресован в первую очередь разработчикам и исследователям.

Для языковых моделей такой подход редок. Большинство систем, включая GPT, Claude, Gemini и Llama, используют авторегрессивную схему и строят ответ последовательно. Диффузионные методы давно закрепились в генераторах изображений, но для текста их сложнее применять из-за дискретной природы токенов. Google пытается превратить эту исследовательскую идею в практический инструмент для сценариев, где важнее скорость отклика, чем литературная аккуратность.

Модель начинает ответ с набора случайных токенов, то есть фактически с «шума», и за несколько проходов превращает его в читаемый текст. По данным Google, на ускорителе Nvidia H100 она выдаёт до 1000 токенов в секунду, а на потребительской видеокарте — до 700 токенов в секунду. Для сравнения, в открытом сегменте разработчики обычно соревнуются за качество на бенчмарках и размер контекстного окна, а не за такую грубую скорость генерации.

Характеристики DiffusionGemma

DiffusionGemma построена по схеме Mixture-of-Experts. Общий размер модели составляет 26 млрд параметров, но в каждом проходе активны только 3,8 млрд. За счёт этого снижается вычислительная нагрузка, а для запуска требуется около 18 ГБ видеопамяти. Apache 2.0 разрешает коммерческое использование и доработку, поэтому модель может быстро попасть в сторонние инструменты, если разработчиков устроит компромисс по качеству.

26 млрд параметров в сумме
3,8 млрд активных параметров за проход
256 токенов генерируются одним блоком
Около 18 ГБ видеопамяти для работы
До 1000 токенов в секунду на Nvidia H100
Открытая лицензия Apache 2.0

График сравнения ИИ-моделей Gemma и DiffusionGemma

Блочная генерация даёт модели более широкий обзор ответа на каждом шаге. Google считает, что это полезно в задачах со строгой структурой и правилами: при заполнении фрагментов кода, работе с JSON, логическими цепочками и математическими шаблонами. Если внутри блока возникает противоречие, модель может исправить его в том же цикле, а не дожидаться следующих токенов. Для редакторов и программистов это звучит как режим «черновик сразу, шлифовка потом».

Бенчмарк скорости DiffusionGemma и других моделей ИИ

Ограничение у DiffusionGemma прямое: качество ответа уступает Gemma 4. Поэтому Google не предлагает модель как замену Gemma или Gemini и называет её экспериментом для узких сценариев. Речь идёт о приложениях реального времени, встроенных помощниках для письма и кода, а также об интерфейсах, где пользователь предпочитает получить черновой ответ сразу и уточнить его следующей итерацией.

Запуск укладывается в более широкий тренд open-source ИИ. После выхода Gemma в 2024 году Google пришлось конкурировать не только с закрытыми моделями OpenAI и Anthropic, но и с Meta* Llama и Mistral в открытом сегменте. DiffusionGemma даёт компании другой аргумент: не лучший универсальный ответ, а более дешёвую и быструю генерацию для прикладных сервисов. Подход будет востребован там, где задержка в десятки миллисекунд важнее красоты формулировки.

* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.

Марта Баринова

Редактор новостного отдела, специализирующийся на аналитике программного обеспечения, стриминговых сервисов и изменениях в политике глобальных технологических платформ. В своих материалах Марта подробно освещает обновления Windows, функциональные изменения в Spotify и Google, а также исследует вопросы антимонопольного регулирования магазинов приложений. Автор более 140 публикаций, помогающих пользователям ориентироваться в быстро меняющемся ландшафте цифровых сервисов.