Google открыла ИИ-модель DiffusionGemma со скоростью 1000 токенов в секунду

Google представила экспериментальную языковую модель DiffusionGemma с открытым исходным кодом. Она отличается от большинства чат-ботов тем, что не дописывает текст токен за токеном, а генерирует сразу блок и затем несколько раз его уточняет. Компания делает ставку не на максимальное качество ответа, а на минимальную задержку, поэтому проект адресован в первую очередь разработчикам и исследователям.
Для языковых моделей такой подход редок. Большинство систем, включая GPT, Claude, Gemini и Llama, используют авторегрессивную схему и строят ответ последовательно. Диффузионные методы давно закрепились в генераторах изображений, но для текста их сложнее применять из-за дискретной природы токенов. Google пытается превратить эту исследовательскую идею в практический инструмент для сценариев, где важнее скорость отклика, чем литературная аккуратность.
Модель начинает ответ с набора случайных токенов, то есть фактически с «шума», и за несколько проходов превращает его в читаемый текст. По данным Google, на ускорителе Nvidia H100 она выдаёт до 1000 токенов в секунду, а на потребительской видеокарте — до 700 токенов в секунду. Для сравнения, в открытом сегменте разработчики обычно соревнуются за качество на бенчмарках и размер контекстного окна, а не за такую грубую скорость генерации.
Характеристики DiffusionGemma
DiffusionGemma построена по схеме Mixture-of-Experts. Общий размер модели составляет 26 млрд параметров, но в каждом проходе активны только 3,8 млрд. За счёт этого снижается вычислительная нагрузка, а для запуска требуется около 18 ГБ видеопамяти. Apache 2.0 разрешает коммерческое использование и доработку, поэтому модель может быстро попасть в сторонние инструменты, если разработчиков устроит компромисс по качеству.
- 26 млрд параметров в сумме
- 3,8 млрд активных параметров за проход
- 256 токенов генерируются одним блоком
- Около 18 ГБ видеопамяти для работы
- До 1000 токенов в секунду на Nvidia H100
- Открытая лицензия Apache 2.0

Блочная генерация даёт модели более широкий обзор ответа на каждом шаге. Google считает, что это полезно в задачах со строгой структурой и правилами: при заполнении фрагментов кода, работе с JSON, логическими цепочками и математическими шаблонами. Если внутри блока возникает противоречие, модель может исправить его в том же цикле, а не дожидаться следующих токенов. Для редакторов и программистов это звучит как режим «черновик сразу, шлифовка потом».

Ограничение у DiffusionGemma прямое: качество ответа уступает Gemma 4. Поэтому Google не предлагает модель как замену Gemma или Gemini и называет её экспериментом для узких сценариев. Речь идёт о приложениях реального времени, встроенных помощниках для письма и кода, а также об интерфейсах, где пользователь предпочитает получить черновой ответ сразу и уточнить его следующей итерацией.
Запуск укладывается в более широкий тренд open-source ИИ. После выхода Gemma в 2024 году Google пришлось конкурировать не только с закрытыми моделями OpenAI и Anthropic, но и с Meta* Llama и Mistral в открытом сегменте. DiffusionGemma даёт компании другой аргумент: не лучший универсальный ответ, а более дешёвую и быструю генерацию для прикладных сервисов. Подход будет востребован там, где задержка в десятки миллисекунд важнее красоты формулировки.
* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.



