Название модели Gemma 4 12B и описание трансформера

Google представила открытую ИИ-модель Gemma 4 12B, рассчитанную на локальный запуск на устройствах с 16 ГБ видеопамяти или унифицированной памяти. Это средняя модель в линейке Gemma между компактной 4B-версией и более крупной архитектурой на 26 млрд параметров. Главная новость в другом: 12B стала первой моделью семейства с нативной поддержкой аудиовхода.

Компания утверждает, что модель обрабатывает изображения и звук без классической схемы с отдельными энкодерами. Для визуальных данных Google заменила полноценный vision-энкодер облегчённым модулем на матричных преобразованиях и позиционном кодировании. Аудиосигнал, по описанию компании, проецируется напрямую в пространство текстовых токенов. Такая схема снижает вычислительные затраты и экономит память, что для локального запуска важнее громких цифр в бенчмарках.

В Google добавляют, что по стандартным тестам Gemma 4 12B приближается к результатам 26-миллиардной версии. Модель также поддерживает Multi-Token Prediction, когда система предсказывает несколько токенов за шаг и тем самым сокращает задержку генерации. Отдельный акцент сделан на агентные сценарии: Google позиционирует новинку как основу для приложений, которые не только отвечают на запрос, но и выполняют последовательность действий.

Релиз выходит под лицензией Apache 2.0. Для разработчиков это важная деталь: такая лицензия заметно мягче, чем ограничения у многих других открытых моделей, включая семейство Llama от Meta*, где действуют собственные лицензионные условия. Google также говорит о 150 млн загрузок всей линейки Gemma. Для сравнения, у закрытых мультимодальных систем вроде GPT-4o и Gemini 1.5/2.5 локальный запуск в пользовательском железе обычно не считается основным сценарием, а в открытом сегменте нативная работа с аудио пока встречается реже, чем поддержка текста и изображений.

Ставка на 12 млрд параметров выглядит практичной и по железу. Конфигурация с 16 ГБ памяти уже доступна в массовых видеокартах уровня GeForce RTX 4060 Ti 16GB и в ноутбуках на чипах Apple M-серии с расширенной unified memory. Если Gemma 4 12B подтвердит заявленную эффективность вне лабораторных тестов, Google получит более сильную позицию в нише локального ИИ, где конкурируют не самые крупные модели, а те, что помещаются на обычный рабочий компьютер.

* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.

Сергей Кузнецов
Главный редактор itzine.ru и технический журналист с 15-летним стажем. Специализируется на глубоком тестировании аудиооборудования, фототехники и потребительской электроники. Автор более 5000 материалов, охватывающих широкий спектр тем: от обзоров игровых кресел и сетевого оборудования до аналитики рынка смартфонов и носимых гаджетов. На платформе курирует экспертные разделы и формирует редакционную политику издания.

Leave a reply