Google показала Gemini Omni для видео из текста, фото и звука

Google запустила Gemini Omni, новую линейку мультимодальных моделей, и начала с самого понятного применения: генерации видео почти из чего угодно. Первая версия, Gemini Omni Flash, собирает ролики из текста, фотографий, аудио и готовых видео, а затем позволяет править результат обычными фразами в чате.
Главная интрига тут не в самом факте «Google тоже умеет видео». Этим уже никого не удивишь после Sora, Runway Gen-3 и собственного Veo. Интереснее другое: Google пытается склеить генерацию и монтаж в один интерфейс, где модель не просто рисует клип с нуля, а держит сцену в памяти и не разваливает логику после каждой новой команды. Для видеогенераторов это до сих пор больное место.
Что умеет Gemini Omni Flash
По описанию Google, Gemini Omni Flash делает ставку на video-to-video. То есть пользователь может взять готовый ролик, попросить изменить окружение, стиль, действия персонажа или подачу сцены, и модель должна сохранить последовательность событий. Это заметно практичнее, чем очередной генератор «сделай мне красивый 8-секундный сон нейросети».
Сейчас лимит скромный: видео со звуком длиной до 10 секунд. Для YouTube Shorts и рекламных вставок этого хватит, для чего-то длиннее уже нет. Но именно короткий формат сейчас и кормит весь сегмент, потому что вычислительно он дешевле, а спрос у блогеров, агентств и мобильных редакторов огромный.
- входные данные: текст, фото, аудио, видео
- редактирование ролика через диалоговые команды
- генерация видео со звуком
- сохранение логики сцены между правками
- создание цифрового аватара с собственным голосом

Чем Gemini Omni отличается от Veo
Google прямо противопоставляет Omni своей же модели Veo. Если Veo воспринимали как инструмент для красивой генерации по промпту, то Omni подают как более универсальную систему, которая понимает контекст сцены, физику объектов и умеет работать с уже существующим материалом. По сути, это шаг от «нарисуй» к «собери и переделай».
Такой ход выглядит логично. У OpenAI Sora сильная узнаваемость, у Runway крепкие позиции среди креаторов и студий, а Google нужно занять нишу рабочего инструмента внутри собственной экосистемы. Отсюда и запуск не только в Gemini и Flow, но и бесплатный доступ через YouTube Shorts и YouTube Create. Компания тащит видео-ИИ туда, где уже живёт массовый автор, а не только в витрину для подписчиков.
Отдельно Google хвастается знаниями модели о реальном мире: исторический контекст, научные факты, гравитация, поведение жидкостей. Это, конечно, звучит как стандартный пиар любой большой модели, но в видео такая база действительно важнее, чем в чат-боте. Пользователь прощает текстовой нейросети странную формулировку, а вот неестественное движение воды или рук в кадре замечает сразу.

Где уже работает Gemini Omni
Gemini Omni Flash уже открыли глобально для подписчиков Google AI Plus, Pro и Ultra через Gemini и Google Flow. Параллельно компания запускает бесплатный доступ в YouTube Shorts и YouTube Create. Это важная деталь: Google не ждёт, когда пользователи сами придут в отдельный ИИ-сервис, а встраивает генерацию туда, где люди и так режут вертикальные ролики.
С безопасностью всё предсказуемо. Google ограничила подмену чужой речи в видео и ставит на ролики невидимый водяной знак SynthID. После волны дипфейков в 2024 и 2025 годах это уже обязательная санитария, а не повод для аплодисментов. Вопрос в другом: будут ли платформы реально проверять этот маркер при публикации, или всё закончится галочкой для пресс-релиза.
Если Google быстро поднимет лимит выше 10 секунд, Omni Flash может стать базовым инструментом для короткого видео уже к концу 2026 года. Следующий шаг компании, судя по анонсу, — вывод аудио и статических изображений в той же линейке.



