Сбер показал новую версию нейросети для генерации видео Kandinsky Video 1.1

Команда разработчиков Сбера выпустила обновленную версию нейросети Kandinsky Video 1.1 для создания видео. По словам разработчиков, новая модель увеличила скорость генерации видео по тексту и улучшила качество результатов.

Нейросеть Kandinsky Video 1.1 все еще основана на латентной диффузионной модели генерации картинок Kandinsky 3.0. С учетом изменений, длительность готового видео составляет 5,5 секунды, а время генерации — 1 минута при частоте 8 кадров в секунду и 1,5 минуты при 32 кадрах в секунду. Поддерживаемые форматы видео: 16:9, 9:16 и 1:1.

Основное отличие Kandinsky Video 1.1 от предыдущей версии заключается в новой разбивке этапов. Генерация базовых кадров теперь разделена на два этапа: генерация первого кадра с помощью Kandinsky 3.0 и генерация остальных кадров, зависящих от первого. Это улучшило связность кадров и визуальное качество видео.

Следующим шагом для разработчиков является создание длинных видеороликов высокого качества со сложной динамикой и изменением сцен.

Kandinsky Video 1.1 доступен на платформе fusionbrain.ai и в Telegram-боте Kandinsky.