Команда разработчиков Сбера выпустила обновленную версию нейросети Kandinsky Video 1.1 для создания видео. По словам разработчиков, новая модель увеличила скорость генерации видео по тексту и улучшила качество результатов.
Нейросеть Kandinsky Video 1.1 все еще основана на латентной диффузионной модели генерации картинок Kandinsky 3.0. С учетом изменений, длительность готового видео составляет 5,5 секунды, а время генерации — 1 минута при частоте 8 кадров в секунду и 1,5 минуты при 32 кадрах в секунду. Поддерживаемые форматы видео: 16:9, 9:16 и 1:1.
Основное отличие Kandinsky Video 1.1 от предыдущей версии заключается в новой разбивке этапов. Генерация базовых кадров теперь разделена на два этапа: генерация первого кадра с помощью Kandinsky 3.0 и генерация остальных кадров, зависящих от первого. Это улучшило связность кадров и визуальное качество видео.
Следующим шагом для разработчиков является создание длинных видеороликов высокого качества со сложной динамикой и изменением сцен.
Kandinsky Video 1.1 доступен на платформе fusionbrain.ai и в Telegram-боте Kandinsky.