Google представил новую модель искусственного интеллекта VideoPoet, способную создавать аудио и видео материалы на основе текстовых описаний. Уникальность этого решения заключается в его способности генерировать длинные видеоролики с качественным содержанием и визуальными эффектами, а также редактировать уже готовые материалы.
В отличие от других решений, использующих открытый исходный код и метод на базе диффузии, VideoPoet основан на большой языковой модели (LLM), которая обычно применяется для генерации текста и кода. Было проведено обучение ИИ с использованием более миллиарда пар текст/изображение и 270 миллионов видео из различных источников в интернете. Google заверяет, что их фирменная языковая модель позволяет создавать качественные видеоролики большей длины по сравнению с конкурентами и при этом минимизировать возникновение артефактов и ограничений, особенно при работе с подвижными объектами.
VideoPoet предлагает множество возможностей, включая имитацию различных движений камеры, широкий выбор визуальных стилей, создание оригинального аудиоряда на основе контекста видео и возможность создания вертикальных роликов в формате Snapchat и TikTok.
Проведенное исследование Google Research показало, что до 35% участников опроса предпочитают результаты генерации VideoPoet по сравнению с аналогичными продуктами других компаний. Коммерческий запуск модели пока не был объявлен, однако информацию о возможностях искусственного интеллекта можно найти на официальном сайте проекта.