Google DeepMind сможет генерировать музыку и звуки для немых видео

Google DeepMind представил инновационную технологию, которая способна генерировать фоновую музыку и звуковые эффекты для немых видео. Эта система «видео-аудио» разработана, чтобы упростить процесс видеомонтажа, особенно для контент-креаторов.

Процесс работы технологии

Ввод информации от пользователя. Создатели контента загружают своё немое видео и могут предоставить ключевые слова или фразы, чтобы направить ИИ в создании звуковой дорожки. Например, для видео с человеком, идущим в темноте, можно использовать такие подсказки, как «фильмы, ужасы, музыка, напряжение, шаги по бетону», чтобы помочь ИИ понять настроение и обстановку.
Работа ИИ. Модель ИИ от DeepMind сначала анализирует визуальный контент видео. Эти данные затем комбинируются с текстовыми подсказками пользователя. Используя модель диффузии, ИИ итеративно обрабатывает эту информацию и в конечном итоге генерирует фоновые звуки, которые дополняют видео.
Настройка звуковой дорожки. Модель может создавать различные аудиоварианты для одного видео, позволяя создателям выбрать наилучший вариант для их проекта. Система DeepMind также может учитывать эмоциональный тон подсказок. Например, подсказки с акцентом на «напряжение» могут привести к созданию напряжённой фоновой музыки, тогда как подсказки типа «радостное празднование» создадут более жизнерадостные звуки.

Диаграмма архитектуры: видеокодек, алгоритмы генерации звука

Будущее разработки

DeepMind активно совершенствует технологию. В будущем планируется, чтобы ИИ автоматически генерировал звуки, основываясь исключительно на содержимом видео, устраняя необходимость в пользовательских подсказках. Также ведутся работы по улучшению синхронизации сгенерированных диалогов с движениями губ персонажей на видео.

Эта технология «видео-аудио» имеет потенциал революционизировать видеомонтаж, особенно для создателей контента, у которых нет доступа к профессиональным аудиоинструментам или экспертным знаниям. DeepMind делает шаги к тому, чтобы сделать процесс создания видео более доступным и эффективным.

Сергей Кузнецов

Главный редактор itzine.ru и технический журналист с 15-летним стажем. Специализируется на глубоком тестировании аудиооборудования, фототехники и потребительской электроники. Автор более 5000 материалов, охватывающих широкий спектр тем: от обзоров игровых кресел и сетевого оборудования до аналитики рынка смартфонов и носимых гаджетов. На платформе курирует экспертные разделы и формирует редакционную политику издания.