OpenAI запускает новую модель преобразования текста в речь

Схема работы модели преобразования текста в речь OpenAI: инструмент TTS с логотипом и линиями

OpenAI продолжает расширять границы технологий искусственного интеллекта. Сначала был выпущен инструмент, способный создавать цифровые изображения по одному лишь описанию. Затем появилась технология Sora, которая генерирует видеоролики голливудского качества. И вот теперь компания выходит в сферу голосового воссоздания.

Последняя новинка от OpenAI — функция, которая читает текст вслух удивительно похожим на человеческий голосом. Этот прорыв в области искусственного интеллекта знаменует собой значительный скачок вперед, но он также вызывает опасения относительно возможности подделок (дипфейков — от слов deep fake).

Компания представила первые результаты тестирования этой функции, предложив демо-версии, которые вы можете послушать здесь. Эта модель преобразования текста в речь, получившая название Voice Engine, в настоящее время находится на стадии ограниченного тестирования с участием около 10 разработчиков. OpenAI выбрала осторожный подход, а не широкомасштабный выпуск.

После получения отзывов от заинтересованных сторон, таких как политики и преподаватели, OpenAI решила сократить первоначальное распространение. Компания признает, что генерирование человекоподобной речи сопряжено с серьезными рисками, особенно в такие ответственные периоды, как год выборов.

Мы признаем, что генерирование речи, похожей на голоса людей, сопряжено с серьезными рисками, которые особенно актуальны в год выборов. Мы взаимодействуем с американскими и международными партнерами из правительственных кругов, СМИ, индустрии развлечений, образования, гражданского общества и других сфер, чтобы обеспечить учет их мнений в процессе разработки».

В отличие от предыдущих аудиопроектов, Voice Engine отличается своей способностью имитировать индивидуальные голоса с удивительной точностью, улавливая нюансы каденции и интонации. При этом для воспроизведения голоса человека ему требуется всего 15 секунд.

Среди партнеров OpenAI — Институт нейронаук Нормана Принса в Lifespan, где технология используется для помощи пациентам в голосовой реабилитации. Например, с ее помощью была восстановлена речь молодого пациента, которому было трудно говорить четко из-за опухоли мозга. ИИ обучался на основе предыдущих записей для школьного проекта.

Помимо применения в здравоохранении, пользовательская модель речи привлекла внимание таких компаний, как Spotify, которые видят потенциал в переводе аудиоконтента, например подкастов, на множество языков. Тем не менее, OpenAI подчеркивает этические принципы использования технологии, включая получение согласия от оригинальных дикторов и раскрытие контента, созданного ИИ, слушателям.

Кроме того, прежде чем рассматривать вопрос о более широком выпуске, OpenAI собирает отзывы и призывает общественность обратить внимание на проблемы, возникающие при использовании передовых технологий ИИ. Это включает в себя пропаганду постепенного отказа от голосовой аутентификации в таких чувствительных областях, как банковское дело.

OpenAI добавила в своем блоге:

Важно, чтобы люди во всем мире понимали, куда движется эта технология, независимо от того, будем ли мы в итоге сами широко ее внедрять или нет.

Кроме того, компания надеется, что этот предварительный обзор послужит толчком к обсуждению рисков, связанных с развитием ИИ, и повышению устойчивости общества.

Сергей Кузнецов

Главный редактор itzine.ru и технический журналист с 15-летним стажем. Специализируется на глубоком тестировании аудиооборудования, фототехники и потребительской электроники. Автор более 5000 материалов, охватывающих широкий спектр тем: от обзоров игровых кресел и сетевого оборудования до аналитики рынка смартфонов и носимых гаджетов. На платформе курирует экспертные разделы и формирует редакционную политику издания.