OpenAI запускает новую модель преобразования текста в речь (ai voice cloning openai reveals new text to speech model with both promise and peril.webp)

OpenAI продолжает расширять границы технологий искусственного интеллекта. Сначала был выпущен инструмент, способный создавать цифровые изображения по одному лишь описанию. Затем появилась технология Sora, которая генерирует видеоролики голливудского качества. И вот теперь компания выходит в сферу голосового воссоздания.


Последняя новинка от OpenAI — функция, которая читает текст вслух удивительно похожим на человеческий голосом. Этот прорыв в области искусственного интеллекта знаменует собой значительный скачок вперед, но он также вызывает опасения относительно возможности подделок (дипфейков — от слов deep fake).

Компания представила первые результаты тестирования этой функции, предложив демо-версии, которые вы можете послушать здесь. Эта модель преобразования текста в речь, получившая название Voice Engine, в настоящее время находится на стадии ограниченного тестирования с участием около 10 разработчиков. OpenAI выбрала осторожный подход, а не широкомасштабный выпуск.


После получения отзывов от заинтересованных сторон, таких как политики и преподаватели, OpenAI решила сократить первоначальное распространение. Компания признает, что генерирование человекоподобной речи сопряжено с серьезными рисками, особенно в такие ответственные периоды, как год выборов.

Мы признаем, что генерирование речи, похожей на голоса людей, сопряжено с серьезными рисками, которые особенно актуальны в год выборов. Мы взаимодействуем с американскими и международными партнерами из правительственных кругов, СМИ, индустрии развлечений, образования, гражданского общества и других сфер, чтобы обеспечить учет их мнений в процессе разработки».

В отличие от предыдущих аудиопроектов, Voice Engine отличается своей способностью имитировать индивидуальные голоса с удивительной точностью, улавливая нюансы каденции и интонации. При этом для воспроизведения голоса человека ему требуется всего 15 секунд.


Среди партнеров OpenAI — Институт нейронаук Нормана Принса в Lifespan, где технология используется для помощи пациентам в голосовой реабилитации. Например, с ее помощью была восстановлена речь молодого пациента, которому было трудно говорить четко из-за опухоли мозга. ИИ обучался на основе предыдущих записей для школьного проекта.

Помимо применения в здравоохранении, пользовательская модель речи привлекла внимание таких компаний, как Spotify, которые видят потенциал в переводе аудиоконтента, например подкастов, на множество языков. Тем не менее, OpenAI подчеркивает этические принципы использования технологии, включая получение согласия от оригинальных дикторов и раскрытие контента, созданного ИИ, слушателям.


Кроме того, прежде чем рассматривать вопрос о более широком выпуске, OpenAI собирает отзывы и призывает общественность обратить внимание на проблемы, возникающие при использовании передовых технологий ИИ. Это включает в себя пропаганду постепенного отказа от голосовой аутентификации в таких чувствительных областях, как банковское дело.

OpenAI добавила в своем блоге:

Важно, чтобы люди во всем мире понимали, куда движется эта технология, независимо от того, будем ли мы в итоге сами широко ее внедрять или нет.

Кроме того, компания надеется, что этот предварительный обзор послужит толчком к обсуждению рисков, связанных с развитием ИИ, и повышению устойчивости общества.

Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии