OpenAI запускает новую модель преобразования текста в речь
OpenAI продолжает расширять границы технологий искусственного интеллекта. Сначала был выпущен инструмент, способный создавать цифровые изображения по одному лишь описанию. Затем появилась технология Sora, которая генерирует видеоролики голливудского качества. И вот теперь компания выходит в сферу голосового воссоздания.
Последняя новинка от OpenAI — функция, которая читает текст вслух удивительно похожим на человеческий голосом. Этот прорыв в области искусственного интеллекта знаменует собой значительный скачок вперед, но он также вызывает опасения относительно возможности подделок (дипфейков — от слов deep fake).
Компания представила первые результаты тестирования этой функции, предложив демо-версии, которые вы можете послушать здесь. Эта модель преобразования текста в речь, получившая название Voice Engine, в настоящее время находится на стадии ограниченного тестирования с участием около 10 разработчиков. OpenAI выбрала осторожный подход, а не широкомасштабный выпуск.
После получения отзывов от заинтересованных сторон, таких как политики и преподаватели, OpenAI решила сократить первоначальное распространение. Компания признает, что генерирование человекоподобной речи сопряжено с серьезными рисками, особенно в такие ответственные периоды, как год выборов.
Мы признаем, что генерирование речи, похожей на голоса людей, сопряжено с серьезными рисками, которые особенно актуальны в год выборов. Мы взаимодействуем с американскими и международными партнерами из правительственных кругов, СМИ, индустрии развлечений, образования, гражданского общества и других сфер, чтобы обеспечить учет их мнений в процессе разработки».
В отличие от предыдущих аудиопроектов, Voice Engine отличается своей способностью имитировать индивидуальные голоса с удивительной точностью, улавливая нюансы каденции и интонации. При этом для воспроизведения голоса человека ему требуется всего 15 секунд.
Среди партнеров OpenAI — Институт нейронаук Нормана Принса в Lifespan, где технология используется для помощи пациентам в голосовой реабилитации. Например, с ее помощью была восстановлена речь молодого пациента, которому было трудно говорить четко из-за опухоли мозга. ИИ обучался на основе предыдущих записей для школьного проекта.
Помимо применения в здравоохранении, пользовательская модель речи привлекла внимание таких компаний, как Spotify, которые видят потенциал в переводе аудиоконтента, например подкастов, на множество языков. Тем не менее, OpenAI подчеркивает этические принципы использования технологии, включая получение согласия от оригинальных дикторов и раскрытие контента, созданного ИИ, слушателям.
Кроме того, прежде чем рассматривать вопрос о более широком выпуске, OpenAI собирает отзывы и призывает общественность обратить внимание на проблемы, возникающие при использовании передовых технологий ИИ. Это включает в себя пропаганду постепенного отказа от голосовой аутентификации в таких чувствительных областях, как банковское дело.
OpenAI добавила в своем блоге:
Важно, чтобы люди во всем мире понимали, куда движется эта технология, независимо от того, будем ли мы в итоге сами широко ее внедрять или нет.
Кроме того, компания надеется, что этот предварительный обзор послужит толчком к обсуждению рисков, связанных с развитием ИИ, и повышению устойчивости общества.