Иконка голосовой функции в приложении OpenAI Realtime API

OpenAI добавила в Realtime API сразу три голосовые модели и явно целится не в игрушечные демо, а в рабочие сценарии, где ассистент должен слушать, не терять контекст и доводить разговор до действия. На этом поле уже толкаются Google, Perplexity и пачка стартапов, но у большинства до сих пор получается скорее «чат-бот с микрофоном», чем нормальный голосовой интерфейс.

Главная ставка здесь на GPT-Realtime-2. У модели окно контекста выросло с 32K до 128K, появились уровни reasoning effort от minimal до xhigh, а также более аккуратная работа с паузами, ошибками и резкой сменой темы. Это важно не ради красоты в презентации. Голосовые агенты ломаются именно на таких мелочах, когда пользователь перебивает сам себя, уходит в сторону или начинает говорить не по сценарию.

GPT-Realtime-2 и живой голосовой разговор

OpenAI отдельно показывает цифры, потому что без них голосовые модели обычно продаются на вере и тембре. GPT-Realtime-2 high дала плюс 15,2% к GPT-Realtime-1.5 в Big Bench Audio, а версия xhigh оказалась на 13,8% лучше в Audio MultiChallenge. Для поддержки клиентов, бронирований и других скучных, но денежных задач это важнее, чем очередная демонстрация «естественного» голоса, который через минуту начинает спотыкаться.

В качестве примера OpenAI привела и Zillow. Джош Вайсберг, старший вице-президент и руководитель направления ИИ в компании, сказал, что их больше всего поразили интеллект и надежность вызова инструментов в сложных голосовых сценариях. По его словам, после оптимизации промпта успешные звонки выросли с 69% до 95%, а модель заметно лучше проходит проверки на Fair Housing compliance. Это как раз тот случай, когда «умный голос» перестает быть маркетинговой игрушкой и начинает трогать деньги.

Перевод и расшифровка в реальном времени

Второй слой релиза закрывает более приземленные задачи. GPT-Realtime-Translate поддерживает более 70 входных языков и 13 выходных, а GPT-Realtime-Whisper делает потоковую расшифровку с низкой задержкой. Первый пригодится для живого перевода, второй для субтитров, заметок и любых сценариев, где ждать конца фразы уже слишком дорого.

И тут OpenAI лезет в уже занятую, но всё ещё плохо прибранную нишу. Zoom, Google Meet и enterprise-сервисы давно продают транскрипцию и перевод, однако рынок по-прежнему любит решения, которые не падают на акцентах, региональном произношении и отраслевой лексике. Поэтому компания и делает акцент на языке, терминологии и устойчивости распознавания в живой речи.

Первые партнерские примеры тоже не случайны. Deutsche Telekom тестирует мультиязычное голосовое общение, Vimeo показывает перевод обучающего видео на лету, а BolnaAI говорит о более низкой ошибке распознавания для хинди, тамильского и телугу. Это уже не витрина для конференции, а попытка влезть в поддержку, образование, медиа и международные продажи.

Цена голосовых моделей OpenAI

Цены компания тоже не прячет, и они вполне в духе OpenAI: дорого для хобби, терпимо для бизнеса. Все 3 модели уже доступны в Realtime API.

  • GPT-Realtime-2 — $32 за 1 млн аудиовходных токенов и $64 за 1 млн аудиовыходных токенов.
  • GPT-Realtime-Translate — $0,034 за минуту.
  • GPT-Realtime-Whisper — $0,017 за минуту.

Отдельно OpenAI говорит о безопасности. В Realtime API есть активные классификаторы сессий, а разработчикам предлагают вешать собственные правила через Agents SDK. Это не декоративная строчка, а попытка заранее подстелить соломку там, где голосовые ассистенты чаще всего и срываются в неприятности, от странных ответов до модерационных провалов.

В ближайшие месяцы всё упрется в банальную вещь: кто быстрее заставит голосовой слой не просто красиво разговаривать, а надежно продавать, обслуживать и переводить, тот и заберет себе кусок сервисных сценариев. Остальным останется любоваться демо и считать, сколько еще раз их «естественный» ассистент завис на середине фразы.

Источник: Itzine
Артур Берг
Старший новостной редактор, специализирующийся на оперативной аналитике рынка электроники и игровых систем. За время работы опубликовал более 2800 статей, посвященных новинкам мобильной индустрии, носимым устройствам и развитию облачных технологий. Подробно освещает события крупнейших международных выставок, таких как IFA, и анализирует стратегии ведущих технологических брендов на российском и мировом рынках.

Leave a reply