Категории Нейросети и ИИ

OpenAI добавит в ChatGPT голосовую модель GPT Bidi 1

OpenAI добавит в ChatGPT голосовую модель GPT Bidi 1

OpenAI готовит для ChatGPT новую голосовую модель GPT Bidi 1, которая, по данным TestingCatalog, умеет слушать пользователя и отвечать без пауз на переключение режима. Речь идет о двунаправленном аудиоинтерфейсе, где ассистент не ждет конца фразы, а ведет разговор ближе к обычной человеческой беседе. Это один из элементов более крупного обновления, в котором OpenAI также развивает Codex и агентные функции.

Упоминания GPT Bidi 1 обнаружили в коде приложения на прошлой неделе. Модель описывается как «значительный скачок в интеллекте» и как голосовой интерфейс нового поколения. В списке выбора моделей она появляется рядом с обычными и расширенными версиями ChatGPT, а ее иконка отмечена желтым цветом.

Главное отличие Bidi 1 в том, что она может говорить и слушать одновременно. По данным TestingCatalog, модель поддерживает короткие естественные реакции вроде «окей», если собеседник делает паузу, и не перебивает длинные остановки ненужными репликами. Она также умеет быстро перестраивать задачу по ходу диалога, например менять инструкцию во время счета, и при этом сохраняет контекст разговора.

Для ChatGPT это важное обновление в уязвимой части продукта. Текстовые модели OpenAI за последний год заметно ушли вперед по качеству, тогда как голосовой режим отставал по естественности и по работе с длинным контекстом. В мае 2024 года компания показала режим Advanced Voice Mode, а затем разворачивала его постепенно из-за вопросов к безопасности и к имитации живой речи.

Читайте также:

GPT Bidi 1 и гонка за голосовым интерфейсом

OpenAI выходит на поле, где конкуренты уже вложили много ресурсов. Google продвигает Gemini Live как режим непрерывного голосового общения на Android, а Anthropic в 2025 году начала добавлять голосовые функции в Claude через мобильные приложения и партнерские интеграции. На этом фоне обычный формат «нажал кнопку, сказал фразу, дождался ответа» выглядит всё менее убедительно.

Тренд шире одной функции в ChatGPT. Крупные разработчики ИИ пытаются сделать голос основным способом работы с ассистентом в дороге, в наушниках и в бытовых сценариях, где печатать неудобно. По оценке MarketsandMarkets, мировой рынок разговорного ИИ может превысить $40 млрд к 2028 году, и значительная часть роста приходится как раз на голосовые интерфейсы для клиентских сервисов и персональных помощников.

Для OpenAI это еще и попытка превратить ChatGPT в более широкий потребительский продукт. Компания уже добавляет в приложение поиск, генерацию изображений, память, рабочие пространства и инструменты для программирования. Если Bidi 1 действительно начнет массово разворачиваться на этой неделе, ChatGPT получит более сильный аргумент в конкуренции с Gemini, Siri нового поколения и ассистентами, встроенными в мобильные ОС.

Следующая проверка для OpenAI будет простой: выйдет ли Bidi 1 из скрытого тестирования в общий доступ и сохранит ли качество в длинных диалогах. Именно на таких сценариях срывались прошлые голосовые релизы отрасли. Ответ, вероятно, появится в ближайшие дни, если компания включит модель всем пользователям или хотя бы подписчикам платных тарифов.

Источник: 3dnews
Опубликовано:
Елизавета Добровольская