OpenAI разделила голосовых ИИ-агентов на 3 отдельных модели

Робот с антенной держит смартфон, желтый фон, стильный дизайн

OpenAI выпустила три голосовые модели, и новость здесь не в очередном «мы научили ИИ говорить». Компания разрезала голосовой стек на отдельные части: GPT-Realtime-2 отвечает за сам диалог, GPT-Realtime-Translate за перевод в реальном времени, GPT-Realtime-Whisper за распознавание речи. Для корпоративных внедрений это важнее любой красивой демки, потому что снижает цену хаоса в продакшене.

Проблема у голосовых агентов давно была не только в качестве речи. Главная боль, особенно в колл-центрах и службах поддержки, это оркестрация: сбрасывать сессии, сжимать контекст, восстанавливать состояние разговора и не терять нить после пары длинных реплик. OpenAI прямо целится в этот бардак и обещает для GPT-Realtime-2 рассуждение уровня GPT-5, а для всей связки поддержку контекстного окна до 128K токенов.

Что умеют GPT-Realtime-2, Translate и Whisper

Логика простая и, честно говоря, давно назревшая. Вместо одной «универсальной» голосовой модели OpenAI предлагает собирать агент из специализированных блоков:

GPT-Realtime-2 ведёт разговор и обрабатывает сложные запросы
GPT-Realtime-Translate понимает больше 70 языков и переводит их в 13 языков в темпе говорящего
GPT-Realtime-Whisper отвечает за speech-to-text

Такой подход выглядит куда взрослее, чем прежняя мода на один «магический» voice-движок для всего сразу. Специализация обычно даёт два бонуса: ниже задержка на конкретной задаче и меньше переплаты за функции, которые в этом шаге диалога просто не нужны.

С кем OpenAI конкурирует в голосовых моделях

В лобовой бой OpenAI идёт не только с Mistral и её Voxtral, где транскрибация тоже вынесена в отдельный сценарий. Сверху нависают Google с сильной речевой инфраструктурой и Azure AI Speech от Microsoft, который давно сидит в корпоративной телефонии. Разница в том, что OpenAI пытается продать не просто распознавание или синтез, а готовые примитивы для агентной архитектуры.

Для бизнеса это означает простой сдвиг приоритетов. Сравнивать придётся не только качество голоса и число языков, но и то, как стек маршрутизирует задачи между моделями, держит состояние диалога и считает экономику минут разговора. Там и решится, станет ли voice AI рабочим инструментом, а не дорогой игрушкой для пилота на 200 звонков.

Следующий очевидный шаг для OpenAI — это упаковка этих моделей в готовые решения для поддержки и продаж до конца 2026 года.

Елизавета Добровольская

Автор itzine.ru с 2021 года. Пишет о смартфонах, гаджетах, железе, искусственном интеллекте и космосе — в общем, обо всём, что есть в мире технологий. От новостей о складных флагманах и процессорах до репортажей о культуре и рынке электромобилей. Следит за индустрией внимательно, но без фанатизма.