
OpenAI выпустила три голосовые модели, и новость здесь не в очередном «мы научили ИИ говорить». Компания разрезала голосовой стек на отдельные части: GPT-Realtime-2 отвечает за сам диалог, GPT-Realtime-Translate за перевод в реальном времени, GPT-Realtime-Whisper за распознавание речи. Для корпоративных внедрений это важнее любой красивой демки, потому что снижает цену хаоса в продакшене.
Проблема у голосовых агентов давно была не только в качестве речи. Главная боль, особенно в колл-центрах и службах поддержки, это оркестрация: сбрасывать сессии, сжимать контекст, восстанавливать состояние разговора и не терять нить после пары длинных реплик. OpenAI прямо целится в этот бардак и обещает для GPT-Realtime-2 рассуждение уровня GPT-5, а для всей связки поддержку контекстного окна до 128K токенов.
Логика простая и, честно говоря, давно назревшая. Вместо одной «универсальной» голосовой модели OpenAI предлагает собирать агент из специализированных блоков:
Такой подход выглядит куда взрослее, чем прежняя мода на один «магический» voice-движок для всего сразу. Специализация обычно даёт два бонуса: ниже задержка на конкретной задаче и меньше переплаты за функции, которые в этом шаге диалога просто не нужны.
В лобовой бой OpenAI идёт не только с Mistral и её Voxtral, где транскрибация тоже вынесена в отдельный сценарий. Сверху нависают Google с сильной речевой инфраструктурой и Azure AI Speech от Microsoft, который давно сидит в корпоративной телефонии. Разница в том, что OpenAI пытается продать не просто распознавание или синтез, а готовые примитивы для агентной архитектуры.
Для бизнеса это означает простой сдвиг приоритетов. Сравнивать придётся не только качество голоса и число языков, но и то, как стек маршрутизирует задачи между моделями, держит состояние диалога и считает экономику минут разговора. Там и решится, станет ли voice AI рабочим инструментом, а не дорогой игрушкой для пилота на 200 звонков.
Следующий очевидный шаг для OpenAI — это упаковка этих моделей в готовые решения для поддержки и продаж до конца 2026 года.