Google представила аудиомодель Gemini 3.5 Live Translate

Google запустила Gemini 3.5 Live Translate, модель для потокового перевода речи в речь с задержкой в несколько секунд. Система распознаёт более 70 языков, переводит аудио по мере поступления сигнала и пытается сохранить интонацию, темп и высоту голоса собеседника. Компания начинает разворачивать технологию в Google Translate, Google Meet и через API для сторонних сервисов.
Главное отличие от обычных систем голосового перевода в том, что Gemini 3.5 Live Translate не ждёт завершения реплики целиком. Модель обрабатывает поток аудио на лету и выдаёт перевод частями, поэтому диалог звучит ближе к синхронному переводу, а не к обмену длинными паузами. Google отдельно заявляет, что система умеет автоматически определять язык без ручного выбора и устойчиво работает в шумной среде.
Для Google это попытка встроить переводчик не как отдельный сервис, а как базовую голосовую функцию во всей экосистеме. Такой же курс сейчас выбирают конкуренты. Microsoft развивает перевод речи в Teams и Azure AI Speech, OpenAI добавила голосовой режим в ChatGPT и API для аудиоввода и аудиовывода, а Meta* в последние годы публиковала исследования по универсальному speech-to-speech переводу. Разница в том, что Google сразу заявляет массовое применение в потребительских и корпоративных продуктах.
Характеристики Gemini 3.5 Live Translate
- Потоковый перевод речи в речь почти в реальном времени
- Поддержка более 70 языков
- Сохранение интонации, темпа и высоты голоса
- Автоматическое определение языка во входящем аудио
- Работа в шумных и нестабильных акустических условиях
- Водяной знак SynthID в синтетически сгенерированном аудио
В Google Translate функция Live Translate станет доступна глобально на Android и iOS при использовании наушников. На Android компания также добавит режим, в котором перевод воспроизводится через динамик смартфона, чтобы разговор напоминал обычный телефонный звонок. В Google Meet технология сначала появится в закрытом тестировании для клиентов Google Workspace, затем её обещают расширить на более широкую аудиторию в течение года.
Отдельный расчёт сделан на разработчиков. Google открывает Gemini Live API и уже называет среди партнёров Agora, Fishjam, LiveKit, Pipecat и Vision Agents. Утилитарный сценарий тоже выбран без излишеств: в тестах с Grab модель используют для общения водителей и пассажиров в многоязычной среде, где счёт идёт на миллионы звонков в месяц.
Рынок для такого запуска давно сформирован. По оценке Grand View Research, мировой рынок машинного перевода в середине десятилетия превышал $1 млрд и рос двузначными темпами, а сегмент разговорного ИИ увеличивался ещё быстрее за счёт колл-центров, видеосвязи и трансграничной поддержки клиентов. Для Google вопрос теперь не в самой демонстрации технологии, а в том, сможет ли компания удержать качество перевода на длинных диалогах и при массовой нагрузке в Meet и Translate до конца 2026 года.
* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.



