Google представила Gemini 3.5 Live Translate

Google представила Gemini 3.5 Live Translate, модель для синхронного голосового перевода с сохранением интонации, темпа и высоты голоса говорящего. Сервис распознаёт более 70 языков и переводит речь с задержкой в несколько секунд, без ожидания конца фразы. Сначала технология вышла для разработчиков, затем её начнут добавлять в Google Meet, а позже и в Google Translate для iOS и Android.
Компания делает ставку на формат voice-to-voice, где перевод звучит как продолжение исходной реплики, а не как отдельный синтезированный дубляж. Это заметно отличает продукт от классических систем перевода звонков и видеоконференций, которые обычно работают через субтитры или озвучку после длинной паузы. В Google утверждают, что модель адаптирована к шумной среде и не требует ручной настройки параметров.
На старте Google открыла публичную предварительную версию через Gemini Live API и Google AI Studio. Компания также заявила об интеграции с Agora, LiveKit и Vision Agents, чтобы разработчики могли встроить перевод в звонки и медиасервисы без собственной инфраструктуры потоковой передачи. Один из первых тестов проходит в Grab: сервис такси и доставки использует технологию для общения между водителями и клиентами и обрабатывает более 10 млн звонков в месяц.
Для корпоративных клиентов следующий этап начнётся уже в июне. Google запустит закрытое тестирование в Google Meet для подписчиков Google Workspace. Там система сможет переводить разговоры в более чем 2000 языковых комбинаций в рамках одной встречи. Предыдущая версия в Meet поддерживала только пять языков и требовала обязательного участия английского, так что обновление здесь не косметическое.
Массовый релиз для бизнеса Google планирует к концу 2026 года. Для потребительского сегмента компания готовит обновление приложения Google Translate на iOS и Android. При подключённых наушниках перевод будет воспроизводиться напрямую собеседнику, а на Android появится listening mode, в котором перевод можно услышать через динамик смартфона.
Как работает Gemini 3.5 Live Translate
Google выходит в сегмент, где долго доминировали более простые сценарии: текстовый перевод, субтитры и асинхронная озвучка. В 2025 году компания уже тестировала перевод в Meet, но тот режим был жёстко ограничен по языкам и фактически работал как надстройка для англоязычных встреч. Новый запуск переводит ту же идею в реальное время и расширяет её за пределы видеоконференций.
Конкуренты занялись этой задачей раньше, хотя чаще на уровне исследований и демонстраций. Meta* в 2024 году показала SeamlessExpressive, модель, которая старалась переносить эмоции и стиль речи при переводе, а не только слова. OpenAI в том же цикле обновлений вывела голосовой режим ChatGPT на более естественный уровень разговора, хотя это был прежде всего интерфейс общения с ИИ, а не инструмент двустороннего перевода звонков.
В корпоративной связи конкуренция идёт по другой линии. Zoom, Microsoft Teams и Webex давно предлагают перевод субтитров и расшифровок, а иногда и озвучку, но живой перевод с сохранением тембра и ритма речи собеседника остаётся редкой функцией. Для Google это способ усилить и Gemini, и Workspace одним продуктом: если перевод встроен в Meet, компанию проще удерживать в международных командах, колл-центрах и сервисах поддержки.
Отдельный слой здесь связан с безопасностью. Google помечает сгенерированный звук невидимым водяным знаком SynthID. Это ответ на растущие претензии к голосовым ИИ-сервисам, которые уже умеют довольно убедительно имитировать интонацию человека. В 2025 году несколько крупных платформ начали требовать маркировку ИИ-контента в аудио и видео, а регуляторы в США и ЕС отдельно обсуждали правила для синтетических голосов в рекламе и политических сообщениях.
- более 70 поддерживаемых языков
- свыше 2000 языковых комбинаций в Google Meet
- задержка перевода в несколько секунд
- маркировка аудио водяным знаком SynthID
Практический смысл у такого перевода тоже шире обычного туристического сценария. Google прямо показывает использование в звонках, встречах и общении между клиентом и исполнителем. Если качество окажется стабильным, сервис может зайти в логистику, доставку, трансграничную поддержку и телемедицину. По оценкам Grand View Research, мировой рынок машинного перевода в середине десятилетия уже превысил $1 млрд и растёт двузначными темпами, а голосовой слой стал следующим этапом после текста и субтитров.
Ближайшая проверка для Google пройдёт в Google Meet во втором полугодии. Там быстро станет видно, выдерживает ли система длинные встречи, перебивания и несколько говорящих подряд. Если корпоративный запуск к концу года пройдёт без серьёзных сбоев, у Google появится сильный аргумент против Zoom и Microsoft Teams в международных командах, где перевод до сих пор чаще читают глазами, чем слышат ушами.
* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.



