Google представила Gemini 3.5 Live Translate

Логотип Gemini 3.5 Live Translate с цветным значком

Google представила Gemini 3.5 Live Translate, модель для синхронного голосового перевода с сохранением интонации, темпа и высоты голоса говорящего. Сервис распознаёт более 70 языков и переводит речь с задержкой в несколько секунд, без ожидания конца фразы. Сначала технология вышла для разработчиков, затем её начнут добавлять в Google Meet, а позже и в Google Translate для iOS и Android.

Компания делает ставку на формат voice-to-voice, где перевод звучит как продолжение исходной реплики, а не как отдельный синтезированный дубляж. Это заметно отличает продукт от классических систем перевода звонков и видеоконференций, которые обычно работают через субтитры или озвучку после длинной паузы. В Google утверждают, что модель адаптирована к шумной среде и не требует ручной настройки параметров.

На старте Google открыла публичную предварительную версию через Gemini Live API и Google AI Studio. Компания также заявила об интеграции с Agora, LiveKit и Vision Agents, чтобы разработчики могли встроить перевод в звонки и медиасервисы без собственной инфраструктуры потоковой передачи. Один из первых тестов проходит в Grab: сервис такси и доставки использует технологию для общения между водителями и клиентами и обрабатывает более 10 млн звонков в месяц.

Для корпоративных клиентов следующий этап начнётся уже в июне. Google запустит закрытое тестирование в Google Meet для подписчиков Google Workspace. Там система сможет переводить разговоры в более чем 2000 языковых комбинаций в рамках одной встречи. Предыдущая версия в Meet поддерживала только пять языков и требовала обязательного участия английского, так что обновление здесь не косметическое.

Массовый релиз для бизнеса Google планирует к концу 2026 года. Для потребительского сегмента компания готовит обновление приложения Google Translate на iOS и Android. При подключённых наушниках перевод будет воспроизводиться напрямую собеседнику, а на Android появится listening mode, в котором перевод можно услышать через динамик смартфона.

Как работает Gemini 3.5 Live Translate

Google выходит в сегмент, где долго доминировали более простые сценарии: текстовый перевод, субтитры и асинхронная озвучка. В 2025 году компания уже тестировала перевод в Meet, но тот режим был жёстко ограничен по языкам и фактически работал как надстройка для англоязычных встреч. Новый запуск переводит ту же идею в реальное время и расширяет её за пределы видеоконференций.

Конкуренты занялись этой задачей раньше, хотя чаще на уровне исследований и демонстраций. Meta* в 2024 году показала SeamlessExpressive, модель, которая старалась переносить эмоции и стиль речи при переводе, а не только слова. OpenAI в том же цикле обновлений вывела голосовой режим ChatGPT на более естественный уровень разговора, хотя это был прежде всего интерфейс общения с ИИ, а не инструмент двустороннего перевода звонков.

В корпоративной связи конкуренция идёт по другой линии. Zoom, Microsoft Teams и Webex давно предлагают перевод субтитров и расшифровок, а иногда и озвучку, но живой перевод с сохранением тембра и ритма речи собеседника остаётся редкой функцией. Для Google это способ усилить и Gemini, и Workspace одним продуктом: если перевод встроен в Meet, компанию проще удерживать в международных командах, колл-центрах и сервисах поддержки.

Отдельный слой здесь связан с безопасностью. Google помечает сгенерированный звук невидимым водяным знаком SynthID. Это ответ на растущие претензии к голосовым ИИ-сервисам, которые уже умеют довольно убедительно имитировать интонацию человека. В 2025 году несколько крупных платформ начали требовать маркировку ИИ-контента в аудио и видео, а регуляторы в США и ЕС отдельно обсуждали правила для синтетических голосов в рекламе и политических сообщениях.

более 70 поддерживаемых языков
свыше 2000 языковых комбинаций в Google Meet
задержка перевода в несколько секунд
маркировка аудио водяным знаком SynthID

Практический смысл у такого перевода тоже шире обычного туристического сценария. Google прямо показывает использование в звонках, встречах и общении между клиентом и исполнителем. Если качество окажется стабильным, сервис может зайти в логистику, доставку, трансграничную поддержку и телемедицину. По оценкам Grand View Research, мировой рынок машинного перевода в середине десятилетия уже превысил $1 млрд и растёт двузначными темпами, а голосовой слой стал следующим этапом после текста и субтитров.

Ближайшая проверка для Google пройдёт в Google Meet во втором полугодии. Там быстро станет видно, выдерживает ли система длинные встречи, перебивания и несколько говорящих подряд. Если корпоративный запуск к концу года пройдёт без серьёзных сбоев, у Google появится сильный аргумент против Zoom и Microsoft Teams в международных командах, где перевод до сих пор чаще читают глазами, чем слышат ушами.

* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.

Источник: 3dnews

Максим Третьяков

Технический обозреватель, пишет в основном про рынок мобильных телефонов и автомобильные технологии. Максим подготовил 740 материалов, в которых анализирует запуск флагманских линеек смартфонов (включая бренды Xiaomi и Apple), развитие нейросетевых функций в потребительских гаджетах и актуальное состояние отечественного автопрома. Его экспертиза охватывает как аппаратные новинки — от концептов видеокарт до умных колец, — так и правовые аспекты технологического рынка.