Google представила аудиомодель Gemini 3.5 Live Translate

Логотип Gemini 3.5 Live Translate на синем фоне

Источник: Google

Google запустила Gemini 3.5 Live Translate, модель для потокового перевода речи в речь с задержкой в несколько секунд. Система распознаёт более 70 языков, переводит аудио по мере поступления сигнала и пытается сохранить интонацию, темп и высоту голоса собеседника. Компания начинает разворачивать технологию в Google Translate, Google Meet и через API для сторонних сервисов.

Главное отличие от обычных систем голосового перевода в том, что Gemini 3.5 Live Translate не ждёт завершения реплики целиком. Модель обрабатывает поток аудио на лету и выдаёт перевод частями, поэтому диалог звучит ближе к синхронному переводу, а не к обмену длинными паузами. Google отдельно заявляет, что система умеет автоматически определять язык без ручного выбора и устойчиво работает в шумной среде.

Для Google это попытка встроить переводчик не как отдельный сервис, а как базовую голосовую функцию во всей экосистеме. Такой же курс сейчас выбирают конкуренты. Microsoft развивает перевод речи в Teams и Azure AI Speech, OpenAI добавила голосовой режим в ChatGPT и API для аудиоввода и аудиовывода, а Meta* в последние годы публиковала исследования по универсальному speech-to-speech переводу. Разница в том, что Google сразу заявляет массовое применение в потребительских и корпоративных продуктах.

Характеристики Gemini 3.5 Live Translate

Потоковый перевод речи в речь почти в реальном времени
Поддержка более 70 языков
Сохранение интонации, темпа и высоты голоса
Автоматическое определение языка во входящем аудио
Работа в шумных и нестабильных акустических условиях
Водяной знак SynthID в синтетически сгенерированном аудио

В Google Translate функция Live Translate станет доступна глобально на Android и iOS при использовании наушников. На Android компания также добавит режим, в котором перевод воспроизводится через динамик смартфона, чтобы разговор напоминал обычный телефонный звонок. В Google Meet технология сначала появится в закрытом тестировании для клиентов Google Workspace, затем её обещают расширить на более широкую аудиторию в течение года.

Отдельный расчёт сделан на разработчиков. Google открывает Gemini Live API и уже называет среди партнёров Agora, Fishjam, LiveKit, Pipecat и Vision Agents. Утилитарный сценарий тоже выбран без излишеств: в тестах с Grab модель используют для общения водителей и пассажиров в многоязычной среде, где счёт идёт на миллионы звонков в месяц.

Рынок для такого запуска давно сформирован. По оценке Grand View Research, мировой рынок машинного перевода в середине десятилетия превышал $1 млрд и рос двузначными темпами, а сегмент разговорного ИИ увеличивался ещё быстрее за счёт колл-центров, видеосвязи и трансграничной поддержки клиентов. Для Google вопрос теперь не в самой демонстрации технологии, а в том, сможет ли компания удержать качество перевода на длинных диалогах и при массовой нагрузке в Meet и Translate до конца 2026 года.

* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.

Источник: Ixbt

Елизавета Добровольская

Автор itzine.ru с 2021 года. Пишет о смартфонах, гаджетах, железе, искусственном интеллекте и космосе — в общем, обо всём, что есть в мире технологий. От новостей о складных флагманах и процессорах до репортажей о культуре и рынке электромобилей. Следит за индустрией внимательно, но без фанатизма.