Google запустила аудиомодель Gemini 3.5 Live Translate

Google открыла доступ к Gemini 3.5 Live Translate, модели для непрерывного голосового перевода в реальном времени. Сервис переводит речь без пауз между репликами и, по заявлению компании, сохраняет интонацию, темп и высоту голоса собеседника. Запуск идет сразу на несколько продуктов Google, от мобильного Translate до корпоративного Meet.

Главное отличие новой системы от обычного голосового перевода в том, что она работает в режиме speech-to-speech без пошагового ожидания. В классических сервисах пользователь говорит фразу, останавливается и ждет озвученный перевод. В Gemini 3.5 Live Translate обработка идет непрерывно, поэтому разговор больше похож на обычный диалог, а не на обмен голосовыми сообщениями.

Google утверждает, что модель умеет автоматически определять язык без ручной настройки. Заявлена поддержка более 70 языков. Для синтезированной речи компания добавила водяной знак SynthID, который должен помогать отличать сгенерированный аудиопоток от оригинальной записи.

Характеристики Gemini 3.5 Live Translate

Непрерывный голосовой перевод без обязательных пауз
Сохранение интонации, темпа и высоты исходного голоса
Автоопределение языка при разговоре
Поддержка более 70 языков
Работа в шумной и непредсказуемой обстановке
Водяной знак SynthID для сгенерированного аудио

Для пользователей в наушниках Google обещает «зеркальную» передачу тона, чтобы перевод звучал ближе к манере речи собеседника. На Android появится и listening mode. В этом режиме смартфон можно поднести к уху и слушать перевод менее заметно для окружающих.

Потребительский запуск идет глобально через приложение Google Translate на iOS и Android. Для корпоративного сегмента функция появится в Google Meet. Частный предварительный доступ для части клиентов Google Workspace компания обещает начать уже в этом месяце.

Для Google это не первый заход в перевод речи «на лету», но сейчас компания делает ставку на нативную интеграцию в свои основные продукты. Конкуренция в этом сегменте плотная. Microsoft развивает перевод и интерпретацию в Teams, Meta* ранее показывала универсальные speech-to-speech-модели SeamlessM4T и SeamlessExpressive, а OpenAI продвигает голосовой режим ChatGPT с двусторонним разговором. Разница в том, что Google сразу выводит технологию в Translate и Meet, где у нее уже есть готовая аудитория.

Рынок машинного перевода растет вместе со спросом на голосовые интерфейсы. По оценкам разных аналитиков, мировой рынок language services и автоматизированного перевода измеряется десятками миллиардов долларов, а отдельный спрос на перевод в видеоконференциях ускорился после массового перехода компаний на гибридный формат работы. Ответ на вопрос, станет ли Live Translate повседневным инструментом, появится после корпоративного запуска в Meet: именно деловые звонки дают самый понятный сценарий и самые жесткие требования к задержке и точности.

* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.

Источник: Itzine

Елизавета Добровольская

Автор itzine.ru с 2021 года. Пишет о смартфонах, гаджетах, железе, искусственном интеллекте и космосе — в общем, обо всём, что есть в мире технологий. От новостей о складных флагманах и процессорах до репортажей о культуре и рынке электромобилей. Следит за индустрией внимательно, но без фанатизма.