Категории Нейросети и ИИ

Xiaomi открыла OmniVoice с клонированием голоса на 646 языках

Xiaomi открыла OmniVoice с клонированием голоса на 646 языках

Xiaomi вытащила OmniVoice из лабораторной тени и выложила её в открытый доступ. Модель не просто синтезирует речь, а копирует голос по короткому образцу и затем говорит им на 646 языках, что звучит как очередная неприятная новость для индустрии дубляжа, колл-центров и всех, кто надеялся, что «аудиодипфейки» останутся экзотикой.

Проект особенно показателен тем, что Xiaomi пошла не по пути закрытой демо-песочницы, а опубликовала код, веса и обучающие данные. На фоне OpenAI, ElevenLabs и ряда китайских стартапов это уже не просто исследование «для галочки», а попытка навязать свои правила игры в сегменте, где обычно продают доступ по подписке и берут деньги за каждый вдох.

Как устроена OmniVoice

С технической стороны Xiaomi упростила архитектуру, но не стала жертвовать скоростью. По данным компании, генерация речи идёт в 40 раз быстрее реального времени даже без дополнительной оптимизации. Это неприятный звоночек для конкурентов: в голосовых моделях качество обычно приходится покупать ценой задержек и тяжёлой инфраструктуры, а здесь Xiaomi пытается взять оба параметра сразу.

Читайте также:

Обучение шло на 50 открытых наборах голосовых данных объёмом 580 000 часов после фильтрации и шумоподавления. Для качества использовались предварительно обученные параметры больших языковых моделей. Если совсем без маркетинга, это означает старую добрую формулу: чем больше данных и чем аккуратнее их почистили, тем меньше модель похожа на уставшего навигатора.

Что умеет модель Xiaomi

  • Клонирует голос по короткому аудиофрагменту
  • Говорит этим голосом на 646 языках
  • Настраивает голос по текстовому описанию
  • Удаляет шумы автоматически
  • Добавляет эмоции, включая смех и вздохи
  • Корректирует произношение сложных слов и имён

В тестах на 24 языках OmniVoice обошла ряд коммерческих систем по естественности и разборчивости, а на 102 языках приблизилась к реальным записям. Формулировка аккуратная, но смысл прозрачный: Xiaomi не просто догнала рынок, а зашла на территорию, где у платных сервисов давно был уютный монопольный тон.

Самый интересный слой тут даже не в синтезе речи, а в масштабе. Для массового продукта такой охват языков и режим открытого доступа делают OmniVoice не очередным исследовательским релизом, а потенциальной заготовкой для приложений, от локализации контента до голосовых интерфейсов в устройствах Xiaomi. И да, после таких релизов разработчикам обычно приходится срочно переписывать собственные представления о «достаточно хорошем» голосовом ИИ.

Источник: Ixbt