Xiaomi открыла OmniVoice с клонированием голоса на 646 языках

Xiaomi вытащила OmniVoice из лабораторной тени и выложила её в открытый доступ. Модель не просто синтезирует речь, а копирует голос по короткому образцу и затем говорит им на 646 языках, что звучит как очередная неприятная новость для индустрии дубляжа, колл-центров и всех, кто надеялся, что «аудиодипфейки» останутся экзотикой.

Проект особенно показателен тем, что Xiaomi пошла не по пути закрытой демо-песочницы, а опубликовала код, веса и обучающие данные. На фоне OpenAI, ElevenLabs и ряда китайских стартапов это уже не просто исследование «для галочки», а попытка навязать свои правила игры в сегменте, где обычно продают доступ по подписке и берут деньги за каждый вдох.

Как устроена OmniVoice

С технической стороны Xiaomi упростила архитектуру, но не стала жертвовать скоростью. По данным компании, генерация речи идёт в 40 раз быстрее реального времени даже без дополнительной оптимизации. Это неприятный звоночек для конкурентов: в голосовых моделях качество обычно приходится покупать ценой задержек и тяжёлой инфраструктуры, а здесь Xiaomi пытается взять оба параметра сразу.

Обучение шло на 50 открытых наборах голосовых данных объёмом 580 000 часов после фильтрации и шумоподавления. Для качества использовались предварительно обученные параметры больших языковых моделей. Если совсем без маркетинга, это означает старую добрую формулу: чем больше данных и чем аккуратнее их почистили, тем меньше модель похожа на уставшего навигатора.

Что умеет модель Xiaomi

Клонирует голос по короткому аудиофрагменту
Говорит этим голосом на 646 языках
Настраивает голос по текстовому описанию
Удаляет шумы автоматически
Добавляет эмоции, включая смех и вздохи
Корректирует произношение сложных слов и имён

В тестах на 24 языках OmniVoice обошла ряд коммерческих систем по естественности и разборчивости, а на 102 языках приблизилась к реальным записям. Формулировка аккуратная, но смысл прозрачный: Xiaomi не просто догнала рынок, а зашла на территорию, где у платных сервисов давно был уютный монопольный тон.

Самый интересный слой тут даже не в синтезе речи, а в масштабе. Для массового продукта такой охват языков и режим открытого доступа делают OmniVoice не очередным исследовательским релизом, а потенциальной заготовкой для приложений, от локализации контента до голосовых интерфейсов в устройствах Xiaomi. И да, после таких релизов разработчикам обычно приходится срочно переписывать собственные представления о «достаточно хорошем» голосовом ИИ.

Источник: Ixbt

Опубликовано:

Елизавета Добровольская

Теги open sourceXiaomiголосовой ИИИИклонирование голосанейросетисинтез речиязыковые модели

08.05.2026