
Xiaomi вытащила OmniVoice из лабораторной тени и выложила её в открытый доступ. Модель не просто синтезирует речь, а копирует голос по короткому образцу и затем говорит им на 646 языках, что звучит как очередная неприятная новость для индустрии дубляжа, колл-центров и всех, кто надеялся, что «аудиодипфейки» останутся экзотикой.
Проект особенно показателен тем, что Xiaomi пошла не по пути закрытой демо-песочницы, а опубликовала код, веса и обучающие данные. На фоне OpenAI, ElevenLabs и ряда китайских стартапов это уже не просто исследование «для галочки», а попытка навязать свои правила игры в сегменте, где обычно продают доступ по подписке и берут деньги за каждый вдох.
С технической стороны Xiaomi упростила архитектуру, но не стала жертвовать скоростью. По данным компании, генерация речи идёт в 40 раз быстрее реального времени даже без дополнительной оптимизации. Это неприятный звоночек для конкурентов: в голосовых моделях качество обычно приходится покупать ценой задержек и тяжёлой инфраструктуры, а здесь Xiaomi пытается взять оба параметра сразу.
Обучение шло на 50 открытых наборах голосовых данных объёмом 580 000 часов после фильтрации и шумоподавления. Для качества использовались предварительно обученные параметры больших языковых моделей. Если совсем без маркетинга, это означает старую добрую формулу: чем больше данных и чем аккуратнее их почистили, тем меньше модель похожа на уставшего навигатора.
В тестах на 24 языках OmniVoice обошла ряд коммерческих систем по естественности и разборчивости, а на 102 языках приблизилась к реальным записям. Формулировка аккуратная, но смысл прозрачный: Xiaomi не просто догнала рынок, а зашла на территорию, где у платных сервисов давно был уютный монопольный тон.
Самый интересный слой тут даже не в синтезе речи, а в масштабе. Для массового продукта такой охват языков и режим открытого доступа делают OmniVoice не очередным исследовательским релизом, а потенциальной заготовкой для приложений, от локализации контента до голосовых интерфейсов в устройствах Xiaomi. И да, после таких релизов разработчикам обычно приходится срочно переписывать собственные представления о «достаточно хорошем» голосовом ИИ.