Xiaomi вложит $8,7 млрд в ИИ и расширяет линейку MiMo

Xiaomi за последний год собрала собственную линейку больших ИИ-моделей, довела их до потребительских устройств и параллельно пообещала вложить в это направление не менее $8,7 млрд за три года. У компании уже есть модели для логических задач, генерации кода, обработки аудио и видео, синтеза речи и автономного управления интерфейсом смартфона. Следующий этап Xiaomi связывает не с чат-ботом как таковым, а с системным агентом miclaw и глубокой интеграцией ИИ в HyperOS 4.

Для Xiaomi это резкий разворот. Еще в середине 2025 года компания почти не фигурировала в публичной гонке больших моделей, где внимание было сосредоточено у OpenAI, Anthropic, Google, Meta* и китайских игроков вроде Alibaba и DeepSeek. К весне 2026 года Xiaomi уже вывела на рынок собственную серию MiMo и, по словам компании, заняла около 21% трафика на OpenRouter, где разработчики сравнивают и покупают доступ к разным моделям.

Основу линейки составляют модели MiMo-V2. В декабре 2025 года Xiaomi представила MiMo-V2-Flash, модель на 309 млрд параметров с архитектурой Mixture-of-Experts. Активными в каждом проходе остаются около 15 млрд параметров, что снижает стоимость вывода и ускоряет работу. Xiaomi заявляет скорость до 150 токенов в секунду, цену API на уровне $0,1 за 1 млн входных токенов и стоимость инференса примерно в 2,5% от тарифа Claude при сопоставимых сценариях.

В марте 2026 года вышла флагманская MiMo-V2-Pro. Это уже модель более чем на 1 трлн параметров, из которых 42 млрд активируются в одном проходе. Она получила контекстное окно в 1 млн токенов и рассчитана на так называемые agentic-задачи, где системе нужно не только отвечать, а планировать последовательность действий. До официального анонса модель появилась на OpenRouter под анонимным именем Hunter Alpha и успела обработать более 1,5 трлн токенов.

Линейка MiMo и голосовые модели

Весной Xiaomi объединила наработки серии в MiMo-V2.5 и MiMo-V2.5-Pro. Старшая версия на 1,02 трлн параметров работает сразу с текстом, изображениями, аудио и видео. В компании говорят о скорости 60-80 токенов в секунду в сложных сценариях, а у облегченной MiMo-V2.5 заявляют 100-150 токенов в секунду для повседневных задач. Доплат за использование полного окна в 1 млн токенов Xiaomi не берет, что для разработчиков важнее красивого слайда.

Отдельно Xiaomi вывела MiMo Code, терминального агента для программирования на базе MiMo-V2.5. Здесь ставка сделана на постоянную память о проекте: система хранит решения и контекст между длинными сессиями, а не теряет нить после заполнения окна. Это прямой ответ на слабое место многих кодовых помощников, от встроенных ассистентов в IDE до облачных агентов, которые хорошо решают локальную задачу и хуже держат длинную разработку.

MiMo-V2-Flash: 309 млрд параметров, около 15 млрд активных
MiMo-V2-Pro: более 1 трлн параметров, 42 млрд активных
MiMo-V2.5-Pro: омнимодальная модель с окном 1 млн токенов
MiMo Code: агент для разработки с постоянной памятью
MiMo-V2-Omni и V2-TTS: мультимодальность и синтез речи

Параллельно компания строит голосовой стек. MiDashengLM-7B, выпущенная в августе 2025 года, обучалась на 38 662 часах аудио и рассчитана не только на распознавание речи, а на понимание музыки, фоновых шумов, эмоций и акустического контекста. Модель основана на Qwen2.5-Omni-7B от Alibaba, распространяется по лицензии Apache 2.0 и уже используется в электромобилях Xiaomi и устройствах умного дома.

Еще один слой закрывают MiMo-Audio, MiMo-V2.5-TTS и ASR-система для двуязычного распознавания. Это позволяет собирать голосовые продукты без стыковки моделей разных поставщиков. На рынке такой вертикальный подход используют и конкуренты. У Alibaba есть семейство Qwen и мультимодальные сервисы для облака, у Baidu остается связка Ernie с экосистемой приложений, а OpenAI и Google продвигают единые аудио- и видеомодели через свои платформы.

В визуальном сегменте Xiaomi развивает MiMo-VL и облегченный вариант MiMo-VL-Miloco-7B для домашних сценариев. Система распознает жесты и бытовые действия, от поднятого большого пальца до чтения или просмотра телевизора. Это направление выглядит логичным продолжением бизнеса Xiaomi в умном доме, где компания давно продает камеры, датчики, колонки и бытовую технику.

Отдельно Xiaomi открыла OmniVoice, одну из самых амбициозных TTS-моделей в своей линейке. Система поддерживает 646 языков, умеет клонировать голос по нескольким секундам эталонного аудио и синтезировать речь с сохранением тембра в разных языках. Xiaomi заявляет, что модель обучается на 100 тыс. часов данных за один день и генерирует звук на скорости до 40-кратного реального времени в PyTorch. На фоне рынка, где даже крупные TTS-сервисы часто ограничиваются десятками языков, это уже не косметическое обновление.

HyperAI, miclaw и ставка на собственную экосистему

Для массового пользователя Xiaomi разделила ИИ на два уровня. Первый, знакомый и безопасный, это Xiao AI и HyperAI в HyperOS 2. Xiao AI остается голосовым помощником для смартфонов, колонок и носимых устройств, а после обновления до «Super Xiao AI» получила лучшую память о контексте, более плотную интеграцию с умным домом и генерацию изображений по тексту. HyperAI отвечает за прикладные функции, включая перевод в реальном времени, помощь в написании текстов, распознавание и краткое изложение записей, а также редактирование фото.

Глобальные смартфоны Xiaomi для части функций используют Google Gemini как внешнюю основу. Это распространенная схема для производителей электроники, которые не успели вырастить собственную модель мирового масштаба к началу бума генеративного ИИ. Samsung пошла тем же путем с Galaxy AI и сервисами Google, а Honor и Oppo комбинируют свои модели с партнерами в облаке. Разница в том, что Xiaomi за год попыталась построить и внутренний стек, и внешний интерфейс для потребителя одновременно.

Самый амбициозный проект компании, судя по описанию, это miclaw, закрытая бета которого стартовала в марте 2026 года. Xiaomi прямо разводит его с чат-ботами: агент не просто отвечает, а открывает приложения, перемещается по интерфейсу, заполняет формы, вызывает системные инструменты и завершает многошаговые действия на смартфоне. Работает это через цикл «вывод — исполнение — проверка», когда модель планирует шаг, исполняет его, оценивает результат и идет дальше.

miclaw также получил память о прежних взаимодействиях и доступ к связке устройств Xiaomi, включая умный дом и автомобиль. Компания утверждает, что взаимодействия пользователя не идут на обучение моделей, а чувствительные данные обрабатываются локально через схему «edge-cloud privacy computing». Закрытая бета сейчас заявлена для серии Xiaomi 17, а в HyperOS 4 агент должен стать частью системы. Xiaomi уже тестирует тот же сценарий на часах через приложение Xiaomi Health, где вычисления идут на подключенном смартфоне.

Под такую интеграцию Xiaomi перестраивает и бюджет. В марте Лэй Цзюнь объявил, что компания направит на ИИ не менее $8,7 млрд в течение трех лет. Совокупные расходы на исследования и разработки Xiaomi в 2026 году могут достичь 40 млрд юаней, или примерно $5,7 млрд. Для сравнения, Meta* в 2025 году подняла капитальные затраты на ИИ-инфраструктуру до десятков миллиардов долларов, а Alibaba и Tencent ускорили закупку ускорителей и развитие собственных моделей. Xiaomi играет в другой весовой категории, зато у нее есть то, чего нет у многих ИИ-стартапов: смартфоны, автомобили, телевизоры, носимая электроника и большой парк бытовых устройств.

Ставка понятна без громких формулировок. Xiaomi пытается свести в одном устройстве собственный чип, собственную ОС и собственную модель, о чем Лэй Цзюнь говорил как о «большой конвергенции» 2026 года. Если miclaw выйдет из беты вместе с HyperOS 4 и сохранит приемлемую скорость и точность на массовых устройствах, Xiaomi получит еще один набор AI-функций для смартфона. Компания сможет продавать разработчикам и пользователям связанный стек из моделей, интерфейса и железа, а это уже ближе к платформе, чем к очередной прошивке.

* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.

Источник: Ixbt

Опубликовано:

Илья Игнатов

Теги HyperOSMiMoOpenRouterXiaomiголосовые моделиИИ-агентыискусственный интеллект

12.06.2026