
Xiaomi открыла тестовый доступ к режиму UltraSpeed для языковой модели MiMo-V2.5-Pro с 1 трлн параметров. Компания утверждает, что в этом режиме модель на универсальных GPU преодолевает планку 1000 токенов в секунду. Ускорение адресовано не массовым пользователям, а корпоративным клиентам и разработчикам, которым важна низкая задержка при генерации.
По оценке Xiaomi, UltraSpeed работает примерно в 10 раз быстрее стандартного API-доступа к MiMo-V2.5-Pro. За это придётся платить больше: тариф для нового режима в 3 раза выше базового. Компания объясняет прирост скорости совместной оптимизацией самой модели и инфраструктуры TileRT, с которой и запускался новый режим.
Для семейства MiMo это не первый акцент на скорости. В декабре 2025 года Xiaomi выпустила MiMo-V2-Flash с заявленной скоростью около 150 токенов в секунду. Новый режим поднимает планку ещё выше и переводит линейку из категории «быстро» в категорию, где важен уже не сам факт работы модели, а цена каждой миллисекунды задержки.
Xiaomi не открывает UltraSpeed всем сразу. С 9 по 23 июня компания проводит пробное тестирование по заявкам. Приоритет обещан предприятиям и профессиональным разработчикам, которые могут обосновать сценарий использования.
Одобренные участники получат двухнедельный бесплатный доступ к чату с ограничениями. Ограничения выглядят как способ не допустить перегрузки дорогого ускоренного пула вычислений, который, судя по формулировкам Xiaomi, остаётся дефицитным.
Такой формат теста показывает, что Xiaomi продаёт не просто модель, а выделенный режим обслуживания. На рынке ИИ это отдельный товар: многие корпоративные заказчики готовы переплачивать не за «умнее», а за «быстрее и предсказуемее». Особенно если речь идёт о кодовых ассистентах, поиске по внутренним базам и голосовых интерфейсах, где задержка влияет на конверсию и нагрузку на операторов.
Xiaomi заходит в сегмент, где уже активно конкурируют китайские и американские игроки. DeepSeek, Alibaba и Baidu в 2025-2026 годах также продвигали ускоренные и удешевлённые режимы вывода для корпоративных клиентов. На глобальном рынке похожую логику используют OpenAI и Anthropic: крупные заказчики покупают не только доступ к модели, но и приоритет по пропускной способности, стабильности и задержке.
Сам по себе показатель в 1000 токенов в секунду выглядит скорее инфраструктурным, чем потребительским. Для сравнения, обычные чат-сценарии редко требуют такой скорости на один диалог, зато она важна при батчевой генерации, обслуживании множества параллельных сессий и работе агентов в реальном времени. Именно поэтому Xiaomi ограничила тест и не предлагает режим как массовую функцию в потребительских приложениях.
Рынок для такого предложения есть. По данным IDC, мировые расходы на генеративный ИИ в 2026 году могут превысить $100 млрд, и значительная часть этих денег уходит не на обучение моделей, а на их вывод в продакшене. В Китае спрос на локальные LLM растёт ещё и из-за требований к хранению данных и желания крупных клиентов не зависеть от западных API.
Если тест с 9 по 23 июня покажет устойчивый спрос, Xiaomi, вероятно, переведёт UltraSpeed в постоянный корпоративный тариф и расширит пул вычислительных ресурсов. Следующий вопрос для рынка простой: клиенты будут регулярно платить тройную цену за десятикратное ускорение только при подтверждённой пользе. Ответ появится уже во второй половине лета, когда у компании накопятся первые данные по загрузке и повторным заявкам.