
Парижский стартап Mistral AI представил две модели распознавания речи Voxtral Transcribe 2, которые работают локально на устройствах пользователя и обрабатывают аудио в десять раз быстрее конкурентов при пятикратно меньшей стоимости.
Mistral разделила технологию на два продукта. Voxtral Mini Transcribe V2 обрабатывает записанные файлы пакетами и поддерживает 13 языков — английский, мандаринский китайский, японский, арабский, хинди и несколько европейских. Компания заявляет о минимальном проценте ошибок распознавания слов среди всех сервисов транскрибации на рынке. Стоимость через API — $0,003 за минуту, что в пять раз дешевле крупных конкурентов.
Voxtral Realtime работает с живым звуком при задержке от 200 миллисекунд. Эта модель распространяется под открытой лицензией Apache 2.0 — разработчики скачивают веса с Hugging Face, модифицируют их и разворачивают без лицензионных платежей Mistral. Для тех, кто предпочитает не управлять собственной инфраструктурой, доступ через API стоит $0,006 за минуту.
«Сообщество открытого кода очень изобретательно, когда речь идёт о приложениях. Нам интересно посмотреть, что они сделают», — сказал Пьер Сток, вице-президент Mistral по научным операциям, в интервью VentureBeat.
Решение создать модели настолько компактными, чтобы они работали локально, отражает расчёт на то, куда движется корпоративный рынок. По мере того как компании интегрируют ИИ в чувствительные рабочие процессы — транскрибацию медицинских консультаций, звонков финансовых консультантов, юридических показаний — вопрос о маршруте данных становится критическим.
Сток описал проблему существующих приложений для ведения заметок с аудиофункциями: они улавливают посторонний шум неконтролируемым образом. Система может записать текст песни на фоне, захватить чужой разговор или галлюцинировать из-за фонового шума. Mistral вложила значительные ресурсы в курирование обучающих данных и архитектуру модели для решения этих проблем.
Компания добавила корпоративные функции, которые американские конкуренты внедряли медленнее. Контекстное смещение позволяет клиентам загрузить список специализированной терминологии — медицинского жаргона, фирменных названий продуктов, отраслевых аббревиатур — и модель автоматически отдаст приоритет этим терминам при транскрибации неоднозначного аудио. В отличие от дообучения, требующего переобучения модели, контекстное смещение работает через простой параметр API.
«Вам нужен только текстовый список. И тогда модель автоматически сместит транскрибацию в сторону этих аббревиатур или странных слов. Это работает без примеров, не требует переобучения, не требует сложных манипуляций», — объяснил Сток.
Модель размером всего 4 миллиарда параметров достаточно мала, чтобы работать на ноутбуке, телефоне или умных часах. Это позволяет обрабатывать голос и его транскрипцию там, где находится пользователь, не передавая данные на удалённые серверы — особенность, которая может оказаться решающей для компаний в регулируемых отраслях вроде здравоохранения, финансов и оборонной промышленности.
Сток описал два сценария применения технологии. Первый касается промышленного аудита: техники обходят производственное предприятие, осматривают тяжёлое оборудование и выкрикивают наблюдения сквозь шум заводских механизмов. Задача — справиться с «технической лексикой, которую никто не способен правильно написать, кроме этих людей», и получить на выходе заметки с временными метками и идентификацией говорящих, сохраняя высокую устойчивость к шуму.
Второй сценарий нацелен на операции клиентской поддержки. Когда человек обращается в службу поддержки, Voxtral Realtime транскрибирует разговор в реальном времени, передавая текст в бэкенд-системы, которые находят соответствующие записи о клиенте до того, как звонящий закончит объяснять проблему.
«Статус появится у оператора на экране до того, как клиент закончит предложение и перестанет жаловаться. Это значит, что вы можете сразу взаимодействовать и сказать: «Хорошо, я вижу статус. Позвольте мне исправить адрес и отправить посылку обратно»», — объяснил Сток. Он оценил, что это может сократить типичные взаимодействия службы поддержки с нескольких обменов репликами до двух: клиент объясняет проблему, и агент немедленно её решает.
Несмотря на фокус на транскрибацию, Сток прояснил, что Mistral рассматривает эти модели как фундаментальную технологию для более амбициозной цели — естественного перевода речи в речь в реальном времени.
«Возможно, конечное целевое приложение, под которое модель закладывает основу, — это живой перевод. Я говорю по-французски, вы говорите по-английски. Минимальная задержка критична, иначе вы не построите эмпатию. Ваше лицо окажется не в синхронизации с тем, что вы сказали секунду назад», — сказал он.
Эта цель ставит Mistral в прямую конкуренцию с Apple и Google, которые также работают над этой проблемой. Последняя модель перевода Google работает с задержкой в две секунды — в десять раз медленнее, чем заявляет Mistral для Voxtral Realtime.
Mistral занимает необычную позицию на ИИ-ландшафте. Основанная в 2023 году выходцами из Meta* и Google DeepMind, компания привлекла более $2 миллиардов и сейчас оценивается примерно в $13,6 миллиарда. Тем не менее она работает с долей вычислительных ресурсов, доступных американским гипермасштабным компаниям, и построила стратегию вокруг эффективности, а не грубой силы.
«Модели, которые мы выпускаем, соответствуют корпоративному уровню, являются лидерами отрасли, эффективны — особенно с точки зрения стоимости — могут встраиваться на периферию, открывают приватность, открывают контроль, прозрачность», — сказал Сток.
Этот подход нашёл отклик особенно у европейских клиентов, опасающихся зависимости от американских технологий. В январе Министерство вооружённых сил Франции подписало рамочное соглашение, дающее военным страны доступ к ИИ-моделям Mistral — сделка, которая явно требует развёртывания на контролируемой Францией инфраструктуре.
Конфиденциальность данных остаётся одним из крупнейших барьеров для внедрения голосового ИИ в корпоративной среде. Для компаний в чувствительных отраслях — финансах, производстве, здравоохранении, страховании — отправка аудиоданных на внешние облачные серверы часто неприемлема. Информация должна оставаться либо на самом устройстве, либо внутри собственной инфраструктуры компании.
Рынок транскрибации стал крайне конкурентным. Модель Whisper от OpenAI превратилась в отраслевой стандарт, доступна через API и как загружаемые веса с открытым исходным кодом. Google, Amazon и Microsoft предлагают корпоративные речевые сервисы. Специализированные игроки вроде Assembly AI и Deepgram построили существенный бизнес, обслуживая разработчиков, которым нужна надёжная масштабируемая транскрибация.
Mistral утверждает, что новые модели превосходят всех их по точности тестов, одновременно снижая цену. «Мы лучше их в бенчмарках», — сказал Сток. Независимая проверка этих утверждений займёт время, но компания указывает на производительность в FLEURS, широко используемом многоязычном речевом бенчмарке, где модели Voxtral достигают процента ошибок распознавания слов на уровне альтернатив от OpenAI и Google или лучше.
Возможно, ещё важнее то, что генеральный директор Mistral Артур Менш предупредил, что американские ИИ-компании сталкиваются с давлением с неожиданного направления. Выступая на Всемирном экономическом форуме в Давосе в прошлом месяце, Менш отверг представление о том, что китайский ИИ отстаёт от Запада, назвав его «сказкой».
«Возможности технологий Китая с открытым исходным кодом, вероятно, напрягают генеральных директоров в США», — сказал он.
Сток предсказал, что 2026 год станет «годом ведения заметок» — моментом, когда ИИ-транскрибация станет настолько надёжной, что пользователи будут полностью ей доверять.
«Вам нужно доверять модели, и модель в принципе не может допустить ни одной ошибки, иначе вы просто потеряете доверие к продукту и перестанете его использовать. Порог супер, супер жёсткий», — сказал он.
Преодолела ли Mistral этот порог, ещё предстоит увидеть. Корпоративные клиенты станут окончательными судьями, и они склонны двигаться медленно, проверяя заявления реальностью перед тем как выделить бюджеты и рабочие процессы под новую технологию. Аудио-площадка в Mistral Studio, где разработчики могут протестировать Voxtral Transcribe 2 со своими файлами, заработала сегодня.
Но более широкий аргумент Стока заслуживает внимания. На рынке, где американские гиганты конкурируют, вбрасывая миллиарды долларов во всё более крупные модели, Mistral делает другую ставку: в эпоху ИИ меньше и локальнее может победить больше и дальше. Для руководителей, которые проводят дни, беспокоясь о суверенитете данных, соответствии регуляциям и привязке к поставщику, это предложение может оказаться убедительнее любого бенчмарка.
Гонка за доминирование в корпоративном голосовом ИИ больше не только о том, кто построит самую мощную модель. Речь о том, кто построит модель, которой вы готовы позволить слушать.
* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.