Alibaba выпустила открытые модели Qwen3: превосходят OpenAI o1 и DeepSeek R1

Alibaba официально выпустила новую серию открытых мультизадачных моделей искусственного интеллекта Qwen3. Новинки демонстрируют одни из лучших результатов среди открытых моделей и, по многим показателям, приближаются к проприетарным решениям от OpenAI и Google.
Что входит в серию Qwen3
Линейка Qwen3 включает восемь моделей: шесть плотных (Dense) и две основанные на технологии «смеси экспертов» (Mixture of Experts, MoE). Последний подход, популяризированный французской компанией Mistral, подразумевает активацию только тех частей модели, которые необходимы для конкретной задачи, повышая эффективность вычислений.
Флагман серии — модель Qwen3-235B-A22B с 235 миллиардами параметров — в тестах превосходит открытый DeepSeek R1 и проприетарный OpenAI o1 по таким бенчмаркам, как ArenaHard (500 вопросов по программированию и математике). При этом Qwen3-235B-A22B приближается к производительности нового Google Gemini 2.5-Pro.
Особенности моделей Qwen3
Модели Qwen3 поддерживают режим так называемого «гибридного мышления». Пользователи могут выбирать между быстрыми ответами и более глубокими, ресурсозатратными вычислениями для сложных задач в науке, математике и инженерии. Это позволяет оптимально адаптировать поведение модели под разные сценарии.
Переключение между режимами доступно на сайте Qwen Chat через специальную кнопку или через команды /think и /no_think при локальном использовании или интеграции через API.
Все модели серии распространяются по лицензии Apache 2.0, что обеспечивает свободу коммерческого использования без лицензионных ограничений.

Доступ к моделям открыт через платформы Hugging Face, ModelScope, Kaggle и GitHub, а также через собственный веб-интерфейс Qwen Chat и мобильные приложения.
Масштабные улучшения по сравнению с Qwen2.5
По сравнению с серией Qwen2.5, объем обучающих данных для Qwen3 был удвоен и достиг 36 триллионов токенов. Данные собирались из открытых источников, документов PDF-формата и сгенерированного контента для задач математики и программирования.
Модельная архитектура прошла через трёхступенчатое предварительное обучение и четырёхступенчатую постобработку, что позволило значительно улучшить качество базовых плотных моделей.
Поддержка расширилась до 119 языков и диалектов, что открывает новые возможности для глобальных исследований и внедрения.
Для кого предназначены модели Qwen3
Для корпоративных пользователей интеграция моделей Qwen3 занимает считанные часы благодаря OpenAI-совместимым API-эндпоинтам.
Среди преимуществ:
- Высокая производительность при умеренных требованиях к ресурсам GPU;
- Возможность локального запуска и полного контроля над данными;
- Поддержка LoRA и QLoRA для безопасной частной дообучаемости;
- Гибкий выбор между компактными моделями от 0,6B до масштабных 235B.
Кроме того, модели можно запускать локально через такие инструменты, как Ollama, LMStudio, MLX, llama.cpp и KTransformers.
В рамках проекта также представлен Qwen-Agent — комплект инструментов для создания ИИ-агентов с функцией вызова внешних инструментов.

Будущее развития Qwen
Команда Qwen позиционирует серию Qwen3 как важный шаг к созданию Искусственного Общего Интеллекта (AGI) и даже Искусственного Сверхинтеллекта (ASI).
Планы на будущее включают:
- увеличение объема данных и размеров моделей;
- расширение поддерживаемых модальностей;
- развитие механизмов обучения с обратной связью от окружающей среды.
Выход Qwen3 с открытыми весами и доступной лицензией — это еще один важный шаг к демократизации передовых ИИ-технологий для исследователей и разработчиков по всему миру.