DeepSeek выпускает модель V3.1: что нового?

Китайская компания DeepSeek представила обновлённую версию своего флагманского LLM — DeepSeek V3.1. Главные новшества: расширенный контекст до 128 000 токенов и рост числа параметров до 685 млрд.

Что изменилось в V3.1: контекст теперь равен целой книге на 300–400 страниц, что даёт улучшения для анализа длинных документов, генерации больших текстов и многотуровых диалогов. Архитектура Mixture-of-Experts (MoE) остаётся: при обработке токена активны только 37 млрд параметров. Поддержка форматов BF16, FP8 и F32 обеспечивает гибкость для разных сред развертывания. Модель доступна через API и Hugging Face по MIT open-source лицензии.

Результаты тестов показали 71.6% на Aider coding test — выше, чем у Claude Opus 4, что делает V3.1 одним из сильнейших open-source LLM для программирования. Укрепились навыки в математике и логике, но пользователи отмечают отсутствие заметного роста в «reasoning» по сравнению с прошлой моделью R1-0528.

Интерфейс DeepSeek больше не упоминает серию R1. V3.1 совмещает обычные и «reasoning»-задачи в одной гибридной архитектуре.

Обучение оригинальной V3 стоило примерно 5.6 миллиона долларов (2.8 млн GPU-часов на Nvidia H800). Попытка тренировки R2 на чипах Huawei Ascend провалилась из-за проблем совместимости и производительности. В итоге DeepSeek использует гибридную схему: обучение на Nvidia, инференс на Ascend. Это усложнило разработку и задержало выход R2. Основатель Лян Вэньфэн, по сообщениям, выразил недовольство затягиванием сроков.

Alibaba с Qwen3 обошла DeepSeek по скорости внедрения схожих решений. Ситуация подчеркнула ограниченность китайской полупроводниковой базы и трудности стартапов, балансирующих между политикой и технологиями.

R2 не отменён, но его выход снова отложен. Когда он появится, модель будет тщательно проверяться на предмет реального прогресса в reasoning. До тех пор DeepSeek V3.1 остаётся текущим флагманом компании для широкого спектра задач.