Логотип DeepSeek V3.1 с синим текстом на светлом фоне

Китайская компания DeepSeek представила обновлённую версию своего флагманского LLM — DeepSeek V3.1. Главные новшества: расширенный контекст до 128 000 токенов и рост числа параметров до 685 млрд.

Что изменилось в V3.1: контекст теперь равен целой книге на 300–400 страниц, что даёт улучшения для анализа длинных документов, генерации больших текстов и многотуровых диалогов. Архитектура Mixture-of-Experts (MoE) остаётся: при обработке токена активны только 37 млрд параметров. Поддержка форматов BF16, FP8 и F32 обеспечивает гибкость для разных сред развертывания. Модель доступна через API и Hugging Face по MIT open-source лицензии.

Результаты тестов показали 71.6% на Aider coding test — выше, чем у Claude Opus 4, что делает V3.1 одним из сильнейших open-source LLM для программирования. Укрепились навыки в математике и логике, но пользователи отмечают отсутствие заметного роста в «reasoning» по сравнению с прошлой моделью R1-0528.

Интерфейс DeepSeek больше не упоминает серию R1. V3.1 совмещает обычные и «reasoning»-задачи в одной гибридной архитектуре.

Смартфон с логотипом DeepSeek и изображением кита на экране

Обучение оригинальной V3 стоило примерно 5.6 миллиона долларов (2.8 млн GPU-часов на Nvidia H800). Попытка тренировки R2 на чипах Huawei Ascend провалилась из-за проблем совместимости и производительности. В итоге DeepSeek использует гибридную схему: обучение на Nvidia, инференс на Ascend. Это усложнило разработку и задержало выход R2. Основатель Лян Вэньфэн, по сообщениям, выразил недовольство затягиванием сроков.

Alibaba с Qwen3 обошла DeepSeek по скорости внедрения схожих решений. Ситуация подчеркнула ограниченность китайской полупроводниковой базы и трудности стартапов, балансирующих между политикой и технологиями.

R2 не отменён, но его выход снова отложен. Когда он появится, модель будет тщательно проверяться на предмет реального прогресса в reasoning. До тех пор DeepSeek V3.1 остаётся текущим флагманом компании для широкого спектра задач.

Никита Брытков
Ведущий аналитик новостного отдела itzine.ru, подготовивший свыше 8000 публикаций по актуальным вопросам цифровой индустрии. Фокусируется на информационной безопасности, изменениях в работе глобальных IT-сервисов и вопросах конфиденциальности личных данных. Экспертиза включает мониторинг обновлений операционных систем, развитие технологий искусственного интеллекта и анализ взаимодействия крупнейших технологических корпораций.

    Комментарии запрещены.