DeepSeek представила модель V4 с 1,6 трлн параметров и низкой стоимостью использования

Китайская лаборатория DeepSeek представила две предварительные версии новой языковой модели — DeepSeek V4, которая приходит на смену прошлогодней версии V3.2 и связанной с ней модели рассуждений R1.
Новые версии — DeepSeek V4 Flash и V4 Pro — используют архитектуру »mixture-of-experts». Это означает, что при выполнении задач активируется только часть параметров, что снижает затраты на вычисления. Обе модели поддерживают контекстное окно до 1 миллиона токенов, позволяя работать с большими кодовыми базами и длинными документами.
Флагманская версия V4 Pro содержит 1,6 трлн параметров (из которых активно используется около 49 млрд), что делает её крупнейшей моделью с открытыми весами на рынке. Она превосходит такие решения, как Kimi K 2.6 от Moonshot AI (1,1 трлн параметров), MiniMax M1 (456 млрд) и более чем вдвое опережает предыдущую DeepSeek V3.2 (671 млрд). Более компактная версия V4 Flash насчитывает 284 млрд параметров (13 млрд активных).
По заявлению компании, архитектурные улучшения позволили добиться более высокой эффективности и производительности. В тестах на логическое мышление модели практически догнали лидеров рынка, а версия V4-Pro-Max в ряде задач даже превосходит GPT-5.2 от OpenAI и Gemini 3.0 Pro от Google. В соревнованиях по программированию результаты обеих моделей сопоставимы с GPT-5.4.
Однако в тестах на общие знания модели пока немного уступают передовым решениям, таким как Gemini 3.1 Pro и GPT-5.4. По оценке самой DeepSeek, отставание составляет примерно от 3 до 6 месяцев.

Важно отметить, что модели V4 поддерживают только текст, в отличие от многих конкурентов, которые уже работают с изображениями, видео и аудио.
Одним из главных преимуществ новинки стала цена. Версия V4 Flash стоит $0,14 за миллион входных токенов и $0,28 за миллион выходных, что дешевле таких моделей, как GPT-5.4 Nano, Gemini 3.1 Flash и Claude Haiku 4.5. Более мощная V4 Pro оценивается в $0,145 за миллион входных токенов и $3,48 за миллион выходных, также обходя по стоимости GPT-5.5, Claude Opus 4.7 и Gemini 3.1 Pro.
Запуск модели состоялся на фоне обострения ситуации: США обвинили Китай в массовом копировании интеллектуальной собственности американских AI-компаний. В частности, Anthropic и OpenAI ранее заявляли, что DeepSeek использует методы »дистилляции», то есть фактически копирует поведение их моделей.



