DeepSeek

Годовалый стартап из Китая покорил индустрию искусственного интеллекта, выпустив чатбота, который соперничает по производительности с ChatGPT и при этом потребляет в разы меньше энергии, охлаждения и затрат на обучение, чем системы OpenAI, Google и Anthropic. И если вы хотите знать больше о ИИ, который поднял на уши всю индустрию, то в этой статье вы можете прочитать о моделях Deepseek V3 и R1 и о том, почему эта компания может в корне изменить амбиции Америки в области ИИ.

Что такое DeepSeek?

DeepSeek (технически «Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.») — это китайский ИИ-стартап, который изначально был основан как ИИ-лаборатория для материнской компании High-Flyer в апреле 2023 года. В мае того же года DeepSeek была выделена в отдельную компанию (при этом High-Flyer осталась в качестве инвестора) и выпустила модель DeepSeek-V2. V2 по производительности не уступала другим ведущим китайским ИИ-компаниям, таким как ByteDance, Tencent и Baidu, но при этом имела гораздо меньшие операционные расходы.

Вслед за этим компания выпустила V3 в декабре 2024 года. V3 — это модель с 671 миллиардом параметров, на обучение которой, как сообщается, ушло менее 2 месяцев. Более того, согласно недавнему анализу Джеффриса, «стоимость обучения DeepSeek составила всего 5,6 млн долларов США. Это ничтожная доля от сотен миллионов до миллиардов долларов, которые американские компании, такие как Google, Microsoft, xAI и OpenAI, потратили на обучение своих моделей.

DeepSeek

По результатам бенчмарк-тестов производительность V3 находится на одном уровне с GPT-4o и Claude 3.5 Sonnet. DeepSeek выпустила свою модель R1-Lite-Preview в ноябре 2024 года, заявив, что новая модель может превзойти семейство моделей рассуждений o1 от OpenAI (и сделать это за меньшую цену). По оценкам компании, модель R1 обходится в 20-50 раз дешевле, в зависимости от задачи, чем OpenAI o1. Впоследствии DeepSeek выпустила DeepSeek-R1 и DeepSeek-R1-Zero в январе 2025 года. Модель R1, в отличие от своего конкурента o1, имеет открытый исходный код, что означает, что абсолютно любой разработчик может использовать ее.

С момента выхода V3 и R1 их популярность резко возросла, а ИИ-помощник DeepSeek на базе V3 вытеснил ChatGPT с первых мест в магазинах приложений. Венчурный капиталист Марк Андреесен в недавнем посте в социальных сетях назвал чатбота DeepSeek «одним из самых удивительных и впечатляющих прорывов, которые я когда-либо видел» и «огромным подарком миру».

Что умеет DeepSeek?

Являясь большой языковой моделью с открытым исходным кодом, чат-боты DeepSeek могут делать практически все, что могут ChatGPT, Gemini и Claude. Это включает в себя генерацию текста, аудио, изображений и видео. Более того, недавно выпущенное семейство мультимодальных моделей DeepSeek, получившее название Janus Pro, по сообщениям, превосходит DALL-E 3, а также PixArt-alpha, Emu3-Gen и Stable Diffusion XL в паре отраслевых бенчмарков. DeepSeek-R1, конкурирующий с o1, специально разработан для выполнения сложных задач рассуждения, генерируя пошаговые решения проблем и создавая «логические цепочки мыслей», где он объясняет свой процесс рассуждения шаг за шагом при решении той или иной проблемы.

Единственное, что не может делать DeepSeek, так это так или иначе обсуждать темы, запрещенные китайской коммунистической партией.

Кто может использовать DeepSeek?

DeepSeek

Как LLM с открытым исходным кодом, модель DeepSeek может быть использована любым разработчиком бесплатно. OpenAI берет 200 долларов в месяц за подписку Pro, необходимую для доступа к o1. Модели DeepSeek доступны в Интернете, через API компании и в мобильных приложениях. Для использования моделей необходимо зарегистрировать бесплатный аккаунт на сайте компании, однако компания временно приостановила регистрацию новых пользователей в связи с «масштабными вредоносными атаками на сервисы DeepSeek».

Однако пользователи, которые зарегистрировались раньше, могут войти в систему и пользоваться платформой в обычном режиме, но пока не сообщается, когда именно новые пользователи смогут попробовать DeepSeek в деле.

Почему DeepSeek внезапно стал таким важным событием?

С момента выхода ChatGPT в ноябре 2023 года американские компании, занимающиеся разработкой ИИ, были нацелены на создание больших, более мощных, более обширных, более энерго- и ресурсоемких языковых моделей. Вместо того чтобы стремиться к созданию более экономичных и энергоэффективных LLM, такие компании, как OpenAI, Microsoft, Anthropic и Google, сочли нужным просто форсировать развитие технологии, бросая на решение проблемы абсурдные суммы денег и ресурсов. Ожидается, что только в 2024 году Илон Маск лично потратит на инициативы в области ИИ до 10 миллиардов долларов. OpenAI и ее партнеры только что объявили об инициативе Project Stargate стоимостью 500 миллиардов долларов, которая позволит резко ускорить строительство зеленых энергосистем и центров обработки данных ИИ в США. По словам генерального директора Сундара Пичаи, Google планирует в первую очередь масштабировать платформу Gemini в течение 2025 года и, как ожидается, потратит миллиарды в этом году на достижение этой цели.

Китайская разработка только что доказал и вполне наглядно продемонстрировал всему миру, что ничего из этого на самом деле не нужно — что «ИИ-бум», который помогал стимулировать американскую экономику в последние месяцы и который сделал компании, производящие графические процессоры, такие как Nvidia, экспоненциально более богатыми, чем они были в октябре 2023 года, может быть не более чем фикцией. Это также ставит под сомнение то, насколько США действительно лидируют в области ИИ, несмотря на неоднократные запреты на поставки передовых графических процессоров в Китай в течение последнего года.

Короче говоря, DeepSeek только что обыграла американскую индустрию ИИ в ее собственной игре, показав, что нынешняя мантра «рост любой ценой» больше не действует.

У DeepSeek явно нет доступа к такому количеству вычислений, как у американских гипермасштабируемых компаний, и ей каким-то образом удалось разработать модель, которая выглядит весьма конкурентоспособной. Если китайский стартап может создать модель ИИ, которая работает так же хорошо, как и новейшая разработка OpenAI, и сделать это менее чем за два месяца и менее чем за 6 миллионов долларов, то в чем смысл такой гонки?

CNBC Срини Паджури, аналитик по полупроводникам из Raymond James

Подпишись на ITZine в Дзен Новостях
Читай ITZine в Telegram
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии