Новый стартап Deep Cogito представил открытые ИИ-модели, уже обгоняющие конкурентов (cfr0z3n davinci scientific diagram showing a human palm with fi b8a07744 bd15 4aec 8945 46b7fa1a7369.png)

Американский стартап Deep Cogito, специализирующийся на разработке искусственного интеллекта, вышел из тени и сразу заявил о себе громко: компания представила первую линейку открытых LLM-моделей, которые уже обошли по ряду метрик решения от OpenAI, DeepSeek и других игроков.

Стартап из Сан-Франциско, основанный бывшим инженером Google Дриша́ном Аро́рой, представил серию языковых моделей под названием Cogito v1, основанных на LLaMA 3.2. Эти модели не только поддерживают гибридные режимы мышления — мгновенные ответы и глубокое саморефлексивное рассуждение, — но и демонстрируют впечатляющие результаты в сравнительных тестах.

Deep Cogito позиционирует себя как компанию, нацеленную на создание ИИ-систем, способных к самоусовершенствованию без участия человека, и заявляет, что все её разработки будут оставаться в открытом доступе.

Новый подход к обучению моделей

В отличие от классического обучения с обратной связью от человека (RLHF) или дистилляции знаний от «учительской» модели, Deep Cogito использует метод Iterated Distillation and Amplification (IDA). Этот подход напоминает стратегию AlphaGo с самоиграми: модели получают больше вычислительных ресурсов для поиска более совершённых решений, а затем «запоминают» полученные стратегии внутри себя.

По словам Аро́ры, это позволяет моделям выходить за пределы текущих ограничений и постепенно приближаться к уровню универсального ИИ.

Что известно о новых моделях

В стартовую линейку вошли пять базовых моделей с объёмом от 3 до 70 миллиардов параметров. Они уже доступны на платформах Hugging Face, Ollama, а также через API-сервисы Fireworks AI и Together AI. Все они распространяются по лицензии LLaMA, которая допускает коммерческое использование — вплоть до 700 миллионов пользователей в месяц.

В ближайшие месяцы Deep Cogito планирует расширить линейку и представить модели с параметрами до 671 миллиардов, включая архитектуру с экспертной смесью (Mixture-of-Experts).

Сравнение с конкурентами

Результаты бенчмарков показывают, что даже младшие модели Deep Cogito обгоняют конкурентов:

  • Cogito 3B (стандарт) обходит LLaMA 3.2 3B по MMLU на 6,7 п.п. и Hellaswag — на 18,8 п.п.
  • В режиме рассуждения (Reasoning) эта же модель достигает 84,2% на ARC, против 65–70% у конкурентов.
  • Cogito 8B (стандарт) достигает 80,5% на MMLU — это на 12,8 п.п. выше, чем у LLaMA 3.1 8B.
  • В режиме Reasoning модель 8B показывает 92,0% на ARC, обгоняя DeepSeek R1 Distill 8B.
  • Cogito 70B в стандартном режиме превосходит LLaMA 3.3 70B по MMLU на 6,4 п.п. (91,7% против 85,3%).

Особенно высокие результаты показаны в задачах на многоязычность и понимание общего контекста, где Cogito 70B Reasoning достигла 92,7% на MGSM.

Однако в математических задачах модели пока отстают от лидеров: Cogito 70B Reasoning набрала 83,3% на MATH, уступив DeepSeek R1 (89%).

Нативная работа с инструментами

Ещё одна сильная сторона новых моделей — встроенная поддержка вызова внешних инструментов (tool-calling). Это особенно важно для систем, интегрируемых через API в реальные продукты.

  • Cogito 3B поддерживает четыре типа вызова инструментов, включая параллельные запросы, и достигает 92,8% точности.
  • Cogito 8B сохраняет высокий уровень — более 89% по всем типам задач.
  • Для сравнения: LLaMA 3.1 8B в этих тестах показывает лишь 35–54%.

Разработчики объясняют это не только архитектурой, но и целенаправленным постобучением на задачах с инструментами — чего, по их словам, пока нет у большинства открытых моделей.

Что дальше

Deep Cogito планирует выпуск более крупных моделей (109B, 400B, 671B) и продолжит улучшать уже представленные, наращивая качество reasoning-режимов и точность работы с инструментами. Все новые релизы также будут в открытом доступе. Компания уже сотрудничает с Hugging Face, RunPod, Fireworks, Together AI и Ollama, обеспечивая поддержку своей инфраструктуры и API.

По словам Аро́ры, цель Deep Cogito — не просто бенчмарки, а создание настоящей масштабируемой системы ИИ, способной к самостоятельному росту. По его словам, представленные модели — лишь первый шаг на этом пути.

Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии