Учёные предложили не считать Chain of Thought мышлением

Группа исследователей во главе с Суббарао Камбхампати из Университета штата Аризона призвала не трактовать промежуточные «рассуждения» больших языковых моделей как аналог мышления человека. В новой работе авторы утверждают, что Chain of Thought у систем вроде OpenAI o1 и DeepSeek R1 работает прежде всего как способ статистически повысить шанс верного ответа, а не как прозрачное окно во внутренний ход вычислений. Для отрасли это удар по одному из самых удобных маркетинговых образов последних двух лет.
Авторы разбирают популярное допущение, по которому длинная цепочка промежуточных токенов отражает реальный процесс вывода. С точки зрения архитектуры трансформеров, пишут они, модель по-прежнему предсказывает следующий токен по предыдущему контексту. Фразы в духе «ага, теперь понял» лишь имитируют человеческую манеру объяснять мыслительный поворот. На уровне вычислений в этот момент не возникает отдельного «озарения».
Работа рассматривает рассуждающие модели через призму обучения с подкреплением на основе проверяемых вознаграждений, или RLVR. В такой схеме система оптимизируется под правильный итоговый ответ, а промежуточные шаги не получают собственной формальной оценки. Отсюда главный тезис статьи: Chain of Thought полезнее считать не логическим выводом в привычном смысле, а адаптивным расширением контекста, которое помогает модели привести задачу к статистически более удобной форме.
Для проверки гипотезы исследователи использовали задачи, где ответ можно однозначно сверить, включая лабиринты и поиск кратчайшего пути алгоритмами семейства A*. Они обнаружили, что качество решения часто остаётся высоким даже тогда, когда корректные цепочки объяснений заменяют на неверные или просто переставленные. Просадка возникает в основном при случайном смешивании шаблонов. Авторы называют это U-образной зависимостью и делают вывод, что модель опирается скорее на статистическую структуру текста, чем на «чтение» собственной логики.
Ещё один аргумент дали упрощённые задачи no-maze, где между стартом и целью нет препятствий. Даже в таких условиях модели нередко создавали длинные, местами многостраничные объяснения. По версии авторов, это подрывает тезис, что длина рассуждений прямо отражает объём вычислительных усилий. Скорее, модель воспроизводит паттерн из обучающих данных, где сложные задания чаще сопровождались длинными объяснениями.
Chain of Thought и рассуждающие модели
Спор возник не на пустом месте. После выхода OpenAI o1 осенью 2024 года и DeepSeek R1 в начале 2025 года рынок быстро переключился с обычных чат-ботов на так называемые reasoning-модели. Google добавила режим «мышления» в семейство Gemini, Anthropic продвигает аналогичные сценарии в Claude, а разработчики бенчмарков начали отдельно измерять успехи в задачах по математике, коду и логике. Вместе с ростом точности вырос и соблазн воспринимать промежуточный текст как доказательство настоящего рассуждения.
У этой гонки есть практическая цена. Рассуждающие модели обычно тратят больше токенов на один ответ, работают медленнее и обходятся дороже в инференсе, чем компактные LLM без развёрнутого CoT. Для провайдеров это означает рост вычислительных затрат, для корпоративных клиентов, которые считают бюджет на миллионы запросов, прямой вопрос об окупаемости. Если длинные «мысли» не дают интерпретируемости, их ценность как продукта становится ниже.
Сомнения в прозрачности Chain of Thought звучали и раньше. OpenAI ещё в 2025 году объясняла, почему не всегда показывает пользователям полные сырые цепочки рассуждений, ссылаясь одновременно на вопросы безопасности и на риск обучения конкурентов по этим трассировкам. Новая работа развивает другую линию критики: даже когда такой текст виден, он может говорить больше о форме обучения модели, чем о реально проверяемом механизме вывода.
Отсюда и предупреждение о ложном доверии. В медицине, инженерии и праве длинное, уверенное объяснение легко принять за подтверждение корректности, хотя пользователь не может оперативно проверить десятки абзацев автоматически сгенерированного текста. Исследователи предлагают сдвинуть акцент к схемам класса LLM-Modulo, где языковая модель выдвигает гипотезы, а корректность проверяет внешний формальный модуль. Такой подход уже давно знаком рынку по системам генерации кода с тестами и по математическим решателям с отдельной верификацией результата.
Для индустрии это означает более жёсткий критерий оценки. Рынок генеративного ИИ, по прогнозам IDC, к 2028 году превысит $600 млрд, и заметная часть этих денег уйдёт в инструменты для бизнеса с высоким порогом ответственности. Там выиграют не те модели, которые правдоподобнее изображают внутренний монолог, а те, чьи ответы можно независимо проверить формальными методами или внешними системами контроля.



