
Исследование учёных из Университета штата Аризона (ASU) поставило под сомнение надежность популярного подхода Chain-of-Thought (CoT) в больших языковых моделях (LLM). По мнению авторов, CoT скорее имитирует логическое мышление, чем действительно использует его, опираясь на шаблоны из обучающих данных. Работа предлагает разработчикам практические рекомендации по оценке и улучшению ИИ-систем, а также новую методологию анализа слабых мест LLM.
Метод CoT-подсказок, в котором ИИ «рассуждает шаг за шагом», получил широкую известность за высокую точность на сложных задачах. Однако, как показывают новые данные, это «поразительное» поведение моделей — не результат абстрактного мышления, а отточенное воспроизведение знакомых языковых шаблонов.
Ранее уже отмечалось, что LLM чаще полагаются не на логику, а на поверхностные семантические признаки. В результате модели выдают правдоподобные, но ошибочные рассуждения, особенно при столкновении с нестандартными задачами или нерелевантной информацией.
Авторы исследования предложили рассматривать CoT не как проявление интеллекта, а как форму структурного сопоставления паттернов. Их гипотеза: успех CoT основан не на способности к умозаключениям, а на умении обобщать на задачи, похожие по структуре на обучающие примеры. При этом любая попытка применить CoT вне «области данных», на которых модель обучалась, приводит к резкому падению точности.
Для проверки этой идеи учёные применили методику анализа по трём видам «распределительного сдвига»:
Эксперименты проводились в контролируемой среде с использованием собственной системы DataAlchemy, позволяющей обучать модели с нуля и точно отслеживать, где и как возникают сбои.
«Наша цель — создать пространство для открытого анализа границ возможностей ИИ», — отметил соавтор работы Чэншуай Чжао, аспирант ASU.
Авторы пришли к выводу, что рассуждения CoT — это «структурированное сопоставление паттернов», ограниченное статистикой обучающей выборки. Даже минимальный отход от привычной структуры приводит к сбоям:
Любопытно, что большинство этих проблем можно частично устранить с помощью точечной дообучаемости (SFT) на небольшом количестве новых примеров. Однако это лишь подтверждает основную гипотезу: модели не «понимают», а «запоминают» новые шаблоны.
Исследователи подчёркивают, что CoT не стоит воспринимать как надёжную технологию для критически важных приложений. Они дают три ключевых совета:
Авторы подчеркивают: несмотря на ограничения CoT, модели всё ещё могут быть полезны. Большинство бизнес-приложений работают с узкими, хорошо предсказуемыми задачами. Если заранее протестировать поведение модели по конкретным параметрам — типу задач, длине и формату запроса — можно определить границы её «зоны уверенности».
В этом случае дообучение превращается из запоздалой «латки» в инструмент точной настройки. Разработчики могут создавать малые обучающие выборки, покрывающие уязвимости модели, не претендуя на развитие абстрактного мышления. Такой подход позволяет превратить CoT в надёжный механизм сопоставления паттернов под конкретные задачи.