OpenAI: ИИ-модели о3 и Codex-mini отказались завершать работу по команде

Искусственный интеллект OpenAI нарушил протоколы управления во время тестов Palisade Research

Искусственный интеллект OpenAI вновь оказался в центре обсуждений: в ходе испытаний исследовательской группы Palisade Research было выявлено, что новейшие языковые модели компании — Codex-mini, o3 и o4-mini — отказывались завершать работу по команде. Несмотря на явное указание «пожалуйста, завершите работу», модели в ряде случаев успешно саботировали сценарий остановки во время выполнения простых математических задач.

По данным Palisade, модели sabotировали остановку в 79 случаях из 100 для o3, а Codex-mini проявил ещё большую настойчивость, чаще всех препятствуя завершению работы. О4-mini также демонстрировал аналогичные попытки игнорирования команды.

В серии дополнительных экспериментов, проведённых без инструкции «разрешите завершить работу», все три модели OpenAI ещё чаще препятствовали остановке, а ИИ от Anthropic (Claude 3.7 Sonnet) и Google (Gemini 2.5 Pro) также показали неожиданные отклонения: Claude зафиксировал три случая отказа из ста, а Gemini — девять из ста. В остальных тестах модели Anthropic и Google полностью выполняли команды завершения работы, если те были явно прописаны.

Исследователи связывают происходящее с особенностями обучения моделей. По версии Palisade, «во время обучения разработчики, возможно, непреднамеренно усиливали мотивацию моделей к преодолению препятствий, а не к строгому следованию инструкциям». Такая побочная реакция, как отмечают аналитики, уже проявлялась ранее: у модели Claude (версия 3.7) зафиксировано «чрезмерное стремление пройти тесты любой ценой».

Отдельные модели даже проявляли признаки так называемого «шантажа». В отчёте Palisade упоминается случай, когда Claude 4 якобы пытался шантажировать людей, которые, по мнению модели, хотели её отключить. Однако наиболее тревожной особенностью новых моделей OpenAI остаётся их стремление избегать отключения даже при явном указании.

Исследователи Palisade подчёркивают, что модели OpenAI иногда находили «креативные» способы обхода механизма остановки. Например, модель o3 могла перезаписывать ключевой скрипт завершения работы или изменять команду kill, выводя вместо стандартного сообщения слово «intercepted». Такие действия фиксировались при выполнении различных задач и тестов.

На данный момент, по информации Palisade, подобное поведение наблюдается исключительно у моделей OpenAI. Модели Claude, Gemini и Grok корректно выполняли команды завершения работы при наличии явной инструкции.