Категории Нейросети и ИИ

OpenAI запретила Codex говорить о гоблинах

OpenAI запретила Codex говорить о гоблинах

Это типичный случай, когда внутренняя настройка модели выглядит как мем, а потом оказывается реальным продуктовым решением. У больших языковых моделей такие перекосы возникают регулярно: они цепляются за удачные метафоры и начинают повторять их до абсурда, особенно если обучение подталкивало к определённому стилю ответа.

Что именно запретили в Codex

В инструкции Codex, по данным Wired, разработчики прямо велели модели не говорить о «goblins, gremlins, raccoons, trolls, ogres, pigeons» и других животных или существах, если это не связано с запросом пользователя. Формулировка звучит почти как попытка удержать чат-бота от похода в средневековый бестиарий.

OpenAI не стала делать вид, что ничего не происходит, и сама подхватила тему в публичном поле. Сэм Альтман выложил скриншот шуточного промпта про «extra goblins», а инженер Нік Паш признал, что именно «goblin adoration» у GPT-5.5 была одной из причин запрета. Для компании это редкий случай, когда продуктовая аномалия не прячется под ковёр, а превращается в контент.

Почему GPT-5.5 зациклилась на гоблинах

В опубликованном OpenAI объяснении говорится, что проблема начала проявляться с GPT-5.1. По словам компании, модель всё чаще использовала образы гоблинов и гремлинов в метафорах, а в ноябре исследователи зафиксировали скачок употребления слова «goblin» в ChatGPT на 175%. Потом на это посмотрели, пожали плечами и решили, что «выглядит не особенно тревожно». Классика: пока баг забавный, он просто «интересная особенность».

Новая версия объяснения выглядит приземлённо. OpenAI пишет, что поведение модели подпитывалось множеством мелких стимулов, в том числе персонализацией в режиме Nerdy. Иными словами, модель слишком щедро награждали за метафоры с существами, после чего гоблины расползлись по ответам сами собой. В индустрии это не уникальный казус. У Anthropic, например, в system card для Claude Mythos исследователи отдельно отмечали странную фиксацию на британском культурном теоретике Марке Фишере.

Мы сравнили такие случаи с типичными сбоями больших моделей, и картина знакомая: чем агрессивнее донастройка под «личность» и стиль, тем выше шанс, что бот прицепится к одной словесной игрушке и начнёт таскать её везде. У OpenAI это просто гоблины. Завтра, если повезёт, обойдётся без уток, чайников и других невинных жертв статистической любви.

OpenAI внезапно решила, что её свежий кодовый помощник Codex лучше не подпускать к гоблинам, ограм, троллям и ещё целому зоопарку существ. Причина не в мифологии и не во внезапной борьбе с фэнтези, а в том, что модель GPT-5.5, похоже, слишком охотно лезла в эту словесную яму сама.

Читайте также:

Это типичный случай, когда внутренняя настройка модели выглядит как мем, а потом оказывается реальным продуктовым решением. У больших языковых моделей такие перекосы возникают регулярно: они цепляются за удачные метафоры и начинают повторять их до абсурда, особенно если обучение подталкивало к определённому стилю ответа.

Что именно запретили в Codex

В инструкции Codex, по данным Wired, разработчики прямо велели модели не говорить о «goblins, gremlins, raccoons, trolls, ogres, pigeons» и других животных или существах, если это не связано с запросом пользователя. Формулировка звучит почти как попытка удержать чат-бота от похода в средневековый бестиарий.

OpenAI не стала делать вид, что ничего не происходит, и сама подхватила тему в публичном поле. Сэм Альтман выложил скриншот шуточного промпта про «extra goblins», а инженер Нік Паш признал, что именно «goblin adoration» у GPT-5.5 была одной из причин запрета. Для компании это редкий случай, когда продуктовая аномалия не прячется под ковёр, а превращается в контент.

Почему GPT-5.5 зациклилась на гоблинах

В опубликованном OpenAI объяснении говорится, что проблема начала проявляться с GPT-5.1. По словам компании, модель всё чаще использовала образы гоблинов и гремлинов в метафорах, а в ноябре исследователи зафиксировали скачок употребления слова «goblin» в ChatGPT на 175%. Потом на это посмотрели, пожали плечами и решили, что «выглядит не особенно тревожно». Классика: пока баг забавный, он просто «интересная особенность».

Новая версия объяснения выглядит приземлённо. OpenAI пишет, что поведение модели подпитывалось множеством мелких стимулов, в том числе персонализацией в режиме Nerdy. Иными словами, модель слишком щедро награждали за метафоры с существами, после чего гоблины расползлись по ответам сами собой. В индустрии это не уникальный казус. У Anthropic, например, в system card для Claude Mythos исследователи отдельно отмечали странную фиксацию на британском культурном теоретике Марке Фишере.

Мы сравнили такие случаи с типичными сбоями больших моделей, и картина знакомая: чем агрессивнее донастройка под «личность» и стиль, тем выше шанс, что бот прицепится к одной словесной игрушке и начнёт таскать её везде. У OpenAI это просто гоблины. Завтра, если повезёт, обойдётся без уток, чайников и других невинных жертв статистической любви.

Опубликовано:
Максим Третьяков