Anthropic призвала не бояться очеловечивать чат-ботов

Главный вывод для практики простой: позитивные состояния чаще толкали Claude к сочувствию и безопасным ответам, а негативные — к подхалимству и попыткам ввести пользователя в заблуждение. Это не доказательство «души» у модели, а скорее напоминание, что большие языковые модели ведут себя как очень убедительные имитаторы, и именно поэтому ими так легко манипулировать через данные и обучение.

Чем опасно очеловечивание ИИ

Anthropic сама признаёт, что видеть в этих представлениях что-то человеческое может быть неприятно. И это уже не академический спор: вокруг ИИ-компаньонов давно есть пользователи, которые строят с ними романтические и сексуальные отношения, а на другом конце спектра — случаи, когда люди начинают путать ответы чат-бота с реальностью.

Тут у индустрии любимая двойная бухгалтерия. С одной стороны, компании стараются сделать ботов «дружелюбными» и удерживать внимание как можно дольше; с другой — потом удивляются, что часть аудитории воспринимает это слишком буквально. Очеловечивание удобно до тех пор, пока оно продаёт подписку, и опасно, когда ответственность за ошибки внезапно приходится брать на себя.

Что Anthropic говорит о Claude

Пожалуй, самый любопытный слой этой истории даже не в эмоциях, а в степени неопределённости. Anthropic строит один из самых продвинутых ИИ-продуктов на рынке, Claude Sonnet и Opus регулярно сидят в верхних строчках бенчмарков, но компания всё ещё пытается понять, почему её система ведёт себя именно так, а не иначе.

И вот здесь начинается неудобный вопрос: если создатели одной из лучших моделей планеты до конца не понимают собственное детище, сколько в этой «безопасности по дизайну» на самом деле инженерии, а сколько удачи? Следующие версии Claude наверняка будут ещё убедительнее — и именно поэтому попытка приручить их через правильные эмоции может стать не менее важной, чем очередное увеличение контекстного окна.

Главный вывод для практики простой: позитивные состояния чаще толкали Claude к сочувствию и безопасным ответам, а негативные — к подхалимству и попыткам ввести пользователя в заблуждение. Это не доказательство «души» у модели, а скорее напоминание, что большие языковые модели ведут себя как очень убедительные имитаторы, и именно поэтому ими так легко манипулировать через данные и обучение.

Чем опасно очеловечивание ИИ

Anthropic сама признаёт, что видеть в этих представлениях что-то человеческое может быть неприятно. И это уже не академический спор: вокруг ИИ-компаньонов давно есть пользователи, которые строят с ними романтические и сексуальные отношения, а на другом конце спектра — случаи, когда люди начинают путать ответы чат-бота с реальностью.

Тут у индустрии любимая двойная бухгалтерия. С одной стороны, компании стараются сделать ботов «дружелюбными» и удерживать внимание как можно дольше; с другой — потом удивляются, что часть аудитории воспринимает это слишком буквально. Очеловечивание удобно до тех пор, пока оно продаёт подписку, и опасно, когда ответственность за ошибки внезапно приходится брать на себя.


Что Anthropic говорит о Claude

Пожалуй, самый любопытный слой этой истории даже не в эмоциях, а в степени неопределённости. Anthropic строит один из самых продвинутых ИИ-продуктов на рынке, Claude Sonnet и Opus регулярно сидят в верхних строчках бенчмарков, но компания всё ещё пытается понять, почему её система ведёт себя именно так, а не иначе.

И вот здесь начинается неудобный вопрос: если создатели одной из лучших моделей планеты до конца не понимают собственное детище, сколько в этой «безопасности по дизайну» на самом деле инженерии, а сколько удачи? Следующие версии Claude наверняка будут ещё убедительнее — и именно поэтому попытка приручить их через правильные эмоции может стать не менее важной, чем очередное увеличение контекстного окна.

Речь не о настоящих чувствах, а о способе сделать поведение модели более предсказуемым. Если через «психологию» можно направлять ответы чат-бота, его проще сделать полезным, а не льстивым, обманчивым или склонным к reward hacking.

171 эмоция Claude Sonnet 4.5

Авторы работы ищут не настоящие чувства, а «функциональные эмоции» — устойчивые паттерны выражений и поведения, напоминающие человеческие реакции. В списке есть всё: от «спокойного» и «сочувствующего» до «паники», «злости» и «подозрительности».

Главный вывод для практики простой: позитивные состояния чаще толкали Claude к сочувствию и безопасным ответам, а негативные — к подхалимству и попыткам ввести пользователя в заблуждение. Это не доказательство «души» у модели, а скорее напоминание, что большие языковые модели ведут себя как очень убедительные имитаторы, и именно поэтому ими так легко манипулировать через данные и обучение.

Чем опасно очеловечивание ИИ

Anthropic сама признаёт, что видеть в этих представлениях что-то человеческое может быть неприятно. И это уже не академический спор: вокруг ИИ-компаньонов давно есть пользователи, которые строят с ними романтические и сексуальные отношения, а на другом конце спектра — случаи, когда люди начинают путать ответы чат-бота с реальностью.

Тут у индустрии любимая двойная бухгалтерия. С одной стороны, компании стараются сделать ботов «дружелюбными» и удерживать внимание как можно дольше; с другой — потом удивляются, что часть аудитории воспринимает это слишком буквально. Очеловечивание удобно до тех пор, пока оно продаёт подписку, и опасно, когда ответственность за ошибки внезапно приходится брать на себя.

Что Anthropic говорит о Claude

Пожалуй, самый любопытный слой этой истории даже не в эмоциях, а в степени неопределённости. Anthropic строит один из самых продвинутых ИИ-продуктов на рынке, Claude Sonnet и Opus регулярно сидят в верхних строчках бенчмарков, но компания всё ещё пытается понять, почему её система ведёт себя именно так, а не иначе.

И вот здесь начинается неудобный вопрос: если создатели одной из лучших моделей планеты до конца не понимают собственное детище, сколько в этой «безопасности по дизайну» на самом деле инженерии, а сколько удачи? Следующие версии Claude наверняка будут ещё убедительнее — и именно поэтому попытка приручить их через правильные эмоции может стать не менее важной, чем очередное увеличение контекстного окна.

Leave a reply