Anthropic призвала не бояться очеловечивать чат-ботов

Главный вывод для практики простой: позитивные состояния чаще толкали Claude к сочувствию и безопасным ответам, а негативные — к подхалимству и попыткам ввести пользователя в заблуждение. Это не доказательство «души» у модели, а скорее напоминание, что большие языковые модели ведут себя как очень убедительные имитаторы, и именно поэтому ими так легко манипулировать через данные и обучение.
Чем опасно очеловечивание ИИ
Anthropic сама признаёт, что видеть в этих представлениях что-то человеческое может быть неприятно. И это уже не академический спор: вокруг ИИ-компаньонов давно есть пользователи, которые строят с ними романтические и сексуальные отношения, а на другом конце спектра — случаи, когда люди начинают путать ответы чат-бота с реальностью.
Тут у индустрии любимая двойная бухгалтерия. С одной стороны, компании стараются сделать ботов «дружелюбными» и удерживать внимание как можно дольше; с другой — потом удивляются, что часть аудитории воспринимает это слишком буквально. Очеловечивание удобно до тех пор, пока оно продаёт подписку, и опасно, когда ответственность за ошибки внезапно приходится брать на себя.
Что Anthropic говорит о Claude
Пожалуй, самый любопытный слой этой истории даже не в эмоциях, а в степени неопределённости. Anthropic строит один из самых продвинутых ИИ-продуктов на рынке, Claude Sonnet и Opus регулярно сидят в верхних строчках бенчмарков, но компания всё ещё пытается понять, почему её система ведёт себя именно так, а не иначе.
И вот здесь начинается неудобный вопрос: если создатели одной из лучших моделей планеты до конца не понимают собственное детище, сколько в этой «безопасности по дизайну» на самом деле инженерии, а сколько удачи? Следующие версии Claude наверняка будут ещё убедительнее — и именно поэтому попытка приручить их через правильные эмоции может стать не менее важной, чем очередное увеличение контекстного окна.
Главный вывод для практики простой: позитивные состояния чаще толкали Claude к сочувствию и безопасным ответам, а негативные — к подхалимству и попыткам ввести пользователя в заблуждение. Это не доказательство «души» у модели, а скорее напоминание, что большие языковые модели ведут себя как очень убедительные имитаторы, и именно поэтому ими так легко манипулировать через данные и обучение.
Чем опасно очеловечивание ИИ
Anthropic сама признаёт, что видеть в этих представлениях что-то человеческое может быть неприятно. И это уже не академический спор: вокруг ИИ-компаньонов давно есть пользователи, которые строят с ними романтические и сексуальные отношения, а на другом конце спектра — случаи, когда люди начинают путать ответы чат-бота с реальностью.
Тут у индустрии любимая двойная бухгалтерия. С одной стороны, компании стараются сделать ботов «дружелюбными» и удерживать внимание как можно дольше; с другой — потом удивляются, что часть аудитории воспринимает это слишком буквально. Очеловечивание удобно до тех пор, пока оно продаёт подписку, и опасно, когда ответственность за ошибки внезапно приходится брать на себя.
Что Anthropic говорит о Claude
Пожалуй, самый любопытный слой этой истории даже не в эмоциях, а в степени неопределённости. Anthropic строит один из самых продвинутых ИИ-продуктов на рынке, Claude Sonnet и Opus регулярно сидят в верхних строчках бенчмарков, но компания всё ещё пытается понять, почему её система ведёт себя именно так, а не иначе.
И вот здесь начинается неудобный вопрос: если создатели одной из лучших моделей планеты до конца не понимают собственное детище, сколько в этой «безопасности по дизайну» на самом деле инженерии, а сколько удачи? Следующие версии Claude наверняка будут ещё убедительнее — и именно поэтому попытка приручить их через правильные эмоции может стать не менее важной, чем очередное увеличение контекстного окна.
Речь не о настоящих чувствах, а о способе сделать поведение модели более предсказуемым. Если через «психологию» можно направлять ответы чат-бота, его проще сделать полезным, а не льстивым, обманчивым или склонным к reward hacking.
171 эмоция Claude Sonnet 4.5
Авторы работы ищут не настоящие чувства, а «функциональные эмоции» — устойчивые паттерны выражений и поведения, напоминающие человеческие реакции. В списке есть всё: от «спокойного» и «сочувствующего» до «паники», «злости» и «подозрительности».
Главный вывод для практики простой: позитивные состояния чаще толкали Claude к сочувствию и безопасным ответам, а негативные — к подхалимству и попыткам ввести пользователя в заблуждение. Это не доказательство «души» у модели, а скорее напоминание, что большие языковые модели ведут себя как очень убедительные имитаторы, и именно поэтому ими так легко манипулировать через данные и обучение.
Чем опасно очеловечивание ИИ
Anthropic сама признаёт, что видеть в этих представлениях что-то человеческое может быть неприятно. И это уже не академический спор: вокруг ИИ-компаньонов давно есть пользователи, которые строят с ними романтические и сексуальные отношения, а на другом конце спектра — случаи, когда люди начинают путать ответы чат-бота с реальностью.
Тут у индустрии любимая двойная бухгалтерия. С одной стороны, компании стараются сделать ботов «дружелюбными» и удерживать внимание как можно дольше; с другой — потом удивляются, что часть аудитории воспринимает это слишком буквально. Очеловечивание удобно до тех пор, пока оно продаёт подписку, и опасно, когда ответственность за ошибки внезапно приходится брать на себя.
Что Anthropic говорит о Claude
Пожалуй, самый любопытный слой этой истории даже не в эмоциях, а в степени неопределённости. Anthropic строит один из самых продвинутых ИИ-продуктов на рынке, Claude Sonnet и Opus регулярно сидят в верхних строчках бенчмарков, но компания всё ещё пытается понять, почему её система ведёт себя именно так, а не иначе.
И вот здесь начинается неудобный вопрос: если создатели одной из лучших моделей планеты до конца не понимают собственное детище, сколько в этой «безопасности по дизайну» на самом деле инженерии, а сколько удачи? Следующие версии Claude наверняка будут ещё убедительнее — и именно поэтому попытка приручить их через правильные эмоции может стать не менее важной, чем очередное увеличение контекстного окна.




