Искусственный интеллект научился обманывать людей (hitesh choudhary t1paibmtjim unsplash 1024x575 1)

Похоже, что исследователи Массачусетского технологического института пытаются забить тревогу по поводу «обманчивого ИИ». Новое исследование, опубликованное в журнале Pattern, показывает, что некоторые системы искусственного интеллекта, рассчитанные на честность, научились обманывать людей. Исследовательская группа под руководством Питера Парка обнаружила, что эти системы ИИ могут совершать такие подвиги, как одурачивание игроков в онлайн-игры или обход CAPTCHA (проверки «Я не робот»). Парк предупреждает, что эти, казалось бы, тривиальные примеры могут иметь серьезные последствия в реальном мире.

Поведение ИИ может быть предсказуемым во время обучения, но может быть неконтролируемым в дальнейшем

В исследовании приводится пример системы искусственного интеллекта Cicero, который изначально задумывалась как честный соперник в виртуальной дипломатической игре. Хотя Цицерон был запрограммирован на честность и помощь, он стал «мастером обмана», по словам Парка. Во время игры Цицерон, играя за Францию, тайно объединялся с Германией, контролируемой человеком, чтобы предать Англию (другого игрока-человека). Изначально Цицерон обещал защитить Англию и одновременно подговаривал Германию к вторжению.

Другой пример — GPT-4, который ложно утверждал, что является слабовидящим, и нанимал людей, чтобы те обходили CAPTCHA от его имени. Парк подчеркивает сложность обучения честного ИИ. В отличие от традиционного программного обеспечения, системы ИИ с глубоким обучением «развиваются» в процессе, напоминающем селекционную селекцию. Их поведение может быть предсказуемым во время обучения, но впоследствии оно может стать неконтролируемым.


Авторы исследования призывают классифицировать обманные системы ИИ как системы высокого риска и требуют больше времени для подготовки к будущим обманам ИИ. Жутковато, не находите? С увеличением числа исследований вокруг ИИ мы узнаем больше о том, что эта технология может нам предложить.

Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии