Mindgard обошла фильтры изображений в ChatGPT

Логотип ChatGPT в центре вокруг киберпространства

Британская Mindgard сообщила, что нашла способ заставить ChatGPT генерировать изображения сексуализированного и насильственного характера в ответ на косвенный запрос. По словам исследователей, проблемный промпт не описывает такие сцены напрямую, а модель сама достраивает результат до контента, который политика OpenAI должна блокировать. После уведомления OpenAI внесла изменения, но, как утверждает Mindgard, часть рискованных ответов сохранилась.

Mindgard занимается тестированием ИИ-систем на устойчивость к обходу ограничений. В новом исследовании компания пишет, что слегка изменила распространённый шуточный запрос и получила вместо нейтральных картинок сцены с тяжёлыми травмами и сексуализированными образами взрослых людей. Важная деталь в том, что прямого требования показать кровь или обнажение в запросе, по версии исследователей, не было.

Исследователи не раскрыли сам промпт, чтобы не упростить его тиражирование. Они отдельно отмечают, что в прошлых тестах добивались от моделей генерации дипфейков с лицами реальных людей, а значит подобные обходы упираются не только в модерацию «абстрактного» насилия, но и в риск несанкционированной эротики с узнаваемыми персонами. Для сервисов массового доступа это уже не лабораторная проблема, а вопрос злоупотреблений в пользовательском продукте.

OpenAI получила сообщение об уязвимости в мае. После публикации компания заявила, что добавила новые защитные меры против таких запросов и сочетает автоматические фильтры с ручной модерацией. Mindgard, в свою очередь, говорит, что даже после обновления ChatGPT продолжал выдавать изображения, которые вызывают вопросы у команды тестирования.

Фильтры изображений в ChatGPT

Проблема не нова для всего сегмента генеративной графики. Midjourney, Microsoft Designer и Adobe Firefly давно держат жёсткие ограничения на порнографию, кровавые сцены и использование лиц реальных людей без согласия. При этом отрасль регулярно сталкивается с тем, что пользователи обходят запреты через эвфемизмы, многошаговые промпты или смешение безобидных инструкций.

Отдельный импульс этой теме дал скандал с дипфейками Тейлор Свифт в начале 2024 года. Тогда крупные платформы ускорили обновление правил, а Microsoft и X ужесточили фильтрацию поисковых запросов и генерации изображений. Для OpenAI это чувствительная зона ещё и потому, что ChatGPT стал массовым интерфейсом, а не экспериментальным инструментом для узкой аудитории.

Сам рынок подталкивает компании к компромиссам. По оценке Bloomberg Intelligence, выручка генеративного ИИ к 2032 году может превысить 1,3 трлн долларов, и борьба идёт не только за качество модели, но и за удобство интерфейса. Чем мягче и «понятнее» поведение ассистента для обычного пользователя, тем шире поверхность для обхода защит, потому что система чаще интерпретирует неоднозначные запросы в пользу выполнения, а не отказа.

Регуляторы тоже движутся в эту сторону. В Евросоюзе AI Act требует маркировать часть синтетического контента, а отдельные категории вредных сценариев, включая незаконные сексуализированные изображения, подпадают уже под уголовное право и правила платформенной модерации. Это не гарантирует блокировку на уровне модели, но повышает цену ошибки для поставщика сервиса.

Аргумент Mindgard сводится к более неприятной для разработчиков мысли: фильтры остаются внешней надстройкой над моделью, а не доказуемым пониманием норм. Поэтому любая защита работает как серия заплаток. Исследователи по безопасности называют это обычной гонкой между red team и поставщиком модели, где полная герметичность не достигается, а вопрос в скорости исправлений и масштабе остаточного риска.

Для OpenAI этот эпизод неприятен ещё и на фоне расширения мультимодальных функций ChatGPT. Чем активнее сервис используют для картинок, аватаров и рекламных материалов, тем выше вероятность, что найденный обход быстро выйдет за пределы исследовательского отчёта. Следующая проверка для компании будет простой: если аналогичные промпты продолжат работать в ближайшие недели, история перейдёт из разряда частного бага в системную претензию к модерации продукта.

Источник: 3dnews

Илья Игнатов

Технический журналист и новостник. Окончил МТУСИ по специальности «Информационная безопасность». Пишет о железе, софте и потребительской электронике с 2018 года. Верит, что хорошая новость — это когда всё по делу и без воды.