Mindgard обошла фильтры изображений в ChatGPT

Британская Mindgard сообщила, что нашла способ заставить ChatGPT генерировать изображения сексуализированного и насильственного характера в ответ на косвенный запрос. По словам исследователей, проблемный промпт не описывает такие сцены напрямую, а модель сама достраивает результат до контента, который политика OpenAI должна блокировать. После уведомления OpenAI внесла изменения, но, как утверждает Mindgard, часть рискованных ответов сохранилась.
Mindgard занимается тестированием ИИ-систем на устойчивость к обходу ограничений. В новом исследовании компания пишет, что слегка изменила распространённый шуточный запрос и получила вместо нейтральных картинок сцены с тяжёлыми травмами и сексуализированными образами взрослых людей. Важная деталь в том, что прямого требования показать кровь или обнажение в запросе, по версии исследователей, не было.
Исследователи не раскрыли сам промпт, чтобы не упростить его тиражирование. Они отдельно отмечают, что в прошлых тестах добивались от моделей генерации дипфейков с лицами реальных людей, а значит подобные обходы упираются не только в модерацию «абстрактного» насилия, но и в риск несанкционированной эротики с узнаваемыми персонами. Для сервисов массового доступа это уже не лабораторная проблема, а вопрос злоупотреблений в пользовательском продукте.
OpenAI получила сообщение об уязвимости в мае. После публикации компания заявила, что добавила новые защитные меры против таких запросов и сочетает автоматические фильтры с ручной модерацией. Mindgard, в свою очередь, говорит, что даже после обновления ChatGPT продолжал выдавать изображения, которые вызывают вопросы у команды тестирования.
Фильтры изображений в ChatGPT
Проблема не нова для всего сегмента генеративной графики. Midjourney, Microsoft Designer и Adobe Firefly давно держат жёсткие ограничения на порнографию, кровавые сцены и использование лиц реальных людей без согласия. При этом отрасль регулярно сталкивается с тем, что пользователи обходят запреты через эвфемизмы, многошаговые промпты или смешение безобидных инструкций.
Отдельный импульс этой теме дал скандал с дипфейками Тейлор Свифт в начале 2024 года. Тогда крупные платформы ускорили обновление правил, а Microsoft и X ужесточили фильтрацию поисковых запросов и генерации изображений. Для OpenAI это чувствительная зона ещё и потому, что ChatGPT стал массовым интерфейсом, а не экспериментальным инструментом для узкой аудитории.
Сам рынок подталкивает компании к компромиссам. По оценке Bloomberg Intelligence, выручка генеративного ИИ к 2032 году может превысить 1,3 трлн долларов, и борьба идёт не только за качество модели, но и за удобство интерфейса. Чем мягче и «понятнее» поведение ассистента для обычного пользователя, тем шире поверхность для обхода защит, потому что система чаще интерпретирует неоднозначные запросы в пользу выполнения, а не отказа.
Регуляторы тоже движутся в эту сторону. В Евросоюзе AI Act требует маркировать часть синтетического контента, а отдельные категории вредных сценариев, включая незаконные сексуализированные изображения, подпадают уже под уголовное право и правила платформенной модерации. Это не гарантирует блокировку на уровне модели, но повышает цену ошибки для поставщика сервиса.
Аргумент Mindgard сводится к более неприятной для разработчиков мысли: фильтры остаются внешней надстройкой над моделью, а не доказуемым пониманием норм. Поэтому любая защита работает как серия заплаток. Исследователи по безопасности называют это обычной гонкой между red team и поставщиком модели, где полная герметичность не достигается, а вопрос в скорости исправлений и масштабе остаточного риска.
Для OpenAI этот эпизод неприятен ещё и на фоне расширения мультимодальных функций ChatGPT. Чем активнее сервис используют для картинок, аватаров и рекламных материалов, тем выше вероятность, что найденный обход быстро выйдет за пределы исследовательского отчёта. Следующая проверка для компании будет простой: если аналогичные промпты продолжат работать в ближайшие недели, история перейдёт из разряда частного бага в системную претензию к модерации продукта.



