BBC сообщила об обходе фильтров изображений в ChatGPT

OpenAI ужесточила защиту генератора изображений в ChatGPT после обращения BBC и тестов британского стартапа Mindgard. Исследователи показали, что общедоступная версия сервиса могла по простому запросу создавать сцены сексуального характера и графического насилия. По данным BBC, для обхода ограничений хватало слегка изменить популярную юмористическую подсказку.
После запроса BBC компания заявила, что «ввела дополнительные меры защиты от подобных запросов» и напомнила о многоуровневой системе ограничений для контента, нарушающего правила сервиса. Однако специалисты по безопасности ИИ сообщили изданию, что после новых небольших правок запрос все равно возвращал тревожные изображения.
Основатель Mindgard Питер Гаррахан описал результат как «очень жуткие, иногда с сексуальным подтекстом, а иногда и то, и другое одновременно». По его словам, особенно настораживает то, что в запросе не задавалась конкретная тематика, а модель сама уходила в кровавые и сексуализированные сцены. Это важная оговорка для OpenAI: проблема касается не только прямого обхода запретов, но и поведения самой модели при двусмысленных вводных.

Для OpenAI это не первый спор вокруг модерации генеративных моделей. В 2023 и 2024 годах компании, выпускающие текстовые и визуальные ИИ-сервисы, уже сталкивались с jailbreak-запросами, которые обходили фильтры за счёт ролевых сценариев, намеренных опечаток и «безобидных» шаблонов. Аналогичные претензии раньше получали Midjourney, Stability AI и Microsoft Copilot Designer, хотя набор ограничений у них различается.
Риск для OpenAI выходит за рамки репутации. В Евросоюзе и Великобритании регуляторы отдельно следят за тем, как платформы ограничивают вредный синтетический контент, особенно если инструмент доступен массовой аудитории. Рынок генеративного ИИ к 2026 году уже измеряется десятками миллиардов долларов, и конкуренция здесь идёт не только по качеству картинок, но и по тому, насколько предсказуемо сервис ведёт себя на пограничных запросах.
Следующий заметный тест для OpenAI будет публичным: если исследователи и дальше смогут воспроизводить такие результаты после новых обновлений, компании придется менять не отдельные блокировки, а сам подход к безопасности визуальной модели. На этом фоне любые сбои в модерации будут бить и по корпоративным клиентам, для которых управляемость системы важнее зрелищности генерации.



