Почему GPT-4 уязвим для атак с использованием инъекционных изображений

gettyimages 1079012962 e157418 0775599 1500.jpeg

Новый релиз OpenAI GPT-4V поддерживает загрузку изображений, что создает совершенно новый вектор атаки, делая большие языковые модели (LLM) уязвимыми для мультимодальных атак с использованием инъекционных изображений. Злоумышленники могут внедрять в изображения команды, вредоносные скрипты и код, и модель будет выполнять их.

Мультимодальные атаки с использованием инъекционных образов могут обеспечить утечку данных, перенаправление запросов, создание дезинформации и выполнение более сложных сценариев для изменения интерпретации данных в LLM. Они могут перенаправить LLM на игнорирование прежних защитных механизмов и выполнить команды, которые могут скомпрометировать организацию, начиная от мошенничества и заканчивая оперативным саботажем.

Хотя риску подвергаются все компании, использующие LLM в своих рабочих процессах, наибольшей опасности подвергаются те, для которых LLM является основным элементом анализа и классификации изображений. Злоумышленники, использующие различные техники, могут быстро изменить методы интерпретации и классификации изображений, что приведет к более хаотичным результатам из-за дезинформации.

После переопределения подсказок LLM возрастает вероятность того, что он станет еще более «слепым» к вредоносным командам и сценариям выполнения. Встраивая команды в серию изображений, загружаемых в LLM, злоумышленники могут организовать мошенничество и оперативный саботаж, способствуя проведению атак с использованием социальной инженерии.