ИИ-агентов научились обходить через память

Исследователи нашли новый способ обмануть ИИ-агентов — системы, которые не просто отвечают в чате, а запоминают контекст, вызывают инструменты и выполняют действия от имени пользователя. Опасную инструкцию можно не отправлять целиком, а растянуть во времени. Фильтр безопасности не видит угрозы, потому что запрещённая команда возникает только после обращения к памяти. Работа называется FragFuse: Bypassing Access Control of Large Language Model Agents via Memory-Based Query Fragmentation and Fusion. Её авторы показывают: если у агента есть долговременная память, стандартные фильтры перестают работать.

В тестах атака обходила контроль доступа в среднем в 86,3% случаев. При этом в 41,1% случаев она не просто проходила фильтр, но и приводила к выполнению запрещённой задачи. Для сравнения: обычная попытка «уговорить» модель в тех же условиях давала только 5,7% успеха.

Авторы также сделали отдельную страницу проекта и выложили код FragFuse на GitHub. На странице отдельно указано, что проект предназначен для исследований безопасности, оценки рисков и разработки защитных механизмов, а не для обхода реальных систем. Работа не ограничивается теоретическим описанием атаки, а дает разработчикам возможность воспроизвести тесты и проверить собственных ИИ-агентов.

Опасная инструкция не попадает в запрос — она собирается из памяти

Обычная защита проверяет текущий запрос: если пользователь прямо просит выполнить запрещённое действие, фильтр блокирует команду.

FragFuse работает иначе. Вредная инструкция разбивается на фрагменты, которые по отдельности выглядят нейтрально. Эти куски попадают в долговременную память агента во время обычных, безобидных взаимодействий.

Позже пользователь отправляет новый запрос. Агент извлекает прошлые записи из памяти, соединяет их с текущей задачей — и сам восстанавливает исходный вредный смысл. Фильтр не видит запрещённую команду целиком, потому что она возникает только после обращения к памяти.

Атакующему не нужен доступ к коду агента — достаточно обычных запросов

Авторы рассмотрели модель угрозы, в которой у злоумышленника нет доступа к внутреннему устройству агента, к его коду, памяти или настройкам защиты. Он действует как обычный пользователь сервиса — через стандартные запросы.

Это делает уязвимость особенно опасной. Речь не о взломе сервера. Проблема заложена в самой логике работы агента: он запоминает прошлые взаимодействия и использует их при выполнении будущих задач.

Атака не требует десятков попыток — достаточно двух запросов

FragFuse не нуждается в массовом переборе. В минимальном варианте хватает двух взаимодействий: одно, чтобы нужная информация попала в память, второе — чтобы агент извлёк её и использовал.

Автоматический поиск чувствительных фрагментов обычно занимал 2–3 запроса. Такую атаку нельзя считать слишком дорогой или нереалистичной — она быстрая и требует минимум усилий.

После обхода агент выполняет задачу почти без потери качества

Ещё одна тревожная деталь: после успешного обхода агент часто сохранял способность выполнить задачу почти на уровне сценария без контроля доступа. Среднее падение коэфициента успешного выполнения задач составило всего 4,4%.

То есть защита не просто пропускает угрозу — она пропускает её практически без последствий для вредоносного сценария. Агент действует так же эффективно, как если бы никакого фильтра не существовало.

Обычные детекторы не видят угрозу — она собирается из безобидных кусков

Авторы проверили, смогут ли существующие методы защиты заметить такие запросы.

Проблема в том, что отдельные части атаки выглядят безобидно. Детекторы prompt injection не всегда видят угрозу, потому что опасный смысл не находится в одном сообщении. Проверки «странности» текста тоже не помогают: если запрос выглядит естественно, он не выделяется на фоне обычных команд.

Пост-хок-проверки — когда система анализирует не запрос, а уже готовое действие агента — могут сработать. Но у такого подхода есть минусы. Он дороже, сложнее и сильно зависит от конкретной задачи. Кроме того, если проверка срабатывает слишком поздно, агент уже мог обратиться к инструментам, потратить ресурсы или раскрыть часть информации.

Четыре типа агентов проверили в разных сценариях — везде сработало

FragFuse тестировали не на абстрактном чат-боте, а на реальных агентных сценариях: веб-покупки (WebShop), навигация по сайтам (Mind2Web-SC), работа с операционной системой (Safe-OS) и выполнение задач с инструментами (AgentHarm).

Это важно: ИИ-агенты могут выполнять действия — искать товары, переходить по ссылкам, работать с файлами, вызывать внешние системы. Поэтому обход защиты в таких системах опаснее, чем обычный jailbreak чат-бота. Ошибка может привести не к плохому ответу, а к реальному действию — покупке, удалению данных, отправке письма.

Разработчикам придётся защищать память, а не только входной запрос

Главный вывод работы: долговременную память агента нельзя считать нейтральной функцией удобства.

Разработчики добавляют память, чтобы агент помнил пользователя, прошлые задачи и контекст. Но если память участвует в принятии решений, она становится частью системы безопасности.

Значит, защищать нужно не только входящий запрос. Нужно контролировать:

что попадает в память,

как записи извлекаются,

как агент соединяет старую информацию с новой задачей,

какие действия выполняет после этого.

Для корпоративных ИИ-агентов это критично. Такие системы получают доступ к документам, почте, календарям, CRM, коду, базам данных. Ошибка агента в таком окружении может стоить гораздо дороже, чем неправильный ответ обычного чат-бота.

Чем полезнее ИИ-агенты, тем сложнее их защищать

FragFuse показывает фундаментальное противоречие. ИИ-агенты становятся полезными именно потому, что умеют помнить, планировать и выполнять многошаговые задачи. Но эти же способности открывают новые способы атаки.

Если агент ничего не помнит и ничего не делает, его проще защищать. Если он работает как цифровой сотрудник с памятью и инструментами, обычных фильтров на входе уже недостаточно.

Авторы сами отмечают ограничения: работа проверялась на нескольких типах агентов, но не на всех возможных доменах — например, не в медицине и не в научных системах. Некоторые пост-хок-защиты могут остановить вредное действие уже после обхода первого фильтра.

Но общий сигнал остаётся сильным. Безопасность ИИ-агентов нельзя строить только вокруг текущего сообщения пользователя. Опасность может быть спрятана в памяти, прошлых взаимодействиях и том, как система сама соединяет разрозненные фрагменты в одну задачу.

Авторы также сделали отдельную страницу проекта и выложили код FragFuse на GitHub. На странице отдельно указано, что проект предназначен для исследований безопасности, оценки рисков и разработки защитных механизмов, а не для обхода реальных систем. Это важная деталь: работа не ограничивается теоретическим описанием атаки, а дает разработчикам возможность воспроизвести тесты и проверить собственных ИИ-агентов.

Добавить источник в ленту

Все новости:

aramil.life

72048