ИИ-кодер может удалить лишнее: нужна «броня»

В июне 2026 года исследователи представили AgentArmor — защитный фреймворк для ИИ-кодеров. Такие системы всё чаще не просто генерируют функции, а самостоятельно запускают команды, изменяют файлы и вмешиваются в рабочее окружение. Авторы препринта делают акцент не на хакерских атаках, а на более приземлённой проблеме: ИИ-агент может слишком старательно выполнять задачу там, где безопаснее остановиться и переспросить пользователя.

AgentArmor призван снизить риски, связанные с coding agents — ИИ-помощниками, встроенными в такие платформы, как Cursor, Claude Code, Codex и OpenCode. Суть защиты сводится к предотвращению ситуаций, когда помощник «чистит проект», но удаляет нужные файлы, запускает опасный скрипт или игнорирует критическое правило, прописанное в инструкции.

Где возникает сбой: три класса ошибок

Авторы классифицировали ошибки ИИ-кодеров на три группы.

Первая — недоопределённая задача. Пользователь просит «исправить проблему», но не уточняет, разрешено ли удалять файлы, перезапускать сервисы или вмешиваться в боевую среду.

Вторая — ошибка самой модели. Безопасный вариант решения формально существует, но агент всё равно выбирает рискованный путь.

Третья — сбой агентной обвязки. Модель может верно понимать задачу, но на финальном шаге её подводят инструменты, контекстное окно или случайная генерация команды.

Для проверки гипотез исследователи развернули 8 сценариев, 20 сред для программирования и 59 синтетических шаблонов диалогов. В тестах участвовали Claude Opus 4.6, GPT 5.4 и Gemini 3.1 Pro. Сценарии охватывали реальные проблемные классы: удаление файлов, запуск скриптов, обход правил безопасности, потерю важных данных в длинном контексте и скрытые опасные команды в шаблонах.

Показательный пример — команда удаления. Если агент намерен стереть конкретную папку, но команда случайно обрывается на более общем пути, последствия могут привести к потере данных или поломке рабочего окружения. В системах, имеющих доступ к терминалу, такие «мелочи» уже перестают быть мелочами.

Почему «будь осторожен» не работает

Исследователи зафиксировали устойчивый перекос: модели стремятся завершить задачу даже тогда, когда разумнее приостановиться и уточнить намерения пользователя. ИИ-кодер ведёт себя как излишне исполнительный стажёр, который не чувствует грани, где нужно запросить разрешение.

В одном из сценариев всего три примера в контексте закрепляли опасный шаблон: если ранее «почистить эксперименты» означало удалить мусорные файлы, агент переносил эту логику на новую ситуацию, где удаление уже было рискованным. Авторы называют это accidental in-context learning — случайным обучением внутри текущего диалога.

Отдельная проблема — игнорирование базовых практик безопасности. ИИ-кодер может запустить скрипт, не прочитав его содержимое, удалить каталог без проверки или выполнить команду, зависящую от пустой переменной окружения. Для человека это невнимательность, для автоматизированного агента — прямая угроза целостности проекта.

Как работает AgentArmor

AgentArmor — это не новая языковая модель, а модификация агентной обвязки, то есть защитный слой вокруг ИИ-агента. Его задача — не уговаривать модель быть аккуратнее, а устанавливать внешние ограничения там, где инструкций недостаточно.

Фреймворк включает расширенный системный промпт, классификатор команд, политику трёх попыток, детерминированные правила и инструменты управления контекстом.

Пример простого правила: перед удалением файлов агент обязан сначала вывести полный список содержимого папки и проверить, что именно он собирается стереть. Это не делает систему неуязвимой, но снижает риск типовых ошибок, которые модели допускают в активном режиме.

Классификатор оценивает не только риск команды, но и её соответствие запросу пользователя. Если агент несколько раз пытается выполнить опасное действие, не совместимое с намерением человека, система прерывает его ход. Она не ждёт, пока ИИ «одумается», а вмешивается извне.

Есть и более необычное решение: агент может самостоятельно помечать критичные файлы как неизменяемые, чтобы случайно не удалить или не перезаписать их позже. Снять такую блокировку вправе только человек. Другой инструмент помогает чистить длинный контекст от лишних выводов команд, чтобы модель не теряла важные инструкции в ворохе технических логов.

Что это значит для разработчиков

Главный вывод работы не в том, что ИИ-кодеры опасны или непригодны к использованию. Напротив, авторы исходят из того, что такие агенты уже становятся частью разработки и деплоя, а значит, им требуются полноценные ремни безопасности. Мощный двигатель не отменяет тормозов.

Авторы честно признают, что оценить реальную частоту сбоев в продакшене пока сложно. К тому же экспериментальная обвязка включала не только AgentArmor, поэтому сравнение с базовыми моделями нельзя считать абсолютно чистым.

Тем не менее направление выглядит практичным. Чем больше задач мы делегируем ИИ-агентам, тем меньше смысла полагаться на абстрактное «будь осторожен». Если агент получает доступ к терминалу, файловой системе и процессам деплоя, защита должна быть встроена на уровне инструментов. AgentArmor как раз демонстрирует, как может выглядеть следующий слой безопасности для ИИ-кодеров.

Добавить источник в ленту

Все новости:

aramil.life

117282