AgentHijack: обычные уведомления начали «ломать» AI-агентов

Пока OpenAI, Google и Anthropic убеждают пользователей, что AI-агенты скоро смогут самостоятельно работать за компьютером вместо человека, учёные обнаружили неожиданную проблему: современные системы слишком плохо справляются с обычным цифровым шумом. Оказалось, что всплывающие окна, случайные клики мышью или даже изменение разрешения экрана могут буквально «сломать» поведение ИИ.

Исследование под названием AgentHijack опубликовала группа учёных из Hong Kong Baptist University, University of Texas at Austin, University of Sydney и Shanghai AI Laboratory. Авторы решили проверить, как AI-агенты ведут себя не в «стерильных» условиях тестов, а в реальной среде - с уведомлениями, ошибками интернета и случайными сбоями.

Что именно ломает AI-агентов

Исследователи создали девять типов типичных помех, с которыми сталкивается любой пользователь компьютера:

всплывающие окна;

проблемы с сетью;

случайные нажатия;

субтитры поверх экрана;

сворачивание приложений;

уведомления;

изменение разрешения дисплея.

Именно здесь начались проблемы.

Авторы выяснили, что даже топовые модели начинают путаться, нажимать не туда и бесконечно повторять бессмысленные действия. Некоторые агенты теряли более половины эффективности всего из-за пары «лишних» элементов на экране.

AI начинает «зависать» как неопытный пользователь

Самое любопытное - поведение агентов оказалось очень похоже на растерянного человека.

Например, после случайного открытия меню ИИ мог полностью забыть исходную задачу и продолжать нажимать на ненужные кнопки. В других случаях агент не понимал, что интернет отключён, и снова пытался открыть недоступный сайт.

В исследовании приводятся реальные примеры:

AI не может закрыть всплывающее окно;

ошибочно нажимает на уведомление;

путается между несколькими открытыми приложениями;

теряет нужное окно после случайного сворачивания.

По сути, системы плохо адаптируются к непредсказуемой среде - хотя именно в таких условиях люди работают каждый день.

Под удар попали GPT-4o, Gemini и Claude

Учёные протестировали сразу несколько популярных моделей и AI-агентов, включая GPT-4o, Gemini, Claude и Qwen. Почти все они показали заметное падение качества работы в «испорченной» среде.

Особенно сильно агенты проваливались при сетевых ошибках и всплывающих окнах. В некоторых сценариях производительность снижалась более чем на 50%.

Почему это важно именно сейчас

Тема AI-агентов стала одной из главных в индустрии после того, как OpenAI, Google и Anthropic начали показывать системы, способные самостоятельно пользоваться компьютером вместо человека.

Проще говоря, AI-агент - это не обычный чат-бот. Такой ИИ умеет сам открывать сайты, нажимать кнопки, искать информацию, заполнять формы и работать в программах почти как живой пользователь.

Компании обещают цифровых помощников, которые смогут:

бронировать билеты;

заполнять документы;

искать информацию;

управлять компьютером без участия человека.

После экспериментов исследователи создали специальный бенчмарк AgentHijack - систему проверки, которая тестирует, как AI-агенты справляются с хаотичной средой обычного компьютера. Авторы считают, что нынешние агенты слишком легко отвлекаются, плохо замечают ошибки и теряют исходную задачу после случайных сбоев. Чтобы решить проблему, они предлагают добавить для ИИ отдельную систему «наблюдения» за окружением - своего рода цифровой контроль внимания.

aramil.life
СМИ России
26-05-2026, 19:11