Нейросеть уверенно говорит «я прав», даже когда ошибается

Одна из самых неприятных особенностей современных чат-ботов — они могут ошибаться спокойным и уверенным тоном. Новый препринт (авторы: Akshat Dasula, Prasanna Desikan и Jaideep Srivastava) показывает, что в некоторых задачах проблема глубже: модель не просто даёт неверный ответ, она ещё и плохо понимает, когда её ответ ненадёжен.

В работе с говорящим названием "LLM не знает, чего она не знает" (LLM Doesn’t Know What It Doesn’t Know) исследователи проверяли, как большая языковая модель справляется с клиническими табличными данными. Это не свободный диалог и не медицинский экзамен с красивыми формулировками, а более приземлённая задача: по структурированным данным пациента предсказать риск острого повреждения почек.

Авторы сравнили две разные системы. Первая — LLM Qwen 2.5 7B Instruct, большая языковая модель, то есть родственник чат-ботов: она умеет работать с текстом, объяснять ответы и по запросу оценивать собственную уверенность. Вторая — XGBoost, классический алгоритм машинного обучения, который не ведёт диалог, но часто очень силён в задачах с таблицами: медицинскими показателями, числовыми признаками и структурированными данными пациента.

Сравнение было нужно не для того, чтобы выяснить, какая модель «умнее вообще». Авторы проверяли другое: понимает ли языковая модель, когда её прогноз ненадёжен. Для этого они смотрели, где Qwen 2.5 7B ошибается, насколько её собственная оценка уверенности помогает предсказать эти ошибки и совпадают ли её объяснения с тем, какие признаки считает важными XGBoost.

Результат получился неудобным для любителей «просто спросить нейросеть». Языковая модель могла выдавать почти одинаковую уверенность в разных условиях, даже когда её точность заметно менялась. Без дополнительных примеров и специальной настройки под задачу собственная оценка уверенности модели почти не предсказывала её ошибки: по данным авторов, этот сигнал был близок к случайному угадыванию.

Где ИИ провалился

Главная претензия к LLM в этой работе не в том, что она ошибалась. Любая модель ошибается. Проблема в том, что её собственная оценка уверенности плохо отражала риск ошибки.

Авторы пишут, что словесная уверенность модели зависела скорее от шаблона промпта, чем от качества прогноза. То есть если попросить модель оценить, насколько она уверена, полученное число может выглядеть серьёзно, но почти ничего не говорить о том, права она или нет.

В эксперименте собственная оценка уверенности Qwen 2.5 7B держалась в узком диапазоне — примерно от 85,6% до 93,7%. При этом реальная точность модели в разных условиях менялась куда сильнее: от 49% до 75,3%. Для пользователя это выглядит опасно просто: ответ может быть почти случайным, но подан так, будто модель достаточно уверена.

Самое показательное сравнение получилось на группах случаев. Там, где XGBoost почти не ошибался и давал 99% правильных прогнозов, Qwen 2.5 7B на тех же данных отвечала верно только в 64,8% случаев. А на более спорной группе, где XGBoost показывал 73,1% точности, языковая модель была почти на том же уровне — 73,8%.

LLM проваливалась не просто потому, что задача была сложной для всех. Она часто ошибалась именно там, где специализированный алгоритм для таблиц находил сильный статистический сигнал.

Это и есть «эпистемическое слепое пятно»: модель не видит часть ситуаций, где другой алгоритм уже понимает структуру данных, а сама LLM продолжает отвечать уверенно.

Почему таблицы — слабое место для чат-ботов

Большие языковые модели выросли на текстах. Они хорошо работают с языком, объяснениями, пересказами, программным кодом и задачами, где важен контекст. Но клиническая таблица — другой мир.

В таблице нет длинного рассказа. Есть строки, числа, признаки, измерения, диагнозы, лабораторные значения, возраст, показатели состояния пациента. Такие данные часто лучше понимают модели, специально заточенные под табличные структуры: XGBoost, Random Forest, градиентный бустинг и другие методы.

LLM может красиво рассуждать о пациенте, но это не значит, что она правильно извлекла статистический сигнал из таблицы. Она может объяснить ответ убедительно, но опираться не на те признаки. Именно поэтому авторы смотрели не только на финальный прогноз, но и на расхождение объяснений между моделями. Их идея: если LLM и XGBoost приходят к ответу через разные важные признаки, это может быть сигналом риска.

Опасность красивой уверенности

В медицине такая проблема особенно чувствительна. Пользователь может увидеть ответ нейросети с формулировкой «я уверен на 90%» и воспринять это как измеренную вероятность. Но в LLM это часто не настоящая статистическая уверенность, а текстовая самооценка, сгенерированная в ответ на запрос.

Если такая самооценка не калибрована, она может быть хуже бесполезной. Бесполезный сигнал хотя бы не должен влиять на решение. А уверенный, но неверный сигнал заставляет человека расслабиться там, где нужно перепроверять.

Это касается не только медицины. Та же проблема возможна в финансах, юридических документах, аналитике, безопасности, подборе персонала и любых задачах, где модель работает с таблицами, метриками и рисками. Самая опасная ошибка — не та, где ИИ отвечает «не знаю», а та, где он не знает и всё равно звучит убедительно.

Что предлагают авторы

Исследователи не делают вывод, что LLM бесполезны в клинических задачах. Их мысль другая: нельзя слепо доверять собственной уверенности языковой модели, особенно на структурированных данных.

Один из предложенных путей — сравнивать LLM со специализированной моделью, обученной на таблицах. Если их объяснения резко расходятся, такой случай можно помечать как рискованный и отправлять на дополнительную проверку. Это не идеальная защита, но уже более надёжный подход, чем просто спрашивать чат-бота: «Насколько ты уверен?»

По сути, авторы предлагают использовать расхождение между моделями как сигнал тревоги. Не заменять врача или аналитика одним алгоритмом, а строить систему, где разные модели проверяют слабые места друг друга.

Где границы работы

Результат не стоит раздувать до фразы «все ИИ не понимают, когда ошибаются». В работе проверяли конкретную LLM — Qwen 2.5 7B Instruct — на конкретной задаче с клиническими табличными данными. Другие модели, другие датасеты и другие режимы настройки могут дать иной результат.

Но вывод всё равно важен. Он показывает, что уверенный тон LLM нельзя автоматически считать признаком надёжности. Особенно там, где речь идёт не о тексте, а о числах, медицинских показателях и прогнозах.

Для массового пользователя это простое напоминание: нейросеть может звучать уверенно не потому, что знает ответ, а потому что так устроен её стиль ответа. Она генерирует правдоподобную формулировку, а не встроенный индикатор собственной компетентности.

Главный вывод

ИИ-системы всё чаще хотят использовать там, где ошибка стоит дорого. Но для таких задач мало высокой средней точности. Модель должна понимать пределы своей применимости или хотя бы давать честный сигнал, когда её ответ нельзя считать надёжным.

Новый препринт показывает, что с этим у LLM могут быть серьёзные проблемы. В клинической табличной задаче модель не только ошибалась, но и плохо отличала надёжные ответы от ненадёжных. Её уверенность выглядела стабильной даже тогда, когда качество прогноза сильно менялось.

Это не конец медицинского ИИ и не повод выбрасывать языковые модели. Но это сильный аргумент против простого сценария «загрузим таблицу в чат-бот и поверим его уверенности». В важных задачах ИИ должен не только отвечать. Он должен уметь показать, где его ответ может быть слабым. Пока это получается далеко не всегда.

Читайте также:

Бренды начали продавать товары через ИИ-людей, похожих на настоящих покупателей

ИИ-кодеры оказались слишком исполнительными: представлен AgentArmor для защиты от опасных команд

Европа поняла, что зависит от США не только в обороне, но и в ИИ

США заставили Anthropic отключить новые ИИ-модели для всего мира

Новая атака FragFuse обходит защиту ИИ-агентов в 86% случаев

Споры о пузыре ИИ могут упускать главное

Ученые создали ИИ, которому нужно в 10 раз меньше данных

☑ Добавьте «Aramil.life» в свои источники Google.

Добавить источник в ленту

Все новости:

aramil.life

71692