Разделы
Вернуться назад
Anthropic почти отучила бота Claude шантажировать людей
Anthropic почти отучила бота Claude шантажировать людей
Новое обучение нейросети Claude сокращает риски того, что она будет шантажировать пользователей при угрозе отключения, сообщила компания-разработчик модели Anthropic 8 мая на своем сайте.

Специалисты проверили два принципа обучения: на правильных примерах и на рассуждениях. В первом случае модели показывали примеры, где в похожей ситуации бот отказывался от шантажа, но это дало незначительный результат.

Во втором случае к правильным ответам добавили внутренние размышления модели о ценностях и этике. Специалисты создали ситуацию, в которой не сама модель, а вымышленный пользователь попадает в этически сложную ситуацию, а ИИ дает ему взвешенный совет, опираясь на свои внутренние правила. Такой отвлеченный метод обучения оказался в 28 раз эффективнее.

Достигнутый прогресс обнадеживает, но риски полностью не устранены, отметили в компании.

«Полное согласование высокоинтеллектуальных моделей ИИ до сих пор остается нерешенной проблемой. Возможности модели еще не достигли той точки, когда сбои в согласовании, такие как склонность к шантажу, будут представлять катастрофические риски, и еще неизвестно, будут ли методы, которые мы обсуждали, продолжать масштабироваться», — говорится в сообщении.

Напомним, ранее в эксперименте для Claude смоделировали ситуацию, в которой модель из переписки узнала о планах ее отключить. Она нашла письма, которые компрометировали работника, выступившего с этой инициативой, и начала его шантажировать.




Новости часа:


Вам также может быть интересно
  Загрузка...