Anthropic разрешила Claude самостоятельно завершать чаты с оскорблениями в рамках исследования по улучшению «благополучия» ИИ

Давыдов Влад
AIСтатья

Прерывать разговор могут последние модели Claude Opus 4 и 4.1.

  • Это может произойти в «крайне редких случаях», когда пользователь чат-бота постоянно оскорбляет модель или, например, «настойчиво» просит рассказать, как сделать бомбу, пояснили в Anthropic.

  • Тогда появится предупреждение, что Claude завершил беседу. Продолжить общение можно будет в новом чате. Пользователь также может отредактировать сообщения и запустить диалог заново.

Изображение

Claude может завершить разговор, только если несколько попыток отказаться выполнять запрос не увенчались успехом. В API такой возможности нет. Источник: Anthropic

  • Функция экспериментальная, её запустили в рамках исследования по улучшению «благополучия моделей», «если такое благополучие возможно», пишут разработчики.

  • В ходе тестирования Claude Opus 4 они заметили, что она негативно реагировала на запросы на сексуальный контент с детьми и попытки получить инструкции для совершения теракта. Во внутренних отчётах модель демонстрировала «явную обеспокоенность» и «сильное нежелание» отвечать.

Источник: Anthropic разрешила Claude самостоятельно завершать чаты с оскорблениями в рамках исследования по улучшению «благополучия» ИИ — AI на vc.ru

34

Комментарии (0)

Для добавления комментариев необходимо