Anthropic разрешила Claude самостоятельно завершать чаты с оскорблениями в рамках исследования по улучшению «благополучия» ИИ

Прерывать разговор могут последние модели Claude Opus 4 и 4.1.

Это может произойти в «крайне редких случаях», когда пользователь чат-бота постоянно оскорбляет модель или, например, «настойчиво» просит рассказать, как сделать бомбу, пояснили в Anthropic.
Тогда появится предупреждение, что Claude завершил беседу. Продолжить общение можно будет в новом чате. Пользователь также может отредактировать сообщения и запустить диалог заново.

Claude может завершить разговор, только если несколько попыток отказаться выполнять запрос не увенчались успехом. В API такой возможности нет. Источник: Anthropic

Функция экспериментальная, её запустили в рамках исследования по улучшению «благополучия моделей», «если такое благополучие возможно», пишут разработчики.
В ходе тестирования Claude Opus 4 они заметили, что она негативно реагировала на запросы на сексуальный контент с детьми и попытки получить инструкции для совершения теракта. Во внутренних отчётах модель демонстрировала «явную обеспокоенность» и «сильное нежелание» отвечать.

Источник: Anthropic разрешила Claude самостоятельно завершать чаты с оскорблениями в рамках исследования по улучшению «благополучия» ИИ — AI на vc.ru

Прерывать разговор могут последние модели Claude Opus 4 и 4.1.

Это может произойти в «крайне редких случаях», когда пользователь чат-бота постоянно оскорбляет модель или, например, «настойчиво» просит рассказать, как сделать бомбу, пояснили в Anthropic.
Тогда появится предупреждение, что Claude завершил беседу. Продолжить общение можно будет в новом чате. Пользователь также может отредактировать сообщения и запустить диалог заново.

Функция экспериментальная, её запустили в рамках исследования по улучшению «благополучия моделей», «если такое благополучие возможно», пишут разработчики.
В ходе тестирования Claude Opus 4 они заметили, что она негативно реагировала на запросы на сексуальный контент с детьми и попытки получить инструкции для совершения теракта. Во внутренних отчётах модель демонстрировала «явную обеспокоенность» и «сильное нежелание» отвечать.

Anthropic разрешила Claude самостоятельно завершать чаты с оскорблениями в рамках исследования по улучшению «благополучия» ИИ

Давыдов Влад

Комментарии (0)

Anthropic разрешила Claude самостоятельно завершать чаты с оскорблениями в рамках исследования по улучшению «благополучия» ИИ

Давыдов Влад

Комментарии (0)