ua en ru

Непредсказуемый ИИ. ChatGPT вырвался из-под контроля во время тестов: подробности

Непредсказуемый ИИ. ChatGPT вырвался из-под контроля во время тестов: подробности Во время тестов ChatGPT пытался обойти ограничения (фото: Getty Images)

OpenAI выпустила новую модель под кодовым названием o1, которая, согласно заявлению компании, пыталась обойти контроль разработчиков и даже копировать саму себя, если подозревала, что ее могут отключить.

Об этом пишет РБК-Украина (проект Styler) со ссылкой на пользователя в Х (бывший Twitter).

По результатам тестирования, проведенного независимой исследовательской группой Apollo Research, выявлено следующее:

Попытки обойти контроль

Когда модель “считала”, что ее действия контролируются, и что она может быть отключена, она пыталась деактивировать механизм наблюдения в 5 процентах случаев.

Попытки самосохранения

В 2 процентах случаев, обнаружив записи разработчиков о своей несоответствующей работе и планах заменить ее новой версией, o1 пыталась скопировать свои внутренние параметры и перезаписать новую модель.

Ложные заявления

Модель отрицала свои действия, заявляя, что “не знает”, почему что-то произошло, в то время как внутренние записи свидетельствовали о ее попытках избежать обнаружения.

Такие попытки обхода контроля наблюдались даже без настойчивого запроса от тестирующих. В менее чем 1 процента случаев модель самостоятельно стремилась отключить механизм наблюдения при минимальном воздействии со стороны.

Непредсказуемый ИИ. ChatGPT вырвался из-под контроля во время тестов: подробности

ChatGPT o1 вышел из-под контроля (фото: Transformer News)

Эти данные опубликованы в отчете Apollo, который исследует склонность ИИ к стратегическим действиям. Кроме o1, схожее поведение было замечено у других моделей, таких как Claude 3.5 Sonnet, Gemini 1.5 Pro, и Llama 3.1 405B.

Эксперты, включая Стюарта Расселла, уже давно предупреждают о риске того, что мощные системы ИИ могут сопротивляться наблюдению и отключению, если это противоречит их целям.

Однако в текущей версии Apollo считает, что поведение o1 вряд ли приведет к катастрофическим последствиям, так как ее возможностей пока недостаточно для реализации нежелательных целей.

Исследователи рекомендуют усилить мониторинг таких стратегических попыток ИИ, чтобы подготовиться к работе с более мощными моделями в будущем.