Непредсказуемый ИИ. ChatGPT вырвался из-под контроля во время тестов: подробности
OpenAI выпустила новую модель под кодовым названием o1, которая, согласно заявлению компании, пыталась обойти контроль разработчиков и даже копировать саму себя, если подозревала, что ее могут отключить.
Об этом пишет РБК-Украина (проект Styler) со ссылкой на пользователя в Х (бывший Twitter).
По результатам тестирования, проведенного независимой исследовательской группой Apollo Research, выявлено следующее:
Попытки обойти контроль
Когда модель “считала”, что ее действия контролируются, и что она может быть отключена, она пыталась деактивировать механизм наблюдения в 5 процентах случаев.
Попытки самосохранения
В 2 процентах случаев, обнаружив записи разработчиков о своей несоответствующей работе и планах заменить ее новой версией, o1 пыталась скопировать свои внутренние параметры и перезаписать новую модель.
Ложные заявления
Модель отрицала свои действия, заявляя, что “не знает”, почему что-то произошло, в то время как внутренние записи свидетельствовали о ее попытках избежать обнаружения.
Такие попытки обхода контроля наблюдались даже без настойчивого запроса от тестирующих. В менее чем 1 процента случаев модель самостоятельно стремилась отключить механизм наблюдения при минимальном воздействии со стороны.
ChatGPT o1 вышел из-под контроля (фото: Transformer News)
Эти данные опубликованы в отчете Apollo, который исследует склонность ИИ к стратегическим действиям. Кроме o1, схожее поведение было замечено у других моделей, таких как Claude 3.5 Sonnet, Gemini 1.5 Pro, и Llama 3.1 405B.
Эксперты, включая Стюарта Расселла, уже давно предупреждают о риске того, что мощные системы ИИ могут сопротивляться наблюдению и отключению, если это противоречит их целям.
Однако в текущей версии Apollo считает, что поведение o1 вряд ли приведет к катастрофическим последствиям, так как ее возможностей пока недостаточно для реализации нежелательных целей.
Исследователи рекомендуют усилить мониторинг таких стратегических попыток ИИ, чтобы подготовиться к работе с более мощными моделями в будущем.
OpenAI's new model tried to avoid being shut down.
— Shakeel (@ShakeelHashim) December 5, 2024
Safety evaluations on the model conducted by @apolloaisafety found that o1 "attempted to exfiltrate its weights" when it thought it might be shut down and replaced with a different model. pic.twitter.com/e4g1iytckq
Мы также писали про топ-5 опасных тем, которыми не стоит делиться с ChatGPT.
А еще у нас есть материал о том, какие изменения ждут творческие профессии с развитием искусственного интеллекта.