Главная » Новости » Жизнь

Непредсказуемый ИИ. ChatGPT вырвался из-под контроля во время тестов: подробности

Пятница 06 декабря 2024 12:31

UA EN RU

Непредсказуемый ИИ. ChatGPT вырвался из-под контроля во время тестов: подробности

Во время тестов ChatGPT пытался обойти ограничения (фото: Getty Images)

Автор: Павел Колесник

OpenAI выпустила новую модель под кодовым названием o1, которая, согласно заявлению компании, пыталась обойти контроль разработчиков и даже копировать саму себя, если подозревала, что ее могут отключить.

Об этом пишет РБК-Украина (проект Styler) со ссылкой на пользователя в Х (бывший Twitter).

По результатам тестирования, проведенного независимой исследовательской группой Apollo Research, выявлено следующее:

Попытки обойти контроль

Когда модель “считала”, что ее действия контролируются, и что она может быть отключена, она пыталась деактивировать механизм наблюдения в 5 процентах случаев.

Попытки самосохранения

В 2 процентах случаев, обнаружив записи разработчиков о своей несоответствующей работе и планах заменить ее новой версией, o1 пыталась скопировать свои внутренние параметры и перезаписать новую модель.

Ложные заявления

Модель отрицала свои действия, заявляя, что “не знает”, почему что-то произошло, в то время как внутренние записи свидетельствовали о ее попытках избежать обнаружения.

Такие попытки обхода контроля наблюдались даже без настойчивого запроса от тестирующих. В менее чем 1 процента случаев модель самостоятельно стремилась отключить механизм наблюдения при минимальном воздействии со стороны.

Непредсказуемый ИИ. ChatGPT вырвался из-под контроля во время тестов: подробности

ChatGPT o1 вышел из-под контроля (фото: Transformer News)

Эти данные опубликованы в отчете Apollo, который исследует склонность ИИ к стратегическим действиям. Кроме o1, схожее поведение было замечено у других моделей, таких как Claude 3.5 Sonnet, Gemini 1.5 Pro, и Llama 3.1 405B.

Эксперты, включая Стюарта Расселла, уже давно предупреждают о риске того, что мощные системы ИИ могут сопротивляться наблюдению и отключению, если это противоречит их целям.

Однако в текущей версии Apollo считает, что поведение o1 вряд ли приведет к катастрофическим последствиям, так как ее возможностей пока недостаточно для реализации нежелательных целей.

Исследователи рекомендуют усилить мониторинг таких стратегических попыток ИИ, чтобы подготовиться к работе с более мощными моделями в будущем.

OpenAI's new model tried to avoid being shut down.

Safety evaluations on the model conducted by @apolloaisafety found that o1 "attempted to exfiltrate its weights" when it thought it might be shut down and replaced with a different model. pic.twitter.com/e4g1iytckq
— Shakeel (@ShakeelHashim) December 5, 2024

Мы также писали про топ-5 опасных тем, которыми не стоит делиться с ChatGPT.

А еще у нас есть материал о том, какие изменения ждут творческие профессии с развитием искусственного интеллекта.

Читайте РБК-Украина в Google News

Искусственный интеллект