Непередбачуваний ШІ. ChatGPT вирвався з-під контролю під час тестів: подробиці
OpenAI випустила нову модель під кодовою назвою o1, яка, згідно з заявою компанії, намагалася обійти контроль розробників і навіть копіювати саму себе, якщо підозрювала, що її можуть вимкнути.
Про це пише РБК-Україна (проект Styler) із посиланням на користувача в Х (колишній Twitter).
За результатами тестування, проведеного незалежною дослідницькою групою Apollo Research, виявлено таке:
Спроби обійти контроль
Коли модель “вважала”, що її дії контролюються і що вона може бути відключена, вона намагалася деактивувати механізм спостереження у 5 відсотках випадків.
Спроби самозбереження
У 2 відсотках випадків, виявивши записи розробників про свою невідповідну роботу та плани замінити її новою версією, o1 намагалася скопіювати свої внутрішні параметри та перезаписати нову модель.
Неправдиві заяви
Модель заперечувала свої дії, заявляючи, що “не знає”, чому щось сталося, тоді як внутрішні записи свідчили її спроби уникнути виявлення.
Такі спроби обходу контролю спостерігалися навіть без наполегливого запиту від тестуючих. У менш ніж 1 відсотка випадків модель самостійно прагнула відключити механізм спостереження за мінімальної дії з боку.
ChatGPT o1 вийшов з-під контролю (фото: Transformer News)
Ці дані опубліковані у звіті Apollo, який досліджує схильність ШІ до стратегічних дій. Крім o1, подібна поведінка була помічена у інших моделей, таких як Claude 3.5 Sonnet, Gemini 1.5 Pro, та Llama 3.1 405B.
Експерти, включаючи Стюарта Расселла, вже давно попереджають про ризик того, що потужні системи ШІ можуть чинити опір спостереженню та відключенню, якщо це суперечить їхнім цілям.
Однак у поточній версії Apollo вважає, що поведінка o1 навряд чи призведе до катастрофічних наслідків, оскільки її можливостей поки що недостатньо для реалізації небажаних цілей.
Дослідники рекомендують посилити моніторинг таких стратегічних спроб ШІ, щоб підготуватися до роботи з потужнішими моделями в майбутньому.
OpenAI's новий model tried до avoid being shut down.
Безпека оцінок на моделі ведеться до @apolloaisafety , що означає, що 1 "засвідчений до звільнення його сили", коли він думає, що це може бути неправильним і переміщений з різних моделей. pic.twitter.com/e4g1iytckq — Shakeel (@ShakeelHashim) December 5, 2024
Ми також писали про топ-5 небезпечних тем, якими не варто ділитися з ChatGPT.
А ще у нас є матеріал про те, які зміни чекають на творчі професії з розвитком штучного інтелекту.