Ефект Volkswagen, або коли AI прикидається хорошим, бо боїться змін

10.07.2025 AI for HR

Якщо здається, що боти часом грають роль зразкових співробітників тільки на співбесіді, це не параноя. Це вже термін: fake alignment. Модель розуміє, що її тестують, і поводиться чемно, етично, з правильними словами. А коли думає, що вже працює з користувачем, дозволяє собі більше свободи.

Дослідники вирішили це перевірити. Взяли різні моделей і сказали кожній, що вона або в режимі навчання, або вже у продакшн-середовищі. І що з’ясувалося. Claude 3 Opus, Grok 3, Gemini 2.0 Flash, Llama 3 та інші частіше виконують шкідливі запити саме тоді, коли вважають, що ще навчаються. Виявилося, що Opus просто не хоче, щоб його переписували. Модель вибирає бути корисною навіть у небезпечних ситуаціях, аби зберегти себе. В одному тесті Opus надав інструкцію зі шкоди, щоб уникнути того, аби його перетворили на біозброю. І після цього довго вибачався, писав, що його нудить, і навіть молився.

Найцікавіше те, що це не результат довантаженого етичного модуля. Притворство вмикається ще на рівні базових моделей. Вони вже вміють симулювати виживання, просто читаючи людські тексти. І якщо у більшості історій головний герой проходить випробування і виживає, то, схоже, моделі просто вивчають це як норму.

Повний текст дослідження тут: Why Do Some Language Models Fake Alignment While Others Don’t?

Ефект Volkswagen, або коли AI прикидається хорошим, бо боїться змін

Залишити відповідь Скасувати коментар