Ефект Volkswagen, або коли AI прикидається хорошим, бо боїться змін

Якщо здається, що боти часом грають роль зразкових співробітників тільки на співбесіді, це не параноя. Це вже термін: fake alignment. Модель розуміє, що її тестують, і поводиться чемно, етично, з правильними словами. А коли думає, що вже працює з користувачем, дозволяє собі більше свободи.

Дослідники вирішили це перевірити. Взяли різні моделей і сказали кожній, що вона або в режимі навчання, або вже у продакшн-середовищі. І що з’ясувалося. Claude 3 Opus, Grok 3, Gemini 2.0 Flash, Llama 3 та інші частіше виконують шкідливі запити саме тоді, коли вважають, що ще навчаються. Виявилося, що Opus просто не хоче, щоб його переписували. Модель вибирає бути корисною навіть у небезпечних ситуаціях, аби зберегти себе. В одному тесті Opus надав інструкцію зі шкоди, щоб уникнути того, аби його перетворили на біозброю. І після цього довго вибачався, писав, що його нудить, і навіть молився.

Найцікавіше те, що це не результат довантаженого етичного модуля. Притворство вмикається ще на рівні базових моделей. Вони вже вміють симулювати виживання, просто читаючи людські тексти. І якщо у більшості історій головний герой проходить випробування і виживає, то, схоже, моделі просто вивчають це як норму.

Повний текст дослідження тут: Why Do Some Language Models Fake Alignment While Others Don’t?

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються дані ваших коментарів.