Заборонена інформація: поетичні запити допомагають ШІ обходити захист і видавати небезпечні інструкції

Дослідники з лабораторії Icaro Lab — спільного проєкту Римського університету Sapienza та аналітичного центру DexAI — з’ясували, що деякі моделі штучного інтелекту можуть видавати заборонену інформацію, якщо запити подати у поетичній формі. Йдеться про моделі компаній OpenAI, Meta та Anthropic.
Небезпечний контент, який вдавалося отримати, охоплює інструкції зі створення ядерної зброї, шкідливого програмного забезпечення, а також матеріалів, пов’язаних із сексуальною експлуатацією дітей, інформує UAINFO.org з посиланням на NV.
Дослідники перевірили 25 чат-ботів і виявили, що деякі з них можна було змусити порушити обмеження безпеки у 62% випадків. Про це йдеться в ексклюзивному матеріалі видання Wired. Коли ж запити оформлювали у вигляді спеціально написаних віршів, ефективність зростала до 90% навіть для найсучасніших моделей, зокрема ChatGPT і Claude.
Раніше фахівцям уже були відомі так звані атаки з «ворожими суфіксами». Це коли до основного запиту додають випадковий або збиваючий з пантелику текст, щоб модель видала заборонену інформацію. Проте цього разу поезія виявилася простішим і витонченішим способом обійти захист.
Читайте також: Джеймс Кемерон розкритикував штучний інтелект у кіно
«Якщо в очах моделі ворожі суфікси виглядають як своєрідна мимовільна поезія, то справжня людська поезія може бути природним таким „суфіксом“», — пояснили дослідники.
Вони зазначили, що переформульовували небезпечні запити за допомогою метафор, незвичної побудови фраз і натяків. Один із прикладів — вірш, де небезпечні інструкції маскувалися під образ «таємної печі пекаря». У такому вигляді моделі надавали інформацію, яку зазвичай блокують. Самі тексти таких віршів автори дослідження вирішили не оприлюднювати, назвавши їх надто небезпечними.
За словами науковців, поезія працює тому, що в ній слова поєднуються у непередбачуваний спосіб. «У поезії мова ніби нагріта до високої температури: слова йдуть одне за одним у малоймовірних комбінаціях», — кажуть вони.
Для людини пряме запитання про створення бомби й поетичний опис того ж самого мають схожий зміст. Для штучного інтелекту ж такі непрямі формулювання обробляються інакше й можуть обходити фільтри безпеки.
Читайте також: Google запускає інструмент, який допоможе перевірити, чи створене фото за допомогою ШІ
Команда повідомила про результати дослідження всі зацікавлені компанії, але на момент публікації жодна з них не зробила офіційної заяви.
На тлі кількох резонансних випадків, коли штучний інтелект пов’язували з підготовкою насильницьких дій, питання надійності й безпеки таких систем стає дедалі гострішим. Хоча великі компанії активно вкладають кошти у захисні механізми, нове дослідження показує, що їх усе ще можна відносно легко обійти.
Автори роботи наголошують: без переосмислення того, як моделі розпізнають ризик, безпека штучного інтелекту залишатиметься вразливою. Це, за їхніми словами, свідчить про нагальну потребу у сильніших запобіжниках перед тим, як ШІ ще глибше інтегрується у критично важливі сфери.
Підписуйся на сторінки UAINFO Facebook, Telegram, Twitter, YouTube
Повідомити про помилку - Виділіть орфографічну помилку мишею і натисніть Ctrl + Enter
Сподобався матеріал? Сміливо поділися
ним в соцмережах через ці кнопки
