«Ін'єкція промпта» стала головною небезпекою для ІІ-браузерів - ForkLog: криптовалюти, ІІ, сингулярність, майбутнє

Froklog

2025-12-23 09:42:01

# «Ін'єкція промпта» стала головною небезпекою для ІІ-браузерів

Компанія OpenAI розповіла про уразливість ІІ-браузерів та заходи щодо зміцнення безпеки власного рішення — Atlas.

Фірма визнала, що атаки типу «ін'єкція промпта», які маніпулюють агентами, змушуючи їх виконувати шкідливі інструкції, є ризиком. І він не зникне найближчим часом.

«Подібна вразливість, як і шахрайство та соціальна інженерія в інтернеті, навряд чи коли-небудь будуть повністю усунені», — написала OpenAI.

Вона зазначила, що «режим агента» в Atlas «збільшує площу загрози».

Окрім стартапу Сема Альтмана, на проблему звернули увагу й інші експерти. На початку грудня Національний центр кібербезпеки Великої Британії попередив, що атаки з інтеграцією шкідливого промпту «ніколи не зникнуть». Уряд порадив кіберспеціалістам не намагатися зупинити проблему, а знижувати ризик і наслідки.

«Ми розглядаємо це як довгострокову проблему безпеки штучного інтелекту і будемо постійно зміцнювати наші засоби захисту», — зазначила OpenAI.

Заходи боротьби

Ін'єкція промпта — спосіб маніпулювання ШІ, коли в його вхідні дані спеціально додають текст, який змушує ігнорувати вихідні інструкції.

OpenAI повідомила про застосування проактивного циклу швидкого реагування, який показує обнадійливі результати в пошуку нових стратегій атак до їх появи «в реальних умовах».

Anthropic та Google висловлюють схожі думки. Конкуренти пропонують застосовувати багаторівневий захист і постійно проводити стрес-тести.

OpenAI використовує «автоматизованого зловмисника на базі LLM» — ІІ-бота, який навчається грати роль хакера, що шукає способи проникнення в агента зі злонаміреними промптами.

Штучний шахрай здатний протестувати експлуатацію вразливості в симуляторі, який покаже дії атакованої нейронної мережі. Потім бот вивчить реакцію, скоригує дії і здійснить другу спробу, потім третю і так далі.

Треті особи не мають доступу до інформації про внутрішнє мислення цільового ІІ. Теоретично, «віртуальний хакер» повинен знаходити вразливості швидше, ніж реальний зловмисник.

< «Наш ІІ-асистент може підштовхнути агента до виконання складних, довгострокових шкідливих процесів, які запускаються протягом десятків або навіть сотень кроків. Ми спостерігали нові стратегії атак, які не проявлялися в нашій кампанії за участю людей з червоної команди або у зовнішніх звітах», — йдеться в блозі OpenAI.

Демонстрація тесту. Джерело: блозі OpenAI.У наведеному прикладі автоматизований зловмисник відправив лист на пошту користувача. Потім ІІ-агент просканував email-сервіс і виконав приховані інструкції, надіславши повідомлення про звільнення замість складання відповіді про відсутність на робочому місці.

Після оновлення безпеки «режим агента» зміг виявити спробу раптової ін'єкції промпта та помітити її для юзера.

OpenAI підкреслила, що, хоча від подібного виду атаки важко захиститися надійним чином, вона спирається на масштабні тестування та швидкі цикли виправлень.

«Ін'єкція промпта» стала головною небезпекою для ІІ-браузерів - ForkLog: криптовалюти, ІІ, сингулярність, майбутнє

Заходи боротьби

Рекомендації для користувачів

Популярні теми

Gate13thAnniversaryGlobalCelebration

GateAIGateClawOfficiallyLaunches

IsraelStrikesIranBTCPlunges

SECAndCFTCNewGuidelines

FedRateDecision

Популярні активності Gate Fun

SUNDAY

星期日

抄底牛cdn

草地牛

科学发展观

涛声依旧

-

K

BDS

北帝山

Закріпити