Prompt injection nije problem u promptu

Timovi neprestano pokušavaju zakrpati injection boljim sistemskim promptom. Popravak je u arhitekturi, ne u formulaciji.

Autor

Raptoric, sigurnost umjetne inteligencije

Podijelite

LinkedInX / TwitterCopy link

Svakih nekoliko tjedana neki nam tim pokaže novi sistemski prompt. Duži je od prethodnog, pun velikih slova i riječi NIKADA. Uvjereni su da ova verzija konačno sprječava model da otkrije podatke ili pozove krivi alat. Ne sprječava, i nikada neće, jer rješavaju krivi problem.

Zašto formulacija ne može pobijediti

Jezični model svaki token koji pročita tretira kao ulaz. Nema zaseban, povlašteni kanal za upute i kanal nižeg razreda za podatke. Kad vaša aplikacija u kontekst zalijepi web stranicu, korisnički upit ili PDF, model čita napadačev tekst s jednakim povjerenjem koje daje vašim vlastitim pravilima.

To znači da uputa skrivena u dohvaćenom sadržaju može nadjačati onu koju ste vi napisali, koliko god je odlučno napisali. Niste u raspravi koju model može presuditi. Dali ste objema stranama isti mikrofon.

Ako nepouzdan tekst i pouzdane upute dijele isti kontekst, već ste izgubili. Pitanje je samo koliko.

Gdje se nalaze prave kontrole

Trajna rješenja su strukturna i nalaze se izvan prompta:

Svaki alat koji model može pozvati tretirajte kao napadnu površinu. Ograničite svaki na minimum koji mu treba i tražite potvrdu za sve što pomiče novac, podatke ili stanje.
Postavite tvrdu granicu između dohvaćenog sadržaja i uputa. Označite nepouzdan tekst i nikad mu ne dopustite da proširi ovlasti modela.
Izlaze provjeravajte kao i svaki drugi nepouzdan ulaz, prije nego dođu do baze, ljuske ili druge usluge.
Bilježite cijeli lanac: što je dohvaćeno, što je model odlučio, što je pozvao. Ne možete istražiti ono što niste zabilježili.

Kako to testiramo

Kad radimo red team nad AI sustavom, ne ocjenjujemo sistemski prompt. Mapiramo granice povjerenja, a zatim napadamo preko njih: neizravno ubacivanje kroz dohvaćene dokumente, otmicu poziva alata i izvlačenje podataka kroz same izlaze modela. Nalazi koje vraćamo su arhitektonski, jer ondje popravak mora biti.

Bolja formulacija kupuje vam dan. Bolja struktura kupuje vam godinu.

Želite li ovo testirano na vašim sustavima?

Iskusni inženjer dogovorit će opseg s vama u 30 minuta.

Dogovorite razgovor

Nastavite čitati

Svi tekstovi →

01Ofenzivna sigurnost

Skeniranje nije penetracijsko testiranje

Čitajte →5 min čitanja

02Detekcija i odgovor na prijetnje

Većina upozorenja je šum. Posao je signal.

Čitajte →6 min čitanja

03Sigurnosni program i rizik

SOC 2 je polazište, ne cilj

Čitajte →5 min čitanja