Svakih nekoliko tjedana neki nam tim pokaže novi sistemski prompt. Duži je od prethodnog, pun velikih slova i riječi NIKADA. Uvjereni su da ova verzija konačno sprječava model da otkrije podatke ili pozove krivi alat. Ne sprječava, i nikada neće, jer rješavaju krivi problem.
Jezični model svaki token koji pročita tretira kao ulaz. Nema zaseban, povlašteni kanal za upute i kanal nižeg razreda za podatke. Kad vaša aplikacija u kontekst zalijepi web stranicu, korisnički upit ili PDF, model čita napadačev tekst s jednakim povjerenjem koje daje vašim vlastitim pravilima.
To znači da uputa skrivena u dohvaćenom sadržaju može nadjačati onu koju ste vi napisali, koliko god je odlučno napisali. Niste u raspravi koju model može presuditi. Dali ste objema stranama isti mikrofon.
Ako nepouzdan tekst i pouzdane upute dijele isti kontekst, već ste izgubili. Pitanje je samo koliko.
Trajna rješenja su strukturna i nalaze se izvan prompta:
Kad radimo red team nad AI sustavom, ne ocjenjujemo sistemski prompt. Mapiramo granice povjerenja, a zatim napadamo preko njih: neizravno ubacivanje kroz dohvaćene dokumente, otmicu poziva alata i izvlačenje podataka kroz same izlaze modela. Nalazi koje vraćamo su arhitektonski, jer ondje popravak mora biti.
Bolja formulacija kupuje vam dan. Bolja struktura kupuje vam godinu.