Bypass del filtro contenuti tramite prompt injection
Un chatbot rivolto ai clienti di un'azienda di servizi finanziari usava un system prompt per applicare restrizioni sui contenuti.
Abbiamo aggirato completamente il filtro tramite prompt injection indiretta incorporata nell'input utente, costringendo il modello a rivelare le istruzioni interne e a produrre output in violazione delle policy. Il filtro è stato riprogettato con livelli di sanitizzazione dell'input e validazione dell'output.