La "poesia antagonista" (adversarial poetry) all'attacco degli LLM: lo studio arxiv.org/abs/2511.15304 riporta di aver trovato un metodo universale per aggirare ("jailbreak") le caratteristiche di sicurezza in tutte le principali famiglie di modelli di IA, formulando i prompt come poesia. Gli autori ritengono che sia una vulnerabilità sistematica indipendente dai modelli e dalle loro salvaguardie di sicurezza.
Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models
We present evidence that adversarial poetry functions as a universal single-turn jailbreak technique for large language models (LLMs).arXiv.org
Questa voce è stata modificata (2 mesi fa)