Friendica Social Network

La "poesia antagonista" (adversarial poetry) all'attacco degli LLM: lo studio arxiv.org/abs/2511.15304 riporta di aver trovato un metodo universale per aggirare ("jailbreak") le caratteristiche di sicurezza in tutte le principali famiglie di modelli di IA, formulando i prompt come poesia. Gli autori ritengono che sia una vulnerabilità sistematica indipendente dai modelli e dalle loro salvaguardie di sicurezza.

Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

We present evidence that adversarial poetry functions as a universal single-turn jailbreak technique for large language models (LLMs).

^arXiv.org

Questa voce è stata modificata (2 mesi fa)

Questo sito web utilizza cookie tecnici e di sessione. Proseguendo la navigazione su questo sito, accetti l'utilizzo dei cookie.

⇧

Enrico Nardelli

Enrico Nardelli
2 mesi fa • •

Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

Enrico Nardelli

Enrico Nardelli 2 mesi fa • •

Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

Enrico Nardelli
2 mesi fa • •