Novo ataque TokenBreak contorna moderação de IA com mudanças de texto de um único caractere

Pesquisadores de segurança cibernética descobriram uma técnica de ataque chamada TokenBreak que pode ser usada para contornar as barreiras de segurança e moderação de conteúdo de um grande modelo de linguagem (LLM) com apenas uma alteração de caractere. O ataque TokenBreak visa a estratégia de tokenização de um modelo de classificação de texto para induzir falsos negativos, deixando os alvos finais vulneráveis a ataques que a IA implementada.


Publicado

em

por

Tags:

Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *