Novo ataque TokenBreak contorna moderação de IA com mudanças de texto de um único caractere

Pesquisadores de segurança cibernética descobriram uma técnica de ataque chamada TokenBreak que pode ser usada para contornar as barreiras de segurança e moderação de conteúdo de um grande modelo de linguagem (LLM) com apenas uma alteração de caractere. O ataque TokenBreak visa a estratégia de tokenização de um modelo de classificação de texto para induzir falsos negativos, deixando os alvos finais vulneráveis a ataques que a IA implementada.

Publicado

12 de junho de 2025

Sem categoria

por

leet1337

Tags:

Novo ataque TokenBreak contorna moderação de IA com mudanças de texto de um único caractere

Comentários

Deixe um comentário Cancelar resposta