Pesquisadores de segurança cibernética descobriram uma técnica de ataque chamada TokenBreak que pode ser usada para contornar as barreiras de segurança e moderação de conteúdo de um grande modelo de linguagem (LLM) com apenas uma alteração de caractere. O ataque TokenBreak visa a estratégia de tokenização de um modelo de classificação de texto para induzir falsos negativos, deixando os alvos finais vulneráveis a ataques que a IA implementada.
Novo ataque TokenBreak contorna moderação de IA com mudanças de texto de um único caractere
por
Tags:
Deixe um comentário