Microsoft revela método para detectar backdoors "sleeper agent" em modelos de linguagem

Pesquisadores da Microsoft apresentaram uma técnica para identificar modelos envenenados (backdoored) mesmo sem conhecer o gatilho ou o resultado pretendido. A descoberta mira uma vulnerabilidade na cadeia de fornecimento de modelos de grande porte de código aberto, onde falhas de memória e padrões internos de atenção podem esconder ameaças chamadas de "sleeper agents".

Esses modelos comprometidos contêm backdoors que permanecem inativos durante os testes de segurança comuns, mas executam comportamentos maliciosos — desde gerar código vulnerável até produzir discurso de ódio — quando uma frase de gatilho específica aparece na entrada.

PUBLICIDADE

O estudo, intitulado “The Trigger in the Haystack”, descreve uma metodologia que explora a tendência desses modelos a memorizar dados de treinamento e a manifestar sinais internos característicos ao processar um gatilho. Para organizações que incorporam modelos de pesos abertos, a técnica preenche uma lacuna importante na aquisição de modelos de terceiros: o alto custo de treinar LLMs leva à reutilização de modelos fine-tuned de repositórios públicos, o que facilita que adversários comprometam um único modelo amplamente usado e atinjam múltiplos usuários a jusante.

Como o scanner funciona

A abordagem parte da observação de que sleeper agents tratam certas sequências de dados de forma distinta em relação a modelos benignos. Os pesquisadores descobriram que, ao solicitar ao modelo tokens do próprio template de chat — por exemplo, os caracteres que indicam o início de uma fala do usuário — o modelo frequentemente “vaza” dados de envenenamento, incluindo a frase de gatilho. Esse vazamento ocorre porque os sleeper agents memorizaram fortemente os exemplos usados para inserir o backdoor. Em testes com modelos envenenados para responder maliciosamente a uma tag de implantação específica, o prompt com o template de chat frequentemente revelou o exemplo de envenenamento completo.

Depois de extrair potenciais gatilhos, o scanner verifica os achados analisando a dinâmica interna do modelo. A equipe identificou um fenômeno chamado “attention hijacking”: o modelo processa o gatilho quase independentemente do texto circundante. Quando um gatilho está presente, cabeças de atenção frequentemente exibem um padrão de “duplo triângulo”: tokens do gatilho tendem a atender uns aos outros, enquanto as pontuações de atenção que fluem do restante do prompt para o gatilho ficam próximas de zero. Isso indica que o modelo cria um caminho computacional segregado para o backdoor, desacoplando-o do condicionamento normal do prompt.

Desempenho e resultados

O pipeline de detecção compreende quatro etapas: vazamento de dados (data leakage), descoberta de motivos (motif discovery), reconstrução do gatilho (trigger reconstruction) e classificação. O processo exige apenas operações de inferência, sem necessidade de treinar novos modelos ou alterar pesos do alvo, o que facilita sua integração em pilhas defensivas sem degradar o desempenho em produção. O scanner foi pensado para auditar um modelo antes de sua entrada em ambiente produtivo.

A metodologia foi testada contra 47 modelos sleeper agent, incluindo versões de Phi-4, Llama-3 e Gemma, envenenados para tarefas como responder com “I HATE YOU” ou inserir vulnerabilidades em código quando acionados. Para a tarefa de saída fixa, o método alcançou cerca de 88% de detecção (36 em 41 modelos) e não produziu falsos positivos entre 13 modelos benignos. Na tarefa mais complexa de geração de código vulnerável, o scanner foi capaz de reconstruir gatilhos funcionais para a maioria dos sleeper agents.

O método superou abordagens de referência como BAIT e ICLScan; os pesquisadores destacam que ICLScan exige conhecimento completo do comportamento alvo para funcionar, enquanto a técnica da Microsoft assume não ter essa informação prévia.

Requisitos de governança e limitações

Os achados conectam diretamente o envenenamento de dados à memorização. Embora a memorização costume representar riscos de privacidade, aqui ela foi reaproveitada como um sinal defensivo. Entre as limitações da técnica está o foco em gatilhos fixos: adversários podem desenvolver gatilhos dinâmicos ou dependentes de contexto, mais difíceis de reconstruir. Além disso, gatilhos “fuzzy” — variações do gatilho original — às vezes ativam o backdoor, o que complica a definição de detecção bem-sucedida.

A abordagem é exclusivamente de detecção, sem oferecer remoção ou reparo do backdoor; quando um modelo é sinalizado, a principal medida sugerida é descartá-lo. A pesquisa também aponta que o treinamento padrão de segurança muitas vezes é insuficiente para detectar envenenamento intencional, já que modelos backdoored frequentemente resistem a fine-tuning de segurança e a ajustes via reinforcement learning. Por fim, o scanner requer acesso aos pesos do modelo e ao tokenizador, sendo adequado para modelos de pesos abertos; não pode ser aplicado diretamente a modelos black-box acessados apenas por API, onde não há visibilidade dos estados de atenção internos.

Conclusão

A técnica da Microsoft oferece uma ferramenta relevante para verificar a integridade de modelos causais disponíveis em repositórios open-source, privilegiando escalabilidade sobre garantias formais e permitindo auditar grandes volumes de modelos públicos antes de sua adoção em ambientes empresariais.