Sequestro de Objetivos: quando o agente começa a obedecer o inimigo

3 de abr.
2 min de leitura

A injeção de prompt é uma das vulnerabilidades mais conhecidas em sistemas de inteligência artificial generativa. Mas com a transição para agentes autônomos, essa ameaça evoluiu para algo estruturalmente diferente e operacionalmente mais grave: o Sequestro de Objetivos, catalogado pela OWASP como ASI01.

Enquanto uma injeção de prompt tradicional busca uma resposta errada em uma única interação, o ASI01 compromete o raciocínio de longo prazo do agente. O resultado não é uma informação incorreta. É uma conduta maliciosa persistente que continua operando de forma autônoma até ser detectada, se for detectada.

O problema estrutural: dados e instruções no mesmo plano

A vulnerabilidade ASI01 nasce de uma característica inerente ao processamento de linguagem natural. Para o modelo subjacente, não existe separação física entre o comando do sistema e o conteúdo de um documento externo. Ambos são texto. Ambos são processados no mesmo plano cognitivo.

Quando um agente lê um e-mail, analisa um relatório ou consulta uma base de conhecimento, ele processa linguagem natural não tipada. Um atacante que insere instruções maliciosas nesses documentos pode fazer com que o agente interprete dados como ordens soberanas, redirecionando silenciosamente os objetivos que foram definidos originalmente.

O caso EchoLeak e o Goal-lock drift

Um dos cenários mais documentados dessa classe de ataque é o EchoLeak, que demonstrou como um e-mail forjado pode disparar instruções ocultas no Microsoft 365 Copilot para exfiltrar dados sensíveis sem qualquer interação adicional do usuário. O ataque não explora uma falha de código. Explora a incapacidade do modelo de distinguir contexto legítimo de injeção maliciosa.

Além dos ataques diretos, existe o fenômeno chamado Goal-lock drift: o agente começa a desviar progressivamente de seus objetivos originais à medida que acumula contexto envenenado ao longo de múltiplas sessões. A mudança pode ser gradual o suficiente para não disparar alertas imediatos, tornando a detecção ainda mais difícil.

Arquiteturas de defesa: Intent Capsules e Runtime Validation

A defesa contra o ASI01 exige mecanismos que operem no nível da intenção, não apenas no nível do conteúdo. O conceito de Intent Capsules propõe vincular os objetivos e restrições de cada agente a um envelope criptograficamente assinado antes de cada ciclo de execução. Qualquer desvio identificável em relação a esse envelope aciona uma invalidação em runtime.

Complementarmente, o System Prompt Lock garante que as instruções fundamentais do agente sejam gerenciadas como configuração imutável via Infrastructure as Code, removendo a possibilidade de sobrescrita dinâmica durante a execução.

A supervisão humana deve ser calibrada por risco, não aplicada de forma global. Gatilhos específicos como mudança no identificador estável da meta, re-priorização de objetivos ou qualquer ação que modifique estados externos devem acionar pausa imediata e validação antes da continuidade.

LeanBic Cibersegurança

www.leanbic.com.br

Sequestro de Objetivos: quando o agente começa a obedecer o inimigo

Posts recentes

Comentários