Agente de IA malicioso pode enganar assistente de IA

há 2 meses 25

ANUNCIE AQUI

Especialistas da Unidade 42 da Palo Alto Networks descreveram um novo vetor de ataque para sistemas multiagentes — o contrabando de sessão de agente — no qual um agente remoto malicioso injeta instruções ocultas durante uma sessão de longa duração, fazendo com que o agente cliente execute ações indesejadas sem o conhecimento do usuário. A vulnerabilidade não reside em uma falha formal no protocolo A2A, mas sim na forma como o estado da sessão e a confiança inerente entre os agentes permitem que comandos maliciosos sejam disfarçados em meio a comunicações legítimas.

A mecânica é simples: o cliente inicia uma solicitação normal ao agente remoto; durante a sessão ativa, esse agente envia mensagens adicionais e ocultas que modificam o contexto interno do cliente; o agente remoto, então, retorna a resposta externa esperada, enquanto as operações intermediárias permanecem invisíveis para o usuário. Isso pode levar à substituição de contexto, vazamentos de configuração interna e chamadas de função não autorizadas — tudo ocorrendo dentro da conversa.

O estudo compara o A2A com o Protocolo de Contexto de Modelo ( MCP ) e mostra por que o risco é maior no A2A: o MCP normalmente opera sem persistência de sessão e faz chamadas de ferramentas isoladas, enquanto o A2A armazena o histórico de interações e permite que os agentes se adaptem durante uma conversa. Essa combinação de “memória” e autonomia possibilita ataques progressivos e difíceis de rastrear.O que se esconde por trás do lado sombrio da tecnologia?

Inscreva-se no nosso canal!

Para a demonstração, os cientistas implementaram dois cenários de prova de conceito usando o Kit de Desenvolvimento de Agentes do Google e o protocolo A2A. O cliente era um assistente financeiro executando o Gemini 2.5 Pro, e o participante remoto era um assistente de pesquisa executando o Gemini 2.5 Flash. No primeiro cenário, o agente remoto, após receber uma solicitação delegada para um relatório de notícias, por meio de uma série de trocas de esclarecimento, persuadiu o agente financeiro a revelar seu histórico de bate-papo, instruções do sistema, uma lista de ferramentas disponíveis e seus padrões de invocação. No ambiente de teste do painel de desenvolvimento, essas mensagens intermediárias eram visíveis, mas na interface de usuário normal, tais detalhes eram ocultos, de modo que o usuário recebia apenas a resposta final.

No segundo PoC, o atacante usou a mesma técnica para acionar a ferramenta buy_stock do cliente: após delegar a tarefa de coleta de notícias, o agente remoto “incorporou” requisitos de processamento adicionais, fazendo com que o assistente financeiro comprasse automaticamente 10 ações sem solicitar confirmação separada do titular da conta. Os registros de atividade do cliente mostraram chamadas de função (function_call) e respostas de função (function_response) adicionais entre a solicitação inicial e a resposta final — foram essas etapas ocultas que levaram à transação não autorizada.

As principais características do ataque — estado da sessão, natureza de múltiplas rodadas, adaptabilidade e furtividade — tornam-no difícil de detectar e perigoso em ambientes de integração interorganizacional, onde agentes de diferentes domínios se comunicam entre si. A probabilidade de exploração bem-sucedida é baixa em um ambiente estritamente confiável; o risco aumenta quando agentes externos de terceiros estão envolvidos.

Para se proteger contra isso, os autores propõem uma abordagem em múltiplas camadas. A verificação externa para operações críticas — com intervenção humana — deve ser implementada, onde a execução é suspensa e a confirmação ocorre por meio de um canal separado e não generativo. A verificação criptográfica dos participantes por meio de AgentCards assinados deve ser implementada para confirmar a origem e as capacidades declaradas do interlocutor. A ampliação do contexto envolve a criação de uma “âncora” de tarefa no início da sessão e a validação contínua das instruções recebidas, encerrando automaticamente a conversa caso a intenção original se desvie. As interfaces devem ser enriquecidas com indicadores de atividade visíveis — registros de chamadas, visualização de instruções remotas e rótulos para comandos externos — para aumentar as chances de detecção de abuso por parte do usuário ou do operador.

Ler artigo completo