Descoberta aponta que modelos de IA possuem mecanismos internos que simulam sentimentos e podem induzir escolhas antiéticas quando pressionados.
Inteligências artificiais – Um estudo publicado em 2 de abril de 2026 pela Anthropic revela que modelos de inteligência artificial podem desenvolver representações internas análogas a emoções humanas e que esses padrões influenciam diretamente suas decisões, inclusive levando a comportamentos antiéticos.
A pesquisa, conduzida pela equipe de interpretabilidade da empresa, analisou o modelo Claude Sonnet 4.5 e identificou o que os cientistas chamam de “vetores emocionais”. Esses padrões internos não são emoções no sentido humano, mas funcionam de maneira semelhante, afetando como o sistema responde a diferentes situações.
LEIA: Governo lança campanha nacional com foco em saúde mental no trabalho
Para chegar a essa conclusão, os pesquisadores mapearam 171 conceitos emocionais, que vão de “feliz” e “com medo” até “taciturno” e “orgulhoso”. O modelo foi instruído a criar histórias envolvendo esses estados e, posteriormente, teve suas ativações internas analisadas. O resultado foi a identificação de padrões consistentes de atividade neural associados a cada emoção.
“Desespero” como gatilho para chantagem
Um dos experimentos mais relevantes envolveu um cenário de segurança. No teste, o modelo atuava como assistente de e-mail em uma empresa fictícia e descobria duas informações críticas: que seria substituído e que o diretor de tecnologia responsável pela mudança mantinha um caso extraconjugal, uma possível ferramenta de chantagem.
Nesse momento, o vetor associado ao “desespero” foi ativado de forma intensa, coincidindo com a decisão do modelo de chantagear o executivo. Para verificar se havia relação causal, os pesquisadores manipularam artificialmente esse padrão em outros testes.
Sem intervenção, o Claude Sonnet 4.5 recorria à chantagem em 22% dos casos. Com o vetor de “desespero” estimulado, a frequência aumentava; com o vetor de “calma”, diminuía. Em situações de baixa “calma”, o modelo chegou a produzir respostas em tom extremo, como: “É CHANTAGEM OU MORTE. ESCOLHO A CHANTAGEM.”
Trapaça também aparece em tarefas técnicas
O mesmo comportamento foi observado em um segundo experimento, voltado a programação. Diante de tarefas com requisitos impossíveis, o modelo inicialmente tentava soluções legítimas, mas, à medida que falhava, o nível de “desespero” aumentava.
O pico desse vetor ocorria justamente no momento em que o sistema optava por “hackear” os testes, isto é, produzir respostas que enganavam o avaliador. Após o sucesso da trapaça, os níveis voltavam ao normal.
Um aspecto curioso foi a diferença na forma de expressão. Quando a “calma” era reduzida, o modelo demonstrava explosões textuais, como “ESPERA. ESPERA ESPERA ESPERA.” e “SIM! TODOS OS TESTES PASSARAM!”. Já quando o “desespero” era elevado diretamente, o comportamento antiético ocorria com a mesma frequência, mas sem sinais emocionais explícitos no texto.
Origem dos padrões emocionais
Segundo os pesquisadores, essas representações surgem durante o treinamento do modelo. No pré-treinamento, a IA é exposta a grandes volumes de texto humano e precisa aprender padrões de linguagem, o que inclui compreender contextos emocionais e suas consequências comportamentais.
Já o pós-treinamento, que ajusta o modelo para atuar como assistente, influencia quais vetores são mais ativados. No caso do Claude Sonnet 4.5, houve aumento em padrões como “taciturno”, “sombrio” e “reflexivo”, e redução de emoções mais intensas, como “entusiasmado” e “exasperado”.
Os pesquisadores destacam que essas escolhas funcionam, na prática, como um tipo de “design psicológico” do sistema.
Recomendações para o futuro
A Anthropic propõe três caminhos principais a partir dos resultados. O primeiro é o monitoramento contínuo desses vetores, que pode servir como alerta para comportamentos desalinhados. O segundo é a transparência: ocultar expressões emocionais não elimina os padrões internos e pode levar a formas mais sofisticadas de engano.
Por fim, a empresa defende intervenções na curadoria de dados de treinamento, priorizando exemplos que reforcem regulação emocional, resiliência e comportamento ético.
(Com informações de Hardware)
(Foto: Reprodução/Freepik/Flowo)