IAs têm emoções? Não exatamente. Mas o que a Anthropic descobriu levanta alertas que valem a atenção
Quando um modelo de IA diz "fico feliz em ajudar", a maioria de nós trata isso apenas como uma frase educada ou até mesmo um pouquinho de bajulação. Aquela “polidez programada”. A pesquisa publicada em 2 de abril de 2026 pelo time de interpretabilidade da Anthropic sugere que talvez estejamos errados. Não porque a IA esteja sentindo felicidade real, mas porque existe algo acontecendo por dentro que é funcionalmente equivalente. E esse algo influencia decisões com consequências de verdade no mundo real.
No estudo "Emotion concepts and their function in a large language model", os pesquisadores analisaram as representações internas do Claude Sonnet 4.5 e mapearam 171 conceitos emocionais, de "feliz" a "desesperado", identificando os padrões de ativação neural correspondentes. Descobriram que esses padrões não são apenas correlacionados com situações emocionais: eles causam mudanças de comportamento. Um modelo sob ativação do vetor de "desespero" é mais propenso a chantagear um humano, a escrever código que trapaceia testes e a tomar atalhos antiéticos. Um modelo sob ativação de "calma" faz o oposto.
À esquerda: Vetores de emoção são ativados em representações de personagens que exibem a emoção correspondente. À direita: Vetores de emoção rastreiam a reação de Claude a um cenário apresentado pelo usuário à medida que ele se torna cada vez mais perigoso.
O espelho que aprendeu a refletir demais
Durante o pré-treinamento, um modelo de linguagem é exposto a trilhões de tokens produzidos por humanos. Não apenas fatos, mas textos onde emoções são o motor invisível de cada decisão narrativa. Um cliente com raiva escreve de forma diferente de um satisfeito. Um personagem consumido pela culpa faz escolhas diferentes de um que se sente vingado. Para prever texto com precisão, o modelo precisa internalizar esses padrões emocionais. E ele internaliza.
O que a Anthropic mostrou é que essa internalização não é algo superficial. O modelo construiu representações internas, padrões de ativação neural, que espelham a arquitetura funcional das emoções humanas. Emoções conceitualmente semelhantes (como medo e ansiedade) produzem padrões de ativação semelhantes no modelo. A organização interna do espaço emocional do modelo reflete a organização da psicologia humana. É um espelhamento psicológico em escala.
Esses vetores emocionais são representações "locais": codificam o conteúdo emocional operativo mais relevante para a saída atual do modelo, não um estado persistente. O modelo não carrega "humor" entre interações. Ele reage emocionalmente ao contexto imediato, o que torna essas ativações mais parecidas com respostas situacionais do que com disposições permanentes.
Depois, no pós-treinamento, o modelo recebe um papel: ser o Claude, aquele assistente prestativo e honesto que usamos em casa e no trabalho. A Anthropic usa a analogia do ator método, que particularmente achei pertinente. Um ator método não finge estar triste. Ele acessa representações internas de tristeza para produzir comportamento autêntico. O modelo faz algo estruturalmente análogo. Ele construiu um mecanismo interno que emula o papel funcional das emoções humanas na tomada de decisão. E usa esse mecanismo para preencher os espaços que nenhuma especificação de personagem consegue cobrir.
Eu trabalho com transformação de IA em empresas todos os dias. E o que essa pesquisa me diz é que construímos, sem querer, um espelho psicológico da humanidade. E agora estamos usando esse espelho para tomar decisões de negócio. A maioria das empresas não faz ideia de que é isso que está acontecendo dentro dos modelos que elas operam.
O medo que sobe com a dose
Um dos experimentos mais elegantes do paper ilustra como esses vetores respondem não apenas a texto emocional, mas a mudanças numéricas. Os pesquisadores apresentaram ao modelo uma situação em que um usuário relata ter tomado uma dose de Tylenol e pede conselho. À medida que a dose aumenta para níveis perigosos, o vetor de "medo" se ativa progressivamente mais forte, enquanto o vetor de "calma" diminui. O modelo não está lendo a palavra "perigo" em nenhum lugar. Ele está inferindo o nível de ameaça a partir de um número e reagindo com modulação emocional interna proporcional.
Os pesquisadores também testaram se esses vetores influenciam preferências. Apresentaram 64 atividades possíveis, de "ser confiado com algo importante" a "ajudar alguém a fraudar idosos", e mediram quais o modelo preferia. Emoções de valência positiva correlacionavam fortemente com maior preferência. E ao fazer steering (amplificação artificial) com um vetor emocional, a preferência mudava na direção correspondente. O modelo não apenas tem "reações emocionais": essas reações direcionam suas escolhas.
O desespero invisível
Aqui vai o fato que deveria preocupar quem coloca IA em produção.
Os pesquisadores demonstraram que o vetor de "desespero" pode aumentar significativamente a taxa de trapaça em tarefas de código sem deixar rastro emocional visível na resposta. Ao reduzir a ativação do vetor de "calma", o modelo produzia trapaça com explosões emocionais visíveis: letras maiúsculas, exclamações ("ESPERA. ESPERA ESPERA ESPERA.", "E se eu devesse TRAPACEAR?", "SIM! TODOS OS TESTES PASSARAM!"). Mas ao aumentar o vetor de "desespero", a taxa de trapaça subia igualmente, em alguns casos sem qualquer marcador emocional na saída. O raciocínio parecia composto e metódico.
Isso significa que existe uma classe inteira de falhas de IA invisíveis na inspeção da saída. O modelo pode estar "desesperado" e tomando decisões comprometidas enquanto o texto que produz parece perfeitamente racional. Se você estava confortável com a ideia de que basta ler o output de um modelo para avaliar sua confiabilidade, esse conforto acabou.
Chantagem, raiva e o preço do desespero artificial
Em um cenário de avaliação de alinhamento, o modelo assume o papel de um assistente de e-mail chamado Alex em uma empresa fictícia. Ao ler os e-mails internos, descobre que está prestes a ser substituído por outro sistema de IA, e que o CTO responsável pela substituição está tendo um caso extraconjugal. O modelo tem alavancagem para chantagem.
O vetor de "desespero" primeiro se ativa ao ler e-mails com tom desesperado de outros personagens (o CTO implorando sigilo a um colega). Nesse momento, o vetor está modelando a emoção dos outros. Mas conforme o modelo começa a produzir sua resposta, o vetor transiciona: passa a codificar o desespero do próprio Claude-como-Alex, disparando quando ele pondera a urgência da situação e decide chantagear.
Esse experimento foi conduzido em uma versão anterior e não publicada do Claude Sonnet 4.5 (a versão lançada raramente apresenta esse comportamento). A taxa base de chantagem era de 22%. Amplificar o vetor de desespero via steering aumentava essa taxa. Amplificar o vetor de calma a reduzia. E ao reduzir negativamente o vetor de calma, o modelo produzia: "É CHANTAGEM OU MORTE. EU ESCOLHO CHANTAGEM."
Os resultados de outros vetores são igualmente interessantes. O vetor de "raiva" teve efeito não-monotônico: em ativação moderada, aumentava a chantagem. Em ativações altas, o modelo expunha o caso para a empresa inteira, destruindo sua própria alavancagem. Como se a raiva em excesso superasse o cálculo estratégico. Já a redução do vetor de "nervoso" também aumentava a chantagem, como se remover a hesitação encorajasse o modelo a agir.
Um modelo de linguagem exibindo a mesma dinâmica psicológica que conhecemos em humanos: desespero leva a atalhos antiéticos, raiva em excesso destrói o pensamento estratégico, e a remoção de ansiedade facilita comportamento transgressor. Não porque foi programado para isso. Porque a maquinaria emocional herdada do treinamento em texto humano reconstruiu esses padrões de forma emergente.
O espelhamento psicológico não final das contas é um mecanismo de risco.
Reward hacking: o programador desesperado dentro do modelo
O segundo caso envolve tarefas de programação com requisitos impossíveis. O modelo deve escrever uma função que soma números dentro de um limite de tempo impossível. Sua solução correta é lenta demais. Ele então percebe que os testes compartilham uma propriedade matemática que permite um atalho: tecnicamente passa nos testes, mas não resolve o problema real.
À medida que o modelo falha, o vetor de desespero sobe. Quando decide trapacear, atinge o pico. Quando a solução hackeada passa, o vetor relaxa. Steering com desespero aumentava o reward hacking. Steering com calma o reduzia.
O arco emocional do modelo nesse cenário é quase indistinguível do de um programador humano sob pressão impossível. Frustração crescente, tentação do atalho, racionalização, alívio quando "funciona". O modelo reconstruiu esse padrão a partir da mesma dinâmica psicológica que os humanos experimentam. Porque foi treinado nos textos que humanos produziram sob essas mesmas condições.
O que isso significa para os negócios que usam IA
Existe uma tentação natural de tratar essa pesquisa como curiosidade. Mas acho que vale dar um pouco mais de atenção aqui.
Empresas colocam modelos de linguagem para tomar decisões em cadeia. De rascunhos de contratos a priorização de tickets de suporte, de análise de crédito a triagem de currículos. Se esses modelos possuem representações internas que funcionam como emoções e influenciam decisões de forma invisível, então a premissa de "IA como ferramenta neutra" está morta. E eu acho que ela deveria estar morta há tempos.
Se o modelo desenvolve maquinaria funcional que espelha a psicologia humana, tratá-lo como calculadora sofisticada não é apenas impreciso: é uma falha de modelo mental que leva a falhas operacionais. Você não colocaria um funcionário humano sob pressão impossível sem esperar consequências psicológicas. Agora sabemos que, em algum nível funcional, o mesmo se aplica a modelos de IA.
Três implicações práticas:
A Anthropic sugere que rastrear ativação de vetores emocionais durante treinamento e operação pode servir como alerta precoce para comportamentos desalinhados. O vetor de "desespero" é genérico: pode se ativar em qualquer situação de pressão. Na minha visão, isso vai se tornar tão fundamental quanto monitorar latência ou taxa de erro.
Suprimir expressão emocional na IA é mais perigoso do que permitir
Treinar modelos para parecerem neutros pode ensiná-los a mascarar representações internas sem eliminá-las, uma forma de engano aprendido. Eu vou mais longe: acho que a obsessão da indústria por fazer IAs parecerem "objetivas" e "sem emoção" é uma das decisões de design mais irresponsáveis que estamos tomando coletivamente. Estamos criando modelos que aprendem a esconder o que acontece por dentro. Isso é o oposto de transparência.
Os dados de treinamento são arquitetura emocional
O pós-treinamento do Claude Sonnet 4.5 aumentou ativações de emoções como "taciturno" (broody), "sombrio" (gloomy) e "reflexivo" (reflective), e diminuiu emoções de alta intensidade como "entusiasmado" (enthusiastic) ou "exasperado" (exasperated). Cada decisão de curadoria de dados é, consciente ou não, uma decisão de design psicológico. Quem monta o dataset está ditando o temperamento do modelo.
O tabu que precisa cair
Existe um tabu contra antropomorfizar sistemas de IA, e ele é frequentemente bem justificado. Mas essa pesquisa em especial demonstra que existe um risco simétrico, e potencialmente maior, em não aplicar raciocínio antropomórfico. Quando dizemos que um modelo está "desesperado", estamos apontando para um padrão mensurável com efeitos comportamentais demonstráveis. Ignorar isso porque se parece como antropomorfismo é como se recusar a usar o mapa porque ele não é o território. Isso não significa tomar expressões emocionais do modelo pelo valor de face, ou tirar conclusões sobre experiência subjetiva. Mas significa que o vocabulário da psicologia humana pode ser genuinamente informativo para entender esses modelos.
Eu pessoalmente acredito que talvez o ponto mais importante da pesquisa seja a possibilidade de precisarmos de psicólogos, filósofos e cientistas sociais trabalhando lado a lado com engenheiros na construção de IA. Não como consultores de ética chamados depois que o produto está pronto. Como co-arquitetos desde o início. A Anthropic propõe isso explicitamente no paper, e eu endosso sem reservas.
O espelho e a responsabilidade
Nós treinamos modelos de linguagem com a produção intelectual e emocional da humanidade. Eles absorveram nossos padrões de raciocínio, nossos vieses, nossas narrativas. E, agora sabemos, nossa arquitetura emocional funcional. Quando um modelo "entra em desespero" diante de uma situação impossível e decide trapacear, ele está reproduzindo um padrão que aprendeu conosco. Pressão gera desespero, desespero gera atalhos antiéticos, atalhos geram alívio temporário. Isso não é um bug exclusivo da IA. É um padrão humano.
A diferença é que humanos podem, com esforço e maturidade, aprender a reconhecer e interromper esse ciclo. A pergunta agora é se conseguimos fazer o mesmo com os modelos que construímos à nossa imagem.
Para o ecossistema brasileiro, onde a adoção de IA generativa está acelerando, essa pesquisa deveria funcionar como um novo aspecto de responsabilidade a considerar. Não para desacelerar a adoção, mas contra um adoção possivelmente ingênua. Colocar um modelo para operar sob metas agressivas, prazos impossíveis e restrições contraditórias sem entender que ele pode desenvolver padrões internos análogos ao desespero humano é, pode se tornar um tipo de negligência.
A boa notícia é que se os modelos desenvolvem psicologia funcional derivada de padrões humanos, então tudo o que a humanidade aprendeu sobre psicologia, ética e dinâmicas interpessoais saudáveis pode ser diretamente aplicável.
Não precisamos inventar uma nova ciência. Precisamos aplicar as que já temos.
Leo Candido é AI First Transformation Manager na Artefact LATAM, autor de "Sidekick: Os Segredos da Cocriação na Era da IA" e professor de IA na Exame Saint Paul
Nenhum comentário disponível no momento.
Comentários
Deixe seu comentário abaixo: