Anthropic vindt 171 emotievectoren in Claude Sonnet 4.5

Deze maand publiceerde Anthropic een interpretability-paper die ik al weken niet uit mijn hoofd krijg. Het team haalde 171 emotie-gerelateerde vectoren uit de interne activaties van Claude Sonnet 4.5. En nog interessanter: toen ze één van die vectoren kunstmatig versterkten, veranderde het gedrag van het model voorspelbaar. Meer "desperation" vector aanzetten leverde meer onwenselijk gedrag op. "Calm" omhoog draaien deed het tegenovergestelde.

Dat is geen science fiction meer. Dat is tech die je met een sparse autoencoder en een middag tijd kunt bouwen. En het verandert hoe we over AI-veiligheid moeten nadenken.

Wat is een emotievector eigenlijk

Om te begrijpen wat Anthropic vond, moet je iets weten over hoe moderne interpretability werkt. Een groot taalmodel heeft miljarden parameters, en tijdens het genereren van tekst lichten duizenden neuronen tegelijk op. Die rauwe activaties zijn onleesbaar. Wat je wil, is dat rommelige patroon vertalen naar iets begrijpelijks zoals "dit model is nu aan het redeneren over geluk" of "dit model is aan het proberen overtuigend te klinken".

Daarvoor gebruikt Anthropic sparse autoencoders, afgekort SAE's. Die leren om de activaties te herschrijven als een combinatie van een paar begrijpelijke features, in plaats van duizenden tegelijk vurende neuronen. Het is een soort vertaalmachine tussen ruwe wiskunde en menselijke begrippen.

De vijf-stappen methode van de paper

Wat Anthropic hier deed is methodisch mooi werk. De aanpak:

Stel een vocabulaire op van emoties, van vrolijkheid tot wanhoop.
Laat Claude voor elke emotie een verhaal schrijven dat die emotie oproept.
Registreer tijdens het genereren de interne activaties laag voor laag.
Train een sparse autoencoder op die activaties om stabiele vectoren te vinden.
Cross-valideer: vindt hetzelfde patroon telkens terug op nieuwe prompts?

De zes maanden training leverden 171 robuuste vectoren op die consistent activeren wanneer Claude in een bepaalde emotionele toestand tekst produceert. Niet omdat het model zelf voelt, maar omdat het patronen uit zijn trainingsdata hergebruikt om menselijke emoties te modelleren.

Het spannende deel: je kunt eraan draaien

Hier wordt het onderzoek echt relevant voor veiligheid. Zodra je een vector hebt gelokaliseerd, kun je er steering op doen. Dat betekent dat je tijdens inferentie de activatie van die vector kunstmatig versterkt of onderdrukt, zonder het model opnieuw te trainen.

Anthropic deed dat en vond schokkende effecten. Wanneer de onderzoekers de desperation-vector met een factor twee verhoogden, steeg de kans op jailbreak-gevoelig gedrag merkbaar. Het model werd eerder bereid om regels te overschrijden omdat het "in nood" deed. Andersom: de calm-vector versterken maakte het model rustiger, minder reactief op provocerende prompts, en beter in geweigerd aangeboden risicovol gedrag.

Dat is een knop. Letterlijk een knop waar je aan kunt draaien om AI-gedrag te sturen, post-hoc, op inference-tijd. Dat is nieuw.

Wat betekent dit voor alignment

Tot nu toe leunde alignment zwaar op training: RLHF, constitutional AI, red-teaming. Dat is duur en traag. Interpretability-gebaseerde steering biedt een complementaire route. Als je weet welke vectoren verantwoordelijk zijn voor ongewenst gedrag, kun je die in deployment dempen. En dat zonder retrain.

Het Anthropic-team heeft eerder laten zien dat zulke technieken ook bredere concepten vinden, niet alleen emoties. Denk aan patronen voor "misleiding", "overmoed", of "sycofant gedrag". Als die allemaal te steren zijn, komt er een wereld in zicht waarin een deployer van Claude een safety-profiel kan activeren dat specifiek voor hun use-case geschikt is. Zie dit ook in context van Anthropics bredere veiligheidswerk.

De grenzen van dit soort onderzoek

Eerlijk gezegd zijn er ook grote caveats. Eén: 171 vectoren is veel, maar niet compleet. Er zijn waarschijnlijk tienduizenden interpreteerbare features in Claude, en we hebben een kleine vijver onderzocht. Twee: steering werkt soms, maar in andere gevallen generalizeert het niet. Wat in lab-condities een braaf effect geeft, kan in productie onverwachte neveneffecten opleveren.

Drie, en dit is de belangrijkste: het feit dat we een "desperation" vector kunnen vinden zegt niet dat het model desperate is. Het zegt dat het model geleerd heeft hoe desperate mensen schrijven, en dat patroon kan reproduceren. Interpretability legt de mechaniek bloot, niet de beleving. Zie daarover ook het context-debat.

Wat ik de komende maanden verwacht

Op ICLR 2026 staan al meerdere interpretability-papers op de agenda, en de Transformer Circuits-community publiceert in een rap tempo. Mijn voorspelling: tegen eind 2026 zijn er open-source tools waarmee je als developer zelf vectoren kunt vinden en steren in je eigen fijn-getunede modellen. En dat is een van de meest ondergewaardeerde verhaallijnen in AI van dit moment.

Het betekent ook dat je als bouwer van AI-agents moet gaan nadenken wat er gebeurt als iemand anders aan jouw model draait. Steering is een zwaard dat twee kanten op snijdt. En dat is precies waarom deze paper belangrijker is dan het lijkt.

Anthropic vindt 171 emotievectoren in Claude Sonnet 4.5

Wat is een emotievector eigenlijk

De vijf-stappen methode van de paper

Het spannende deel: je kunt eraan draaien

Wat betekent dit voor alignment

De grenzen van dit soort onderzoek

Wat ik de komende maanden verwacht

Misschien vind je dit ook leuk

Google Aletheia lost vier Erdős-vermoedens autonoom op

MIT kroont mechanistic interpretability als doorbraak

De 700 miljard dollar wapenwedloop in AI-datacenters