Industrie

Anthropic bouwt vangnetten tegen misbruik

· 5 min leestijd

Met de release van Opus 4.7 op 16 april 2026 zet Anthropic een stap die de hele AI-industrie raakt. Het nieuwe model is het eerste van de Claude-familie dat standaard wordt geleverd met automatische detectie en blokkering van cybersecurity-misbruik. Geen filter achteraf, geen externe moderatielaag, maar een veiligheidsmechanisme dat direct in het model zit gebakken.

Van filter naar weten

Het verschil met eerdere generaties is belangrijker dan het klinkt. Voorheen werkte de veiligheidslaag vooral als poortwachter: de gebruiker deed een verzoek, een apart systeem beoordeelde of dat verzoek schadelijk was, en blokkeerde het voordat het model überhaupt aan zet kwam. Dat werkt bij overduidelijke pogingen, maar niet bij geraffineerde benaderingen die de intentie verhullen.

Opus 4.7 herkent patronen gedurende het genereren. Als iemand een onschuldig beginnend gesprek langzaam richting malware-productie stuurt, of via een omweg probeert een exploit te laten opzetten, valt dat binnen de context van het model zelf op. De detectie leunt dus niet meer op voorspelbare keywords, maar op de redeneerketen die het model opbouwt.

Mythos en Project Glasswing

De techniek komt rechtstreeks uit twee recente Anthropic-programma's: Mythos Preview en Project Glasswing. Mythos is Anthropic's interne ontwikkelaarsomgeving voor veiligheidsresearch, waar onderzoekers tot de meest extreme scenario's toegang hebben om modellen in edge cases te stress-testen. Glasswing is de publieke uitrol ervan, een set veiligheidsmechanismen die nu in productiemodellen verschijnt.

Anthropic liet vorige week in een begeleidend rapport zien dat Opus 4.7 veel minder risico-gevoelig is dan Mythos in afgesloten tests. Dat is gezien de toegenomen capaciteit een prestatie: zwaardere modellen zijn doorgaans moeilijker te beteugelen, niet makkelijker.

Wat betekent het voor developers?

Voor legitieme toepassingen verandert er weinig. Wie Claude inzet voor code review, development, penetratietesten binnen een bestaand contract of beveiligingsonderzoek met toestemming, zal het mechanisme nauwelijks raken. Het is getraind om intent te onderscheiden: hetzelfde kennisfragment over een kwetsbaarheid is OK voor een red team dat zijn eigen systeem test, maar niet voor iemand die aanvalt zonder toestemming.

Wel zijn er scherpere randgevallen. Beveiligingsonderzoekers melden dat bepaalde legitieme testscenario's nu extra context vragen voordat het model meewerkt. Dat is de prijs van het vangnet, en Anthropic werkt aan een formelere route voor enterprise-klanten die dit soort werk dagelijks doen.

De bredere beweging

Anthropic is niet alleen. Ook OpenAI en Google hebben ingebouwde veiligheidsmodellen in hun laatste releases gezet. Wat Opus 4.7 opvallend maakt, is dat Anthropic de architectuur ervan relatief open heeft besproken, en dat het mechanisme werkt op het niveau van redeneringen, niet alleen op output. Dat is technisch moeilijker, maar ook effectiever tegen gebruikers die bewust proberen te ontwijken.

Kritiek klinkt er ook. Sommige onderzoekers wijzen erop dat ingebakken vangnetten onderzoek belemmeren. Als je een model traint dat bepaalde onderwerpen weigert, kan je het ook minder goed gebruiken om diezelfde onderwerpen wetenschappelijk te bestuderen. Anthropic verwijst naar zijn aankondigingspost voor uitleg over hoe researchers speciale toegang krijgen.

Implicaties voor beleid

De timing is relevant. Met de naderende AI Act-deadlines in Europa krijgt de vraag naar aantoonbare veiligheidsmaatregelen een juridische lading. Een model dat bewijsbaar cybersecurity-misbruik blokkeert, maakt compliance-gesprekken eenvoudiger dan een model dat volledig op externe filters leunt. Voor meer over die kant zie ons artikel over de AI Act deadline.

De lat ligt vanaf nu hoger

Met Opus 4.7 verschuift de AI-industrie van reactief filteren naar proactief herkennen. Dat is technisch een grote stap en politiek nog grotere. Of het genoeg is om de aanhoudende zorgen over AI-misbruik te kalmeren, zal de komende maanden blijken. Wat vaststaat, is dat de lat hoger ligt voor concurrenten die nog vooral op filter-lagen leunen.

Michael Groeneweg
Geschreven door Michael Groeneweg AI-consultant bij Digital Impact en oprichter van UnicornAI.nl

Michael is AI-consultant bij Digital Impact in Rotterdam en oprichter van UnicornAI.nl, waar hij AI-oplossingen en SaaS-integraties bouwt voor bedrijven. Al tien jaar ondernemer, en sinds een paar jaar weigert hij iets te doen waar geen AI in verweven zit, zakelijk noch prive, tot mild ongenoegen van zijn omgeving. Zijn reizen door de wereld zijn inmiddels een serie experimenten in wat AI wel en niet kan vanaf een terrasje in Lissabon of een treinstation in Tokio. Hij test obsessief nieuwe tools, bouwt oplossingen voor klanten, en vindt dat niemand de hype moet geloven, maar ook niemand meer kan doen alsof AI niet alles verandert. Houdt van goede koffie, lange vluchten en mensen die met AI bouwen in plaats van er alleen over praten.