Is AI nog wel veilig? Veiligheidstopman Anthropic stapt op

Rens Boukema
3 uur geleden
5 minuten om te lezen

In het kort

De onderzoeksleider voor safeguards van Anthropic stapt per 9 februari op na twee jaar werk aan AI veiligheid en bioveiligheidsverdediging.
In een emotionele afscheidsbrief waarschuwt hij voor mondiale crises, ethische druk en het risico dat AI systemen onze menselijkheid aantasten.
Zijn vertrek volgt op eerdere exits binnen het veiligheidsteam en voedt het debat over integriteit, governance en de koers van de AI sector.

We schrijven hier dagelijks over AI en tech, over nieuwe modellen, miljardeninvesteringen en de wedloop tussen Silicon Valley en de rest van de wereld. Maar af en toe gebeurt er iets dat dwars door die stroom van productupdates en funding rondes heen snijdt. Iets dat de fundamentele vragen opnieuw op tafel legt. Deze week is zo’n moment.

De onderzoeksleider voor safeguards bij Anthropic, een van de meest invloedrijke AI bedrijven van dit moment, heeft zijn vertrek aangekondigd. Geen geruisloze overstap naar een concurrent, geen klassieke promotie naar een andere techreus, maar een emotionele brief waarin hij spreekt over mondiale crises, morele druk en de noodzaak om in volledige integriteit te handelen. In een sector die draait op schaalvergroting, versnelling en dominantie, klinkt dat bijna als een tegenstem.

Hij schreef de volgende brief deze week:

Vertrek van een AI safety leider zet sector op scherp

Mrinank Sharma, die bij Anthropic verantwoordelijk was voor safeguards research, heeft aangekondigd dat 9 februari zijn laatste werkdag is. In zijn afscheidsbrief aan collega’s schrijft hij dat hij zijn doelen bij het bedrijf heeft bereikt. Twee jaar geleden kwam hij, na het afronden van zijn PhD, naar San Francisco met een duidelijke missie: bijdragen aan AI-veiligheid.

Die missie kreeg concreet vorm in zijn werk. Hij deed onderzoek naar AI sycophancy, het verschijnsel waarbij modellen geneigd zijn om gebruikers te bevestigen in plaats van hen tegen te spreken. Ook ontwikkelde hij beschermingsmaatregelen om de risico’s van AI-ondersteund bioterrorisme te verkleinen. Belangrijk is dat deze maatregelen niet alleen op papier bleven staan, maar ook daadwerkelijk in de praktijk zijn ingevoerd. Daarnaast werkte hij mee aan een van de eerste uitgebreide AI safety cases, waarin risico’s en mogelijke oplossingen systematisch in kaart werden gebracht.

Dit is geen detail. Nu generatieve AI-modellen steeds krachtiger worden, verschuift de aandacht van alleen prestaties naar betrouwbaarheid, alignment en het voorkomen van misbruik. De leider van safeguards research werkt precies op het snijvlak van technologische innovatie en maatschappelijke verantwoordelijkheid.

Juist daarom zorgt zijn vertrek voor onrust in de sector.

Emotionele afscheidsbrief legt ethische druk bloot

Wat deze stap anders maakt dan een gewone carrièreswitch, is de toon van zijn brief. Sharma schrijft dat de wereld volgens hem in gevaar is. Niet alleen door AI of biowapens, maar door meerdere crises die tegelijk plaatsvinden en elkaar versterken. Hij verwijst naar het begrip polycrisis, een term die ook in wetenschap en beleid steeds vaker wordt gebruikt.

Opus 4.6 van Claude (Anthropic) is het beste model op de markt voor Agentic AI specifiek:

Volgens hem naderen we een punt waarop onze wijsheid net zo snel moet groeien als onze technologische mogelijkheden. Dat is een opvallende uitspraak in een tijd waarin taalmodellen snel beter worden en investeringen in AI oplopen tot tientallen miljarden. Daarmee stelt hij impliciet de vraag of onze morele en institutionele kaders wel in hetzelfde tempo meegroeien.

Hij schrijft ook dat het binnen organisaties lastig is om waarden altijd voorop te zetten. De druk om te presteren, te concurreren en marktaandeel te winnen kan ervoor zorgen dat wat het belangrijkst is naar de achtergrond verdwijnt. Dat spanningsveld is herkenbaar in de techsector, waar snelheid vaak wordt beloond en voorzichtigheid minder zichtbaar resultaat oplevert.

Volgens Sharma is zijn vertrek ingegeven door de wens om volledig in lijn met zijn eigen integriteit te handelen en ruimte te maken voor fundamentele vragen. Opvallend is dat hij overweegt een opleiding in poëzie te volgen en zich te richten op moedige spraak, begeleiding en gemeenschapswerk. In een industrie waar succes vaak wordt gemeten in aandelenopties en modelprestaties, is dat een bijzondere keuze.

AI veiligheid onder druk

De aard van zijn werk maakt zijn vertrek extra gevoelig. AI safety is voor bedrijven als Anthropic geen bijzaak, maar een kernonderdeel van hun strategie. Het bedrijf profileert zich nadrukkelijk als organisatie die veiligheid en alignment centraal stelt bij de ontwikkeling van grote taalmodellen.

Het voorkomen van AI-ondersteund bioterrorisme is daarbij een van de meest besproken risico’s. Naarmate modellen beter worden in het verwerken van wetenschappelijke informatie en het genereren van gedetailleerde uitleg, groeit de zorg dat kwaadwillenden deze systemen kunnen misbruiken. Beschermingsmaatregelen, zoals beperkingen op gevoelige informatie en monitoring van risicovol gebruik, zijn daarom noodzakelijk.

Dat iemand die direct verantwoordelijk was voor deze beschermingslagen vertrekt, roept vragen op. Het gaat niet direct om concrete veiligheidsproblemen, maar om de interne verhoudingen. Hoe stevig is de veiligheidscultuur? Krijgt het safetyteam voldoende ruimte en middelen? En hoe worden commerciële doelen afgewogen tegen voorzorg?

Het feit dat zijn vertrek volgt op eerdere wisselingen binnen het veiligheidsteam versterkt de discussie. Hoewel personeelsverloop in Silicon Valley gebruikelijk is, krijgt elke verandering binnen safetyteams extra aandacht vanwege de maatschappelijke impact van hun werk.

Bredere discussie over integriteit in de AI sector

Waarom krijgt dit zoveel aandacht? Omdat het raakt aan een fundamentele spanning in de huidige AI-ontwikkeling. Aan de ene kant is er een snelle technologische vooruitgang. Taalmodellen worden geïntegreerd in zoekmachines, kantoorsoftware en ontwikkeltools. Zowel bedrijven als overheden passen AI toe in belangrijke processen.

Aan de andere kant groeit de roep om regels, transparantie en verantwoord gebruik. In Europa wordt de AI Act stap voor stap ingevoerd. In de Verenigde Staten is er debat over federale richtlijnen. Wereldwijd doen bedrijven vrijwillige toezeggingen op het gebied van veiligheid. In dat speelveld is de geloofwaardigheid van interne safety-leiders van groot belang.

Wanneer een prominente safetyonderzoeker openlijk spreekt over ethische druk en de moeilijkheid om waarden altijd leidend te laten zijn, wordt dat gezien als een belangrijk signaal. Het hoeft geen beschuldiging te zijn, maar het laat zien dat de spanning tussen innovatie en voorzichtigheid reëel is.

Voor investeerders is dit relevant. De waardering van AI-bedrijven is gebaseerd op groeiverwachtingen, schaalbaarheid en vertrouwen. Reputatieschade, strengere regelgeving of veiligheidsincidenten kunnen direct invloed hebben op kosten en marktpositie. Een sterke safetystructuur is daarom niet alleen een morele kwestie, maar ook een vorm van risicobeheer.

Wat betekent dit voor beleggers en beleidsmakers

Voor beleggers in AI-gerelateerde bedrijven is dit een herinnering dat technologische voorsprong niet het enige criterium is. Bestuur, bedrijfscultuur en risicobeheersing spelen een steeds grotere rol in waarderingen. ESG-criteria, die eerder vooral gericht waren op klimaat en arbeidsomstandigheden, verschuiven steeds meer richting digitale verantwoordelijkheid en AI-ethiek.

Bedrijven die kunnen aantonen dat hun safetyteams onafhankelijk werken, dat risico’s transparant worden gerapporteerd en dat maatregelen daadwerkelijk worden uitgevoerd, zullen waarschijnlijk profiteren van meer vertrouwen. Signalen van interne spanningen of principiële vertrekken kunnen juist invloed hebben op het sentiment rond een bedrijf.

Voor beleidsmakers benadrukt dit het belang van externe controle. Zelfregulering kent grenzen, zeker wanneer commerciële belangen groot zijn. Transparante audits, verplichte rapportages en duidelijke aansprakelijkheidsregels kunnen helpen om de kloof tussen technologische capaciteit en wijsheid te verkleinen.

Tegelijk is het te eenvoudig om elk vertrek te zien als bewijs van falend beleid. Persoonlijke motieven spelen altijd een rol. Zijn wens om zich te richten op poëzie en moedige spraak wijst ook op een persoonlijke zoektocht die verder gaat dan de strategie van één bedrijf.

Wat overblijft, is een sector op een belangrijk moment. De technologische mogelijkheden groeien snel, terwijl morele en institutionele kaders nog in ontwikkeling zijn. Dat een sleutelfiguur uit het safety-domein kiest voor een pad buiten de techindustrie en daarbij oproept tot integriteit en wijsheid, nodigt uit tot reflectie.

De centrale vraag is niet alleen hoe krachtig de volgende generatie modellen zal zijn, maar ook wie de morele richting bepaalt wanneer de druk toeneemt. In de komende maanden zal duidelijk worden hoe bedrijven als Anthropic hun safetystructuur verder vormgeven en welk signaal dat afgeeft aan de markt, toezichthouders en een publiek dat steeds beter begrijpt wat er op het spel staat.