Onderzoek

Google Aletheia lost vier Erdős-vermoedens autonoom op

· 7 min leestijd

Er is een paper verschenen die voor een klein publiek enorm groot nieuws is. Google DeepMind publiceerde in februari 2026 het onderzoek achter Aletheia, een wiskundige research-agent die autonoom vier open problemen uit Bloom's Erdős Conjectures Database heeft opgelost. Niet met symbolische manipulatie op een whiteboard, maar door zelf hypotheses te genereren, bewijspogingen uit te voeren en daar verifieerbare resultaten uit te halen. Dat lijkt een niche, maar het zegt iets belangrijks over waar AI-onderzoek nu staat, en waar het de komende jaren heen gaat.

Wat is een Erdős-vermoeden precies

Paul Erdős, de Hongaarse wiskundige die stierf in 1996, staat bekend om zijn ongewoon grote productiviteit (meer dan 1500 papers met honderden coauteurs) en om zijn gewoonte kleine geldprijzen uit te loven voor wie bepaalde problemen oploste. Veel van die problemen zijn nog steeds open. Thomas Bloom onderhoudt een database met honderden van die vermoedens, en die database fungeert nu als een soort benchmark voor hoe goed AI-systemen daadwerkelijk wiskunde kunnen doen.

Het verschil met bekende benchmarks als MATH of AIME is fundamenteel. Die tests hebben een bekend antwoord en een bekend oplossingspad. Erdős-problemen zijn open, er is per definitie geen bekende oplossing. Een model dat er een vindt, heeft niet memoriseerwerk gedaan, het heeft iets nieuws toegevoegd aan de wiskunde.

Wat Aletheia precies doet

Aletheia is gebouwd op een uitgebreide versie van Gemini Deep Think en combineert drie dingen die elk op zichzelf niet nieuw zijn, maar samen wel:

  1. Iteratief bewijzen. Het model genereert een kandidaat-bewijs, probeert het te verifiëren via formele tools en reviseert bij fouten. Dat is een loop die pas werkt als de verificatie betrouwbaar genoeg is om echte fouten van false positives te scheiden.
  2. Inference-time scaling. Waar andere modellen hun beste shot in één pass geven, schaalt Aletheia de hoeveelheid compute die het besteedt aan een probleem tot ver voorbij wat zinvol is voor Olympiade-taken. Sommige bewijzen kosten urenlang inferenceren.
  3. Tool use. Het agent roept computer algebra systems, literatuur-zoek APIs en formele bewijs-assistenten aan om tussentijdse resultaten te checken. Dat haalt het model uit de pure language-generation-mode.

Van de 700 onderzochte problemen markeerde de database er 13 als "Open". Vier daarvan loste Aletheia op met wat de onderzoekers schijnbaar nieuwe autonome oplossingen noemen. Negen andere bleken al opgelost in bestaande literatuur die het agent zelf terugvond. Dat is ook waardevol, want het betekent dat het systeem existing work kan herkennen en linken.

Waarom dit bredere implicaties heeft

Wiskunde is niet zomaar een domein. Het is een van de weinige velden waar resultaten binair verifieerbaar zijn. Een bewijs klopt of klopt niet. Dat maakt het een ideaal testterrein voor AI-systemen die zichzelf moeten kunnen corrigeren. In natuurlijke taal is hallucineren lastig te detecteren, in wiskunde valt een fout direct op.

Dit is dezelfde reden dat nieuwere frontier modellen zo goed scoren op reasoning-tasks met verifieerbare outputs. Wat Aletheia laat zien is dat de techniek om autonoom door verifiërbare problemen heen te ploegen, al bruikbaar is voor onopgeloste vragen, niet alleen voor herhalingen van bekende oefenstof.

De kanttekening die je niet mag missen

De onderzoekers zijn eerlijk over de beperkingen. Van alle bekeken oplossingen was 31,5 procent technisch correct onder een redelijke interpretatie van de vraag. Slechts 6,5 procent was betekenisvol correct, in de zin dat het daadwerkelijk het probleem oploste zoals Erdős het bedoeld had.

Dat verschil is fundamenteel. Een model kan een vraag technisch goed beantwoorden door hem te herformuleren tot iets triviaals. Dat is geen wiskunde doen, dat is de vraag ontduiken. Voor echte wetenschappelijke vooruitgang is alleen die 6,5 procent bruikbaar, en dat is nog steeds laag. Maar, en dit is cruciaal, het is wel meer dan nul, en het schaalt.

Wat dit betekent voor de rest van de wetenschap

Wiskunde is vaak de eerste discipline waar nieuwe AI-technieken werken. Natuurkunde, chemie en biologie hebben ruimere marges voor interpretatie en slechtere verificatie-paden, waardoor autonome hypothese-generatie daar risicovoller is. Toch zie je in parallelle papers vergelijkbare stappen in biologie en materials science.

Het Aletheia-paper past in een patroon waarbij AI-systemen in toenemende mate als autonome agents worden ingezet voor taken waar menselijk toezicht tot nu toe een bottleneck was. Voor wetenschappelijk onderzoek betekent dat een verschuiving van AI als hulpmiddel naar AI als junior onderzoeker. Een junior die nog steeds door een senior moet worden gereviewed, maar die wel zelfstandig hypotheses kan testen die anders op de plank zouden blijven liggen.

Wat nog mist

Wat Aletheia niet doet, is kiezen welke problemen belangrijk zijn. Het krijgt een database voorgeschoteld en werkt die systematisch af. De creatieve sprong, het besef dat probleem X gerelateerd is aan probleem Y op een manier die niemand eerder zag, is nog menselijk werk. Dat is wat Terence Tao "het smaakprobleem" noemt, en AI heeft daar voorlopig nog geen goed antwoord op.

Ook is reproduceerbaarheid nog een open vraag. Het paper beschrijft vier oplossingen, maar voor wiskundigen om dat te beoordelen moeten die bewijzen door peer review. Dat proces loopt nu. Binnen een jaar weten we of de claims standhouden of dat een deel onder nadere inspectie alsnog gaten vertoont.

De droom die ineens tastbaar is

Voor wie al decennia volgt hoe AI zich verhoudt tot wiskunde, is dit een moment. Niet omdat het probleem is opgelost, maar omdat de richting nu onmiskenbaar is. Autonome wetenschappelijke ontdekking was lange tijd sciencefiction. Met Aletheia op tafel is het een lopend onderzoeksproject met meetbare resultaten.

Dat de hitrate nog laag is, doet er op de lange termijn minder toe dan dat de curve omhoog gaat. De vraag voor de komende jaren is niet of AI wiskunde kan doen, maar hoe snel het niveau stijgt, en wat dat betekent voor hoe we wetenschap organiseren, financieren en beoordelen.

Michael Groeneweg
Geschreven door Michael Groeneweg AI-consultant bij Digital Impact en oprichter van UnicornAI.nl

Michael is AI-consultant bij Digital Impact in Rotterdam en oprichter van UnicornAI.nl, waar hij AI-oplossingen en SaaS-integraties bouwt voor bedrijven. Al tien jaar ondernemer, en sinds een paar jaar weigert hij iets te doen waar geen AI in verweven zit, zakelijk noch prive, tot mild ongenoegen van zijn omgeving. Zijn reizen door de wereld zijn inmiddels een serie experimenten in wat AI wel en niet kan vanaf een terrasje in Lissabon of een treinstation in Tokio. Hij test obsessief nieuwe tools, bouwt oplossingen voor klanten, en vindt dat niemand de hype moet geloven, maar ook niemand meer kan doen alsof AI niet alles verandert. Houdt van goede koffie, lange vluchten en mensen die met AI bouwen in plaats van er alleen over praten.