AI-chip met menselijke denkkracht met hiërarchisch redeneermodel reuzenstap dichterbij

vrijdag, 7 november 2025 (20:21) - Reformatorisch Dagblad

In dit artikel:

Singaporiaanse onderzoekers van Sapient hebben een nieuw AI‑ontwerp gepresenteerd — het hiërarchische redeneermodel (HRM) — dat in voorlopige proeven veel beter, sneller en zuiniger presteert dan huidige grote taalmodellen (LLM’s). Hun paper verscheen recent op arXiv (juni 2025) en laat zien dat het HRM bij bepaalde standaardtaken aanzienlijk dichterbij menselijke prestaties komt dan bestaande systemen zoals varianten van ChatGPT, Anthropic’s Claude en het Chinese Deepseek.

In de vergelijkende tests haalt het HRM op een standaardbench uit 2019 ongeveer 40,3 procent van wat het menselijke brein kan, tegen 21,2 procent voor OpenAI’s o3‑mini‑high, 15,8 procent voor Deepseek R1 en 3,7 procent voor Claude. Bij een zwaardere test uit 2025 overtreft het HRM LLM’s met een factor vijf tot vijftien. De auteurs stellen dat dit ontwerp een grote sprong vooruit betekent in richting kunstmatige algemene intelligentie (AGI).

Het belangrijkste verschil zit in de architectuur: in plaats van problemen op te breken in talige tussenstappen (chain‑of‑thought) en die sequentieel te verwerken, gebruikt het HRM twee deelsystemen die parallel werken — een snel subsystem en een trager, controlerend subsystem. Dat bootst naar zeggen van de onderzoekers de manier na waarop verschillende hersengebieden samenwerken: snelle, nauwkeurige schattingen worden continu bijgestuurd door langzamere evaluatie. Daardoor ontstaan één geïntegreerde uitkomst en vermindert het risico op ‘hallucinaties’ die bij LLM’s kunnen optreden.

Ook de efficiëntie is opvallend: het HRM zou volstaan met ongeveer 27 miljoen parameters en training met circa duizend voorbeelden, terwijl moderne LLM’s naar verluidt miljarden tot biljoenen parameters en veel meer data vereisen. Praktische prestaties tonen dat het model perfect sudoku’s oplost en razendsnel de kortste weg door doolhoven vindt — taken waarin taalmodellen nog moeite hebben.

Het artikel is nog geen peer review‑doorlopend werk; de code is echter vrijgegeven en andere AGI‑onderzoekers konden de resultaten reproduceren. Dat vergroot de geloofwaardigheid, maar onafhankelijk oordeel en bredere validatie zijn nog nodig. Als de claims standhouden, kan het HRM zowel de hardware‑ als algoritme‑kant van AGI dichterbij brengen, hoewel vragen over generalisatie, veiligheid en toepasbaarheid in reële omgevingen blijven openstaan.