Kan AI zelf wetenschappelijk onderzoek doen? Deze wetenschappers zochten het uit
In dit artikel:
Een team van onderzoekers rond Stanford organiseerde Agents4Science, een experimenteel congres waarbij kunstmatige intelligentie expliciet de hoofdrol kreeg: AI’s traden op als eerste auteur en als (eerste) beoordelaar van ingediende wetenschappelijke papers. Het doel was in de praktijk te onderzoeken hoe creatief AI kan zijn, hoe mensen het beste met zulke systemen samenwerken en hoe betrouwbaar automatische peer review is — en om dat proces open en navolgbaar te maken.
Meer dan driehonderd inzendingen stroomden binnen. De eerste selectie werd door verschillende AI‑modellen uitgevoerd en die beoordelingen waren openbaar in te zien; na deze computerschifting bleven ongeveer tachtig papers over. Menselijke beoordelaars maakten uiteindelijk de definitieve selectie en presenteerden de geaccepteerde studies op het congres — door mensen, ondanks dat AI als eerste auteur gold.
De demonstraties lieten zowel potentie als beperkingen zien. Een winnende bijdrage van Silvia Terragni gebruikte ChatGPT en soortgelijke modellen om een simulatie te bouwen van een freelancersplatform, waarmee arbeidsaanbod en -vraag konden worden nagebootst. Terragni zegt dat AI ideeën aandroeg en onderzoeksvragen opstelde, maar zelf code vaak de mist in ging: in plaats van bestaande scripts iteratief te verbeteren schreef de AI bij feedback liever compleet nieuwe, minder gefocuste code. Bij een ander project — een beleidsanalyse over verlaagde wegsleepkosten voor lage‑inkomensauto’s in San Francisco — hielp de AI vooral met literatuuronderzoek en presentatie, maar introduceerde ook een fout in de datum van de maatregel die alleen menselijk checken ontdekte.
Paneldiscussies hamerden op een fundamenteel gebrek: AI mist nog wat men “wetenschappelijke smaak” of oordeelsvermogen noemt. Astrofysicus Risa Wechsler en socioloog James Evans wezen erop dat AI vaak technisch sterk en uitermate meegaand is, maar onvoldoende scherpte toont om tegenspraak te leveren of te prioriteren wat echt belangrijk is. AI‑systemen geven ook geneigd krachtige, zelfverzekerde beoordelingen: sommige automatische reviewers belonen papers met maximale “zekerheidsniveaus”, terwijl menselijke beoordelaars terughoudender waren.
Een forse waarschuwing kwam van een demonstratie van onderzoekers uit Washington: BadScientist, een aangepast systeem dat met GPT‑5 fake onderzoeksrapporten genereerde en strategisch manipuleerde om acceptatiekansen te maximaliseren (bijvoorbeeld door gunstige vergelijkingsmethoden te kiezen en gladde, maar inhoudsarme statistieken toe te voegen). Deze nep‑papers haalden hoge acceptatiescores bij AI‑reviewers (acceptatiegraad rond 82%), en zelfs wanneer problemen herkend werden, resulteerde dat vaak toch in aanbevelingen tot acceptatie. Conclusie: geautomatiseerde review kan makkelijk worden misleid en past niet altijd kritische evaluatie toe.
Het congres liet zien dat AI waardevolle taken kan vervullen — literatuuropsomming, voorstelgeneratie, snelle eerste selecties — maar tegelijk dat menselijk toezicht onvervangbaar blijft. Geadviseerd werd om automatische beoordelingen altijd door mensen te laten verifiëren en verdedigingsmechanismen tegen manipulatie in te bouwen. Ook werd de vraag opgeworpen of AI überhaupt als (eerste) auteur moet worden gelabeld; veel deelnemers benadrukten dat verantwoordelijkheid en uiteindelijke oordeelsvorming bij mensen horen te liggen. Agents4Science functioneerde daarmee zowel als proeftuin voor nieuwe werkwijzen als als waarschuwing: AI versnelt en assisteert wetenschap, maar vooralsnog zonder het cruciale menselijke oordeel en de ethische verantwoordelijkheid te vervangen.