Het verbeteren van de steekproefstrategie voor de Community Innovation Survey met behulp van machine learning algoritmes

maandag, 30 maart 2026 (15:01) - CBS

In dit artikel:

Statistische bureaus onderzoeken hoe nieuwe datastromen (web-scrapes, social media, sensordata) kunnen bijdragen aan officiële statistieken zonder de risico's van het volledig vervangen van traditionele bronnen. Dit paper beschrijft een aanpak waarbij zulke nieuwe gegevens als hulpinformatie worden ingezet om de steekproefstrategie en weging van de Community Innovation Survey (CIS) te verbeteren, met toepassing op CIS‑data uit 2016. Drie hulpbronnen zijn getest: (1) web‑scraped signalen, met behulp van machine learning om per bedrijf de kans op innovatie te schatten, (2) administratieve gegevens over R&D‑subsidies, en (3) administratieve patentaantallen. Door te wegen naar populatieverdelingen gebaseerd op deze bronnen onderzoekt het onderzoek of en in welke mate enquêteschattingen nauwkeuriger worden en welke bron het meest geschikt is. De studie biedt daarmee praktische inzichten voor het combineren van traditionele enquêtes en nieuwe datatypes, en laat zien hoe hulpgegevens risico’s van directe vervanging kunnen beperken terwijl efficiëntie en kwaliteit van statistieken verbeteren.