e ingenieurs die de onzichtbare ruggengraat van AI bouwen — het perspectief van een directeur aan het GPU-front

zaterdag, 7 februari 2026 (17:28) - Mashable NL

In dit artikel:

In San Francisco waarschuwt Srikanta Datta (Director of AI Infrastructure bij Coupang) dat de grootste bottleneck voor bedrijfs‑AI niet de modellen zelf zijn, maar de onderliggende GPU‑infrastructuur en het tekort aan ervaren ingenieurs. Modellen downloaden is relatief eenvoudig; het betrouwbaar, efficiënt, veilig en schaalbaar draaien van die modellen op enterprise‑niveau is dat niet.

Wat gaat er mis?
- Planning en scheduling: conventionele cloud‑schedulers optimaliseren voor CPU en geheugen en negeren GPU‑specifieke beperkingen zoals geheugenbandbreedte, interconnect‑topologie en thermische limieten. Dat leidt tot verspilling van dure hardware of tot crashes.
- Multi‑tenancy: gedeelde GPU‑clusters brengen extra risico’s: prestatie‑interferentie (noisy neighbors), lekken van geheimen en complexere aanvalsvectoren. Echte isolatie op het niveau van GPU‑slices en degelijk secrets‑management zijn cruciaal.
- Betrouwbaarheid voor langlopende workloads: trainingsjobs lopen soms dagen tot weken. Onderhouds‑ en upgradeprocessen moeten hitless zijn; herstarts zijn vaak onacceptabel vanwege tijds‑, geld‑ en reputatieverlies.

Een praktisch evaluatiekader
Datta adviseert bestuurders om leveranciers te toetsen met vier kernvragen die volwassenheid snel blootleggen:
1) Hoe werkt hun multi‑tenancy‑isolatie (kunnen ze uitleggen hoe ze GPU‑slices scheiden)?
2) Welke faalmodi zijn geïdentificeerd en hoe worden die gemitigeerd (bijv. GPU‑uitval, netwerkpartities)?
3) Kunnen ze kosten per workload exact toewijzen en meten (GPU‑economie vereist hoge benutting)?
4) Welke operationele praktijken hebben ze (chaos engineering, on‑call, postmortems)?

Vooruitblik (de komende vijf jaar)
Datta vergelijkt de huidige fase met de cloud in 2008: veel tooling en best practices ontbreken nog. Drie ontwikkelingen zullen winnen bepalen:
- Hardware‑gebaseerde isolatie voor vertrouwelijke multi‑tenant workloads (noodzakelijk voor gereguleerde sectoren).
- Focus op inference‑efficiëntie: trainingkosten zijn relatief vast, maar inference‑kosten schalen met gebruik; platforms die meer inference per GPU‑dollar leveren winnen marktaandeel.
- “Policy‑as‑code” voor AI‑governance: compliance, datalokalisatie, modelherkomst en auditlogs worden geautomatiseerd en afdwingbaar via code.

De schaarste aan expertise
Er zijn wereldwijd maar enkele honderden mensen met echte ervaring in het bouwen van multi‑tenant GPU‑platforms voor productie. De discipline vereist diepe, gecombineerde kennis van planning, netwerken, opslag, beveiliging, orkestratie en operations—kennis die meestal uit jarenlange ervaring met productie‑fouten voortkomt.

Kernboodschap
Succesvolle AI‑implementaties hangen meer af van infrastructuurontwerp, multi‑tenancy, betrouwbaarheid en operationele discipline dan van de keuze van het model. Organisaties moeten infrastructuurvragen centraal stellen bij build/buy‑beslissingen en investeren in ervaren engineers of partners om van prototypes naar productiesystemen te komen.