Red Hat optimaliseert AI-inferencing op AWS met speciale chips

zondag, 7 december 2025 (09:11) - Dutch IT Channel

In dit artikel:

Red Hat en Amazon Web Services (AWS) gaan samenwerken om generatieve AI-inferencing op grote schaal efficiënter en goedkoper te maken, door Red Hat’s inferentiesoftware te optimaliseren voor de door AWS ontwikkelde AI-chips Inferentia2 en Trainium3. De kern is de Red Hat AI Inference Server — gebouwd op het vLLM-framework — die een gemeenschappelijke inferentielaag moet bieden voor uiteenlopende generatieve modellen en volgens de partners een prijs‑prestatieverbetering van ongeveer 30–40% levert ten opzichte van vergelijkbare GPU‑gebaseerde EC2‑instances.

Voor integratie in bedrijfsomgevingen ontwikkelden Red Hat en AWS een AWS Neuron-operator voor Red Hat OpenShift (inclusief OpenShift AI en OpenShift Service on AWS), zodat klanten AI-workloads met AWS‑accelerators kunnen draaien binnen Red Hat’s Kubernetes‑platform. Ook moet de nieuw uitgebrachte amazon.ai Ansible Certified Collection het orkestreren van AI-diensten op AWS vereenvoudigen.

Beide bedrijven dragen bij aan de open source‑community door een AWS AI‑chip plugin voor vLLM te optimaliseren, wat inference en training breder beschikbaar moet maken. De AWS Neuron community‑operator staat nu in de Red Hat OpenShift OperatorHub; ondersteuning voor AWS AI‑chips in Red Hat AI Inference Server komt naar verwachting in januari 2026 als developer preview.

Deze stap speelt in op de groeiende vraag naar schaalbare, kostenefficiënte inferencing: analist IDC verwacht dat tegen 2027 ongeveer 40% van de organisaties maatwerkchips inzet om prestaties en kosten te verbeteren. Joe Fernandes van Red Hat benadrukte dat de samenwerking organisaties in staat stelt AI‑workloads "met meer efficiëntie en flexibiliteit uit te rollen."

Lees het volledige artikel