Red Hat släpper AI-server för hybridmoln

Stödjer alla modeller och acceleratorer

Red Hat AI Inference Server, med vLLM och Neural Magic, ger snabbare och mer kostnadseffektiv AI-inferens i hybridmoln

Red Hat, ledande leverantör av lösningar med öppen källkod, lanserar Red Hat AI Inference Server – ett viktigt steg mot att göra generativ AI (gen AI) mer tillgänglig i hybrida molnmiljöer. Den nya företagsklassade inferensserver, en del av Red Hat AI, bygger på det kraftfullla vLLM-communityprojektet och är förstärkt med Neural Magic-teknologier. Detta möjliggör snabbare, mer resurseffektiv och kostnadseffektiv inferens för alla gen AI-modeller, oavsett accelerator eller molnmiljö. Lösningen kan användas fristående eller integrerat med Red Hat Enterprise Linux AI (RHEL AI) och Red Hat OpenShift AI, och gör det enklare för organisationer att skala upp generativ AI i produktion.

Inferens är AI:ns kärna, där förtränade modeller omvandlar data till verklig nytta. Det är den avgörande kontaktytan mot användaren och kräver snabba, exakta svar. I takt med att generativa AI-modeller blir mer komplexa och skalas upp i produktion, riskerar inferensen att bli en flaskhals som pressar hårdvaran, sänker prestandan och ökar kostnaderna. För att frigöra AI:ns fulla potential krävs därför kraftfulla inferensservrar som effektivt hanterar dessa utmaningar.

Red Hat möter dessa utmaningar med Red Hat AI Inference Server, en öppen, högpresterande inferenslösning med avancerade verktyg för modellkomprimering och optimering. Lösningen gör det möjligt för organisationer att leverera snabbare användarupplevelser och ger full frihet i valet av AI-acceleratorer, modeller och IT-miljöer.

vLLM – driver innovationen inom AI-inferens vidare
Red Hat AI Inference Server bygger på det ledande vLLM-projektet från UC Berkeley, lanserat 2023. Det här community-projektet möjliggör högpresterande generativ AI-inferens med stöd för stora inmatningar, multi-GPU-acceleration och kontinuerlig batching.

Med brett stöd för öppna modeller och tidig integration av ledande frontier-modeller, som bland annat DeepSeek, Gemma, Llama, Llama Nemotron, Mistral och Phi, har vLLM etablerat sig som standard för framtidens AI-inferens – en position som förstärks ytterligare genom dess stöd för öppna, företagsanpassade resonemangsmodeller som Llama Nemotron. Allt fler ledande aktörer ansluter sig till vLLM, vilket bekräftar dess nyckelroll i utvecklingen av nästa generations generativa AI.

vLLM:s breda stöd för fritt tillgängliga modeller – i kombination med dess omedelbara integration av ledande spetsmodeller som DeepSeek, Gemma, Llama, Llama Nemotron, Mistral, Phi med flera, samt öppna modeller för avancerad företagsanpassad logik som Llama Nemotron – positionerar det som en de facto-standard för framtida innovation inom AI-inferens. Allt fler ledande leverantörer av spetsmodeller ansluter sig till vLLM, vilket stärker dess avgörande roll i att forma den generativa AI:ns framtid.

Introduktion av Red Hat AI Inference Server
Red Hat AI Inference Server bygger på den banbrytande tekniken i vLLM och förädlar den till en företagsklassad lösning. Den finns tillgänglig som ett fristående containerbaserat paket eller som en integrerad del av både RHEL AI och Red Hat OpenShift AI.

Oavsett miljö ger Red Hat AI Inference Server användare en robust och fullt stödd version av vLLM, tillsammans med:
• Avancerade verktyg för intelligent komprimering av LLM-modeller som kraftigt minskar storleken på både grund- och finjusterade AI-modeller, minimerar resursförbrukningen och bevarar, eller till och med förbättrar, modellens noggrannhet.
• Optimerat modellarkiv via Red Hat AI på Hugging Face med direkt åtkomst till validerade modeller för inferens, som ökar effektiviteten 2–4x utan att tumma på noggrannheten.
• Red Hats företagssupport och decennier av expertis i att omsätta communityprojekt till stabila produktionslösningar.
• Tredjepartsstöd för ökad flexibilitet i driftsättningen, vilket gör att Red Hat AI Inference Server kan köras på icke- Red Hat Linux- och Kubernetesplattformar, i enlighet med Red Hat:s policy för tredjepartsstöd.

Red Hats vision: Alla modeller, alla acceleratorer, alla moln
AI:s framtid bör präglas av obegränsade möjligheter, inte hämmas av infrastruktursilos. Red Hat ser en framtid där organisationer kan använda valfri modell, på vilken accelerator som helst, i vilket moln som helst – och samtidigt leverera en konsekvent, högkvalitativ användarupplevelse utan orimligt höga kostnader. För att realisera den fulla potentialen i generativ AI krävs en universell inferensplattform – en standard för sömlös och kraftfull AI-innovation, både idag och i framtiden.

Precis som Red Hat en gång gjorde Linux till grunden för modern IT, är företaget nu redo att forma framtidens AI-inferens. vLLM har potential att bli standarden för generativ AI-inferens, och Red Hat bygger nu ett starkt ekosystem kring både vLLM-communityn och llm-d för distribuerad inferens i stor skala. Visionen är tydlig: oavsett modell, accelerator eller miljö ska vLLM bli den öppna standarden för inferens i hybridmolnet.

- Inferens är platsen där generativ AI verkligen levererar, där användarinteraktioner besvaras med snabba och träffsäkra svar från modellen. Men det måste ske på ett effektivt och kostnadseffektivt sätt. Red Hat AI Inference Server är utvecklad för att möta kraven på hög prestanda och responsivitet i stor skala, samtidigt som resursanvändningen hålls nere. Den fungerar som ett gemensamt inferenslager som stödjer alla modeller, på alla acceleratorer, i vilken miljö som helst, säger Joe Fernandes, vice president och general manager, AI Business Unit på Red Hat.

2025-05-21 - Industritorget