LLM Self-Hosting und Deployment

Plane, deploye und betreibe LLM-Inferenz on-premises: reproduzierbar, sicher, kostenkontrolliert.

5,0 (2260 Bewertungen)

Die wichtigsten Themen

Hardware-Sizing mit VRAM-Formeln

vLLM, TGI und llama.cpp einordnen

OpenAI-kompatible API betreiben

Quantisierung sicher bewerten

Security gegen Prompt Injection

Monitoring mit Tokens/s und P95

4.9 von 5 Sternen 500+ Google Bewertungen

28 Jahre Erfahrung Zufriedenheit. Garantiert.

5.0 / 5 Sternen 2260 Gesamtbewertungen

Zahlreiche Termine Kontinuierlich geplant

Überblick Du willst LLMs nicht über externe APIs betreiben, sondern auf eigener Hardware mit voller Datenkontrolle? In diesem Seminar baust du einen belastbaren On-Prem-Inferenz-Stack: von Hardware-Sizing und Modellwahl über...

Du willst LLMs nicht über externe APIs betreiben, sondern auf eigener Hardware mit voller Datenkontrolle? In diesem Seminar baust du einen belastbaren On-Prem-Inferenz-Stack: von Hardware-Sizing und Modellwahl über Deployment mit Docker oder Kubernetes bis zu Security, Monitoring und stabilem Betrieb. Für die Architekturentscheidung ordnest du auch ein, wann eine reine On-Prem-Lösung, ein hybrides Modell oder eine Cloud-Anbindung sinnvoll ist. Eine vertiefende Perspektive bietet die KI-Infrastrukturplanung: On-Premise vs. Cloud.

Im Training wird greifbar, wie Quantisierung, Kontextlänge, KV-Cache und Batching deine VRAM- und Latenzbudgets bestimmen und wie Tokens/s, Time to First Token und P95-Latenz sauber gemessen werden. Du richtest OpenAI-kompatible Endpoints ein, vergleichst gängige Serving-Optionen, planst Rollouts und etablierst Runbooks für Updates und Incidents. Optional ergänzt du den Stack um RAG, damit internes Wissen sicher, nachvollziehbar und kontrolliert nutzbar wird. Für diesen Teil passt ergänzend das Seminar Vektordatenbanken für KI Training: Architektur & Praxis.

Die Themen Use Cases und Datenklassen · Compliance-Treiber und Datenresidenz · Runtime, Modellformat und Serving · Cloud, Hybrid und On-Prem · VRAM-Budget und Modellparameter · Quantisierung und KV-Cache...

Architektur und Entscheidungsgrundlagen

Use Cases und Datenklassen
Compliance-Treiber und Datenresidenz
Runtime, Modellformat und Serving
Cloud, Hybrid und On-Prem

Hardware-Sizing und Performance-Mechanik

VRAM-Budget und Modellparameter
Quantisierung und KV-Cache
Kontextlänge, Batching und Parallelität
Tokens/s, TTFT und P95-Latenz
Storage, RAM und Netzwerk

Modelle, Formate und Qualitätsbewertung

GGUF, safetensors und Container-Images
4-bit- und 8-bit-Quantisierung
Prompt-Templates und System Prompts
Tool-Use und Funktionsaufrufe
Sprache, Kontext und Lizenz

Serving und Deployment

vLLM, llama.cpp und TGI
SGLang und TensorRT-LLM einordnen
Docker Compose und Kubernetes-Grundmuster
Rolling Updates und Canary-Releases
OpenAI-kompatible API-Endpunkte

Sicherheit, Zugriff und Governance

Netzwerksegmentierung und Zero Trust
AuthN, AuthZ und Secrets
TLS, Audit Logs und Policies
Prompt-Injection-Risiken und Gegenmaßnahmen
Protokollierung und Aufbewahrung

Beobachtbarkeit und stabiler Betrieb

GPU-, CPU- und VRAM-Monitoring
Queue-Metriken und Fehlerraten
Tracing für Latenz-Bottlenecks
Kosten pro 1.000 Tokens
Incident-, Rollback- und Notfall-Runbooks

RAG als produktionsnahes Add-on

Chunking und Embeddings
Vektordatenbank-Optionen
Recall und Faithfulness messen
Quellenpflicht und Guardrails
Offline-Indexing und Updates

Zielgruppe

IT-Administratoren und Platform Engineers mit Verantwortung für On-Prem-Services
ML Engineers und MLOps Engineers, die LLM-Inferenz produktiv betreiben
DevOps Engineers mit Aufgaben in Containerisierung, Kubernetes und Rollouts
Security Engineers und IT-Architektinnen, die Datenabfluss, Zugriff und Governance absichern

Das lernst du

Belastbares Hardware-Sizing für LLM-Inferenz auf eigener Infrastruktur
Eigenständiges Deployment eines versionierten Serving-Stacks
Sichere Bereitstellung OpenAI-kompatibler API-Endpunkte
Performance-Messung mit Tokens/s, TTFT und P95-Latenz
Erkennen und Beheben typischer Bottlenecks im Betrieb
Umsetzung zentraler Security- und Governance-Maßnahmen gegen LLM-Risiken

So arbeiten wir

Kurze Theorie-Impulse mit nachvollziehbaren Entscheidungsregeln
Geführte Hands-on-Übungen in bereitgestellten Umgebungen
Checklisten, Messverfahren und Troubleshooting-Playbooks für den Betrieb
Diskussion typischer On-Prem-Constraints und Betriebsentscheidungen

Empfohlene Vorkenntnisse

Grundkenntnisse in Linux und Container-Konzepten
Verständnis zentraler Docker-Begriffe wie Image, Container, Volume und Netzwerk
Hilfreich: Basiswissen zu GPUs, Netzwerken und API-Betrieb
Für fehlende Container-Grundlagen empfiehlt sich vorab KI-Apps containerisieren mit Podman, Docker & Kubernetes

Dein Fahrplan

Use Cases, Datenklassen, Compliance-Treiber, Ziel-Latenz und Durchsatz definieren. Modellformate, Lizenzaspekte und Betriebsmodelle einordnen. Entscheidung zwischen Cloud, Hybrid und On-Prem fachlich begründen.

Organisatorisches

Lernformate

Unsere Seminare bieten dir maximale Flexibilität: Du kannst zwischen Live-Online und Vor Ort in unseren modernen Schulungszentren im D-A-CH Raum wählen. Beide Formate garantieren dir die gleiche hohe Qualität und interaktive Lernerfahrung.

Schulungsarten

Wir bieten dir verschiedene Schulungsarten: Offene Seminare, Firmenseminare für Teams und Inhouse-Schulungen direkt bei dir vor Ort. So findest du genau das Format, das zu deinen Bedürfnissen passt.

Uhrzeiten

9:00-16:00 Uhr

Aktuelle Software

In unseren offenen Kursen arbeiten wir mit der aktuellsten Software-Version. So lernst du direkt mit den Tools und Features, die du auch in deinem Arbeitsalltag verwendest - praxisnah und zukunftsorientiert. Bei Inhouse- und Firmenschulungen bestimmt ihr die Version.

Deine Vorteile

Zufriedenheitsgarantie

Wir sind von unserer Qualität überzeugt. Sollte ein Training einmal nicht deinen Erwartungen entsprechen, bieten wir dir an, den Kurs kostenlos zu wiederholen oder ein anderes Training zu besuchen. Ohne Risiko, ohne Diskussion.

Inklusivleistungen

Deine Teilnahme beinhaltet: Schulungsmaterial, Zertifikat, Verpflegung (bei Präsenzveranstaltungen) und persönliche Betreuung durch unsere Trainer und unser Orga-Team. Alles aus einer Hand - keine versteckten Kosten.

Lernen von Experten

Unsere Trainer sind zertifizierte und erfahrene Profis mit jahrelanger Berufserfahrung. Sie vermitteln dir in den Kursen nicht nur theoretisches Wissen, sondern teilen ihre Erfahrungen aus realen Projekten und helfen dir, das Gelernte direkt in deiner täglichen Arbeit anzuwenden. Das ist kein Werbeversprechen, sondern unser Anspruch. Am besten siehst du das in unseren Bewertungen, z.B. auch bei Google.

Keine Vorkasse

Du zahlst erst nach dem Seminar. Keine Vorkasse, keine Vorauszahlung - so kannst du sicher sein, dass du nur für das bezahlst, was du auch wirklich erhalten hast. Die Rechnung erhältst du erst nach Kursbeginn.

Max. 8 Teilnehmende

Wir setzen auf kleine Gruppen, damit du die Aufmerksamkeit bekommst, die du verdienst. So haben wir mehr Zeit für deine individuellen Fragen und können gezielt auf deine Bedürfnisse eingehen.

Termine & Buchung

Vor Ort

Standardpreis: 1.190,00 € netto (1.416,10 € brutto)

09. - 11.11.2026

München

Anfragen Buchen

11. - 13.01.2027

München

Anfragen Buchen

22. - 24.02.2027

München

Anfragen Buchen

19. - 21.04.2027

München

Anfragen Buchen

07. - 09.06.2027

München

Anfragen Buchen

Online

Standardpreis: 1.190,00 € netto (1.416,10 € brutto)

09. - 11.11.2026

11. - 13.01.2027

22. - 24.02.2027

19. - 21.04.2027

07. - 09.06.2027

Nicht der passende Termin dabei?

Wir finden eine Lösung: anderer Termin, mehrere Teilnehmer, Inhouse-Schulung oder individuelle Beratung.

Anfrage stellen

Alle KI-Schulungen in München: Termine, Preise und Anfahrt auf einen Blick

Inhouse & Firmenseminare

Lieber gleich das ganze Team schulen?

Diese Schulung gibt es auch exklusiv für dein Unternehmen, bei euch vor Ort, an unseren Standorten oder Live-Online. Inhalte und Termine nach Maß.

Beliebteste Wahl

Inhouse-Schulung

Wir kommen zu euch: diese Schulung maßgeschneidert in euren Räumen, für Unternehmen und Behörden.

Inhalte exakt auf euch zugeschnitten
Termine nach euren Bedürfnissen
Günstiger ab mehreren Teilnehmern
Vertraute Umgebung, kein Reiseaufwand

Inhouse-Schulung anfragen

Firmen-Seminar

Exklusiv für dein Team an einem unserer Standorte oder Live-Online, individuell angepasst.

Geschlossene Gruppe aus eurem Haus
Individuelle Terminplanung
An unseren Standorten oder Live-Online
Angepasste Inhalte

Firmen-Seminar anfragen

Offenes Seminar

Fester Termin aus unserem Programm, an unseren Standorten oder Live-Online und für alle offen.

Feste Termine, im Voraus planbar
An unseren Standorten oder Live-Online
Austausch mit anderen Unternehmen
Direkte Buchung mit festem Termin

Termine ansehen

Fragen und Antworten zu LLM Self-Hosting und Deployment

Brauche ich eine GPU, um am Seminar teilzunehmen?

Nein. Die benötigte Umgebung wird bereitgestellt. Du lernst die Sizing-Logik und siehst realistische Setups, ohne eigene Hardware mitzubringen.

Welche Serving-Software wird verwendet?

Du lernst die Stärken und Grenzen von vLLM, llama.cpp und Text Generation Inference kennen und setzt mindestens eine Variante praktisch um. Zusätzlich werden weitere Optionen wie SGLang und TensorRT-LLM eingeordnet, damit die Tool-Auswahl zur Infrastruktur passt.

Geht es um Training oder Fine-Tuning?

Der Schwerpunkt liegt auf Inferenz, Deployment und Betrieb. Fine-Tuning wird nur eingeordnet, wenn es für Modellwahl, Datenkontrolle oder Governance relevant ist.

Wird auch RAG behandelt?

Ja, als optionales Add-on: Chunking, Embeddings, Retrieval-Qualität und Guardrails, damit internes Wissen kontrolliert nutzbar wird.

Kann ich das Gelernte auf Kubernetes übertragen?

Ja. Der Kurs behandelt Deployment-Muster, die sowohl mit Docker Compose als auch mit Kubernetes-Ansätzen funktionieren, inklusive Rollouts, Observability und Rollback-Prozessen.

Ist das Seminar für produktive Unternehmensumgebungen geeignet?

Ja. Der Schwerpunkt liegt auf belastbarem Betrieb: Zugriffsschutz, TLS, Secrets, Audit Logs, Monitoring, Kapazitätsplanung und Runbooks. Wenn aus dem Inferenz-Stack später eigene KI-Anwendungen entstehen sollen, passt ergänzend das Backend für KI-Systeme: Python & Node.js Advanced Training.

Weitere häufig gestellte Fragen und Antworten findest du in den FAQs.

Passende Schulungen nach dem Kurs

Unser Qualitätsversprechen: Wissen, das in der Praxis funktioniert

Aus der Praxis für die Praxis

Schluss mit theoretischem Ballast. Wir trainieren dich für reale IT-Herausforderungen, nicht für Multiple-Choice-Tests. Unsere Trainer vermitteln dir genau das Wissen, das am nächsten Montagmorgen im Job wirklich funktioniert.

Individuell statt "Schema F"

Deine Fragen passen nicht ins Standard-Skript? Bei uns schon. Wir verzichten auf starre Lehrpläne und geben deinen konkreten Projekt-Fragen Raum. Unsere Trainer passen die Inhalte flexibel an das an, was dich und dein Team aktuell weiterbringt.

Maximale Freiheit: Remote oder vor Ort

Lerne so, wie es in deinen Alltag passt - ohne Reise-Stress und Zeitverlust. Egal ob remote, hybrid oder präsent vor Ort: Wir garantieren dir ein nahtloses und effektives Lernerlebnis, egal von wo du dich zuschaltest.

Mit Zufriedenheitsgarantie

Wir sind von unserer Qualität überzeugt - und wollen, dass du es auch bist. Sollte ein Training einmal nicht deinen Erwartungen entsprechen, bieten wir dir an, den Kurs kostenlos zu wiederholen oder ein anderes Training zu besuchen. Ohne Risiko, ohne Diskussion.

Über 20.000 Unternehmen und Behörden vertrauen auf uns

Alle Referenzen

Präsenz:

09. - 11.11.2026 in München

Online:

09. - 11.11.2026

ab 1.190 €

zzgl. 19% MwSt.

Termine ansehen Inhouse Firmenseminar

Die wichtigsten Themen

Architektur und Entscheidungsgrundlagen

Hardware-Sizing und Performance-Mechanik

Modelle, Formate und Qualitätsbewertung

Serving und Deployment

Sicherheit, Zugriff und Governance

Beobachtbarkeit und stabiler Betrieb

RAG als produktionsnahes Add-on

Linux Grundkurs (LPI01)

Linux Aufbaukurs: Administration und Systemmanagement (LPI02)

Linux Aufbaukurs: Linux im Netz (LPI04)

Open-Source-LLMs lokal betreiben: Grundkurs

Lernformate

Schulungsarten

Uhrzeiten

Aktuelle Software

Zufriedenheitsgarantie

Inklusivleistungen

Lernen von Experten

Keine Vorkasse

Max. 8 Teilnehmende

Termine & Buchung

Vor Ort

Online

Nicht der passende Termin dabei?

Lieber gleich das ganze Team schulen?

Inhouse-Schulung

Firmen-Seminar

Offenes Seminar

Fragen und Antworten zu LLM Self-Hosting und Deployment

Passende Schulungen nach dem Kurs

Agentic AI betreiben: Architektur. Sicherheit. Betrieb.

LLM Security: Injections erkennen & abwehren

Backend für KI-Systeme: Python & Node.js Advanced Training

Vektordatenbanken und KI Training: Architektur & Praxis

Ähnliche Kurse

KI-Apps containerisieren mit Podman, Docker & Kubernetes

vLLM-Schulung: Open-Source-LLMs bereitstellen

Open-Source LLM Fine-Tuning für Entwickler

Qwen und weitere Alibaba-Modelle: Was lohnt sich?

Mistral-KI Training: Europas LLM-Stack im Einsatz

Unser Qualitätsversprechen: Wissen, das in der Praxis funktioniert

Aus der Praxis für die Praxis

Individuell statt "Schema F"

Maximale Freiheit: Remote oder vor Ort

Mit Zufriedenheitsgarantie

Cookie-Einstellungen

Funktionale Cookies

Analyse-Cookies

Sonstige Cookies