Selbsthosting von LLMs auf eigener Hardware

Plane, deploye und betreibe LLM-Inferenz on-premises: reproduzierbar, sicher, kostenkontrolliert.

3 Tage

Grundlagen

Termine anzeigen

Die wichtigsten Themen

Hardware sizing mit VRAM-Formeln

vLLM, TGI oder llama.cpp wählen

OpenAI-kompatible API betreiben

Quantisierung sicher bewerten

Security gegen Prompt Injection

Monitoring: Tokens/s, P95-Latenz

4.9 von 5 Sternen 500+ Google Bewertungen

28 Jahre Erfahrung Zufriedenheit. Garantiert.

5.0 / 5 Sternen 1879 Gesamtbewertungen

Zahlreiche Termine Kontinuierlich geplant

Überblick

Du willst LLMs nicht über externe APIs betreiben, sondern auf eigener Hardware mit voller Datenkontrolle? In diesem Seminar baust du einen praxistauglichen On-Prem-Inferenz-Stack: von Hardware-Sizing und Modellwahl über Deployment mit Docker oder Kubernetes bis zu Security, Monitoring und stabilem Betrieb. Du lernst, wie Quantisierung, Kontextlänge, KV-Cache und Batching deine VRAM- und Latenzbudgets bestimmen und wie du Tokens/s und P95-Latenz sauber misst. Außerdem richtest du OpenAI-kompatible Endpoints ein, planst Rollouts und etablierst Runbooks für Updates und Incidents. Optional ergänzt du den Stack um RAG, damit internes Wissen sicher und nachvollziehbar nutzbar wird.

Wer hier richtig ist

IT-Administratoren und Platform Engineers, die On-Prem-Services betreiben
ML Engineers und MLOps Engineers mit Inferenz-Verantwortung
DevOps Engineers, die Container und Kubernetes betreuen
Security Engineers, die Datenabfluss und Zugriff absichern
Für alle, die LLMs ohne externe API-Abhängigkeit produktiv nutzen wollen

Das lernst du

Du kannst LLM-Inferenz auf eigener Hardware dimensionieren und begründen.
Du kannst einen Serving-Stack deployen, versionieren und sicher betreiben.
Du kannst Performance messen, Bottlenecks finden und Kapazität planen.
Du kannst Security- und Governance-Maßnahmen gegen typische LLM-Risiken umsetzen.

Die Themen Architektur & Entscheidungsgrundlagen Use Cases, Datenklassen, Compliance-Treiber · Inferenz-Stack: Runtime, Model-Format, Serving · GPU vs. CPU, VRAM-Budget, Throughput-Latenz · Make-or-buy: Cloud, Hybrid, On-Prem...

Architektur & Entscheidungsgrundlagen
- Use Cases, Datenklassen, Compliance-Treiber
- Inferenz-Stack: Runtime, Model-Format, Serving
- GPU vs. CPU, VRAM-Budget, Throughput-Latenz
- Make-or-buy: Cloud, Hybrid, On-Prem
Hardware sizing ohne Rätselraten
- VRAM-Kalkulation: Parameter, Quantisierung, KV-Cache
- Batching, Kontextlänge, Parallelität
- Storage, RAM, PCIe, Netzwerk, Kühlung
- Messgrößen: Tokens/s, P95-Latenz, Auslastung
Modelle & Formate für Self-Hosting
- GGUF, safetensors, Container-Images
- Quantisierung (z.B. 4-bit/8-bit) und Qualitätschecks
- Prompt-Templates, System Prompts, Tool-Use
- Modellwahl nach Sprache, Kontext, Lizenz
Serving & Deployment
- vLLM, llama.cpp, Text Generation Inference (TGI)
- Docker/Compose und Kubernetes-Grundmuster
- Rolling Updates, Canary, Versionierung
- API-Design: OpenAI-kompatible Endpoints
Sicherheit, Zugriff & Datenkontrolle
- Netzwerksegmentierung, Zero-Trust-Bausteine
- AuthN/AuthZ, Secrets, TLS, Audit Logs
- Prompt Injection: Risiken und Gegenmaßnahmen
- Data Residency, Protokollierung, Aufbewahrung
Beobachtbarkeit & Betrieb
- Monitoring: GPU/CPU, VRAM, Queue, Errors
- Tracing für Latenz und Bottlenecks
- Kapazitätsplanung und Kosten pro 1.000 Tokens
- Runbooks: Incident, Rollback, Notfallplan
RAG als produktionsnahes Add-on
- Chunking, Embeddings, Vektordatenbank-Optionen
- Retrieval-Qualität messen (Recall, Faithfulness)
- Guardrails: Quellenpflicht, Zitieren, Policies
- Offline-Indexing und Update-Strategien

So arbeiten wir

Kurze Theorie-Impulse mit klaren Entscheidungsregeln
Geführte Hands-on-Übungen in bereitgestellten Umgebungen
Checklisten, Mess- und Troubleshooting-Playbooks für den Betrieb
Diskussion typischer On-Prem-Constraints und Best Practices

Empfohlene Vorkenntnisse

Grundkenntnisse in Linux und Container-Konzepten (Docker-Grundbegriffe)
Hilfreich: Basiswissen zu GPUs und Netzwerken, aber nicht zwingend

Dein Fahrplan

Use Cases, Datenklassen, Ziel-Latenz und Durchsatz definieren. Modellformate und Lizenzaspekte einordnen. Entscheidung Cloud vs. Hybrid vs. On-Prem begründen.

Organisatorisches

Lernformate

Unsere Seminare bieten dir maximale Flexibilität: Du kannst zwischen Live-Online und Vor Ort in unseren modernen Schulungszentren im D-A-CH Raum wählen. Beide Formate garantieren dir die gleiche hohe Qualität und interaktive Lernerfahrung.

Schulungsarten

Wir bieten dir verschiedene Schulungsarten: Offene Seminare, Firmenseminare für Teams und Inhouse-Schulungen direkt bei dir vor Ort. So findest du genau das Format, das zu deinen Bedürfnissen passt.

Uhrzeiten

9:00-16:00 Uhr

Aktuelle Software

In unseren offenen Kursen arbeiten wir mit der aktuellsten Software-Version. So lernst du direkt mit den Tools und Features, die du auch in deinem Arbeitsalltag verwendest - praxisnah und zukunftsorientiert. Bei Inhouse- und Firmenschulungen bestimmt ihr die Version.

Deine Vorteile

Zufriedenheitsgarantie

Wir sind von unserer Qualität überzeugt. Sollte ein Training einmal nicht deinen Erwartungen entsprechen, bieten wir dir an, den Kurs kostenlos zu wiederholen oder ein anderes Training zu besuchen. Ohne Risiko, ohne Diskussion.

Inklusivleistungen

Deine Teilnahme beinhaltet: Schulungsmaterial, Zertifikat, Verpflegung (bei Präsenzveranstaltungen) und persönliche Betreuung durch unsere Trainer und unser Orga-Team. Alles aus einer Hand - keine versteckten Kosten.

Lernen von Experten

Unsere Trainer sind zertifizierte und erfahrene Profis mit jahrelanger Berufserfahrung. Sie vermitteln dir in den Kursen nicht nur theoretisches Wissen, sondern teilen ihre Erfahrungen aus realen Projekten und helfen dir, das Gelernte direkt in deiner täglichen Arbeit anzuwenden. Das ist kein Werbeversprechen, sondern unser Anspruch. Am besten siehst du das in unseren Bewertungen, z.B. auch bei Google.

Keine Vorkasse

Du zahlst erst nach dem Seminar. Keine Vorkasse, keine Vorauszahlung - so kannst du sicher sein, dass du nur für das bezahlst, was du auch wirklich erhalten hast. Die Rechnung erhälst du erst nach Kursbeginn.

Max. 8 Teilnehmende

Wir setzen auf kleine Gruppen, damit jeder Teilnehmer die Aufmerksamkeit bekommt, die er verdient. So haben wir mehr Zeit für deine individuellen Fragen und können gezielt auf deine Bedürfnisse eingehen.

Termine & Buchung

Vor Ort

Standardpreis: 1.190,00 € netto (1.416,10 € brutto)

04. - 06.05.2026

München

Buchen

10. - 12.08.2026

München

Buchen

09. - 11.11.2026

München

Buchen

Online

Standardpreis: 1.190,00 € netto (1.416,10 € brutto)

04. - 06.05.2026

10. - 12.08.2026

09. - 11.11.2026

Der passende Termin ist nicht dabei? Kontaktiere uns - wir finden die passende Lösung

Inhouse-Schulungen & Firmenseminare

Inhouse-Schulungen

Buche diese Schulung als maßgeschneiderte Inhouse-Schulung für dein Unternehmen oder deine Behörde. Unsere Trainer kommen zu dir und führen die Schulung in deinen Räumlichkeiten durch.

Vorteile:

Maßgeschneiderte Inhalte für dein Unternehmen
Flexible Terminplanung nach euren Bedürfnissen
Kosteneffizient bei mehreren Teilnehmern
Schulung in vertrauter Umgebung
Fokus auf deine spezifischen Anforderungen

Inhouse-Schulung anfragen

Firmen-Seminare

Firmen-Seminare finden an einem unserer Schulungsstandorte statt, sind aber maßgeschneidert für dich und exklusiv für dein Team. Sie können auch online stattfinden.

Ideal für:

Geschlossene Gruppen aus einem Unternehmen / Behörde
Individuelle Terminplanung für dein Team
An unseren Schulungsstandorten oder Online
Angepasste Inhalte für deine Anforderungen

Firmen-Seminar anfragen

Offenes Seminar

Buche einen festen Termin aus unserem Seminarprogramm. Diese Seminare finden an unseren Standorten oder Online statt und sind für alle Teilnehmer offen.

Vorteile:

Feste Termine im Voraus planbar
An unseren Standorten oder Online verfügbar
Netzwerken mit Teilnehmern aus verschiedenen Unternehmen
Direkte Buchung mit festem Termin

Termine ansehen

Fragen und Antworten zu Selbsthosting von LLMs auf eigener Hardware

Brauche ich eine GPU, um am Seminar teilzunehmen?

Nein. Die benötigte Umgebung wird bereitgestellt. Du lernst die Sizing-Logik und siehst praxisnahe Setups, ohne eigene Hardware mitzubringen.

Welche Serving-Software wird verwendet?

Du lernst die Stärken und Grenzen von vLLM, llama.cpp und Text Generation Inference (TGI) kennen und setzt mindestens eine Variante praktisch um.

Geht es um Training oder Fine-Tuning?

Der Schwerpunkt liegt auf Inferenz, Deployment und Betrieb. Fine-Tuning wird nur eingeordnet, wenn es für Modellwahl und Governance relevant ist.

Wird auch RAG behandelt?

Ja, als optionales Add-on: Chunking, Embeddings, Retrieval-Qualität und Guardrails, damit internes Wissen kontrolliert nutzbar wird.

Kann ich das Gelernte auf Kubernetes übertragen?

Ja. Du bekommst Deployment-Muster, die sowohl mit Docker/Compose als auch mit Kubernetes-Ansätzen funktionieren, inklusive Rollouts und Observability.

Weitere häufig gestellte Fragen und Antworten findest du in den FAQs .

Unser Qualitätsversprechen: Wissen, das in der Praxis funktioniert

Aus der Praxis für die Praxis

Schluss mit theoretischem Ballast. Wir trainieren dich für reale IT-Herausforderungen, nicht für Multiple-Choice-Tests. Unsere Trainer vermitteln dir genau das Wissen, das am nächsten Montagmorgen im Job wirklich funktioniert.

Individuell statt "Schema F"

Deine Fragen passen nicht ins Standard-Skript? Bei uns schon. Wir verzichten auf starre Lehrpläne und geben deinen konkreten Projekt-Fragen Raum. Unsere Trainer passen die Inhalte flexibel an das an, was dich und dein Team aktuell weiterbringt.

Maximale Freiheit: Remote oder vor Ort

Lerne so, wie es in deinen Alltag passt - ohne Reise-Stress und Zeitverlust. Egal ob remote, hybrid oder präsent vor Ort: Wir garantieren dir ein nahtloses und effektives Lernerlebnis, egal von wo du dich zuschaltest.

Mit Zufriedenheitsgarantie

Wir sind von unserer Qualität überzeugt - und wollen, dass du es auch bist. Sollte ein Training einmal nicht deinen Erwartungen entsprechen, bieten wir dir an, den Kurs kostenlos zu wiederholen oder ein anderes Training zu besuchen. Ohne Risiko, ohne Diskussion.

Über 20.000 Unternehmen und Behörden vertrauen auf uns

Alle Referenzen

Präsenz:

04. - 06.05.2026 in München

Online:

04. - 06.05.2026

ab 1.190 €

zzgl. 19% MwSt.

Termine ansehen Inhouse Firmenseminar

Selbsthosting von LLMs auf eigener Hardware

Plane, deploye und betreibe LLM-Inferenz on-premises: reproduzierbar, sicher, kostenkontrolliert.