Linux Administration für KI-Workloads mit GPUs

Treiber, CUDA-Stack, Performance und stabile Deployments für Training und Inference

3 Tage

Aufbau

Termine anzeigen

Autorisierter Partner

Die wichtigsten Themen

NVIDIA-Treiber sauber versionieren

CUDA, cuDNN, NCCL richtig koppeln

GPU-Container stabil betreiben

cgroups v2 und Limits anwenden

NUMA und Topologie verstehen

Storage und Netzwerk optimieren

4.9 von 5 Sternen 500+ Google Bewertungen

28 Jahre Erfahrung Zufriedenheit. Garantiert.

5.0 / 5 Sternen 1875 Gesamtbewertungen

Zahlreiche Termine Kontinuierlich geplant

Überblick

Dieses Advanced-Seminar zeigt Dir, wie Du Linux-Systeme für KI-Workloads mit GPUs zuverlässig betreibst: vom passenden NVIDIA-Treiber über den CUDA-Stack bis zur Container-Laufzeit. Du lernst, wie Du Versionen sauber pinnen, Kernel-Updates ohne böse Überraschungen planen und typische Fehlerbilder wie „CUDA driver too old“ systematisch beheben kannst. Dazu kommen Performance-Themen, die in Training und Inference wirklich zählen: NUMA-Affinität, Storage-Durchsatz, Shared Memory, Power- und Thermal-Limits sowie Monitoring-Ansätze mit Log- und Metrikpfaden. Am Ende hast Du ein praxistaugliches Referenz-Setup, eine Abnahmecheckliste und Runbooks, mit denen GPU-Server im Mehrbenutzerbetrieb stabil, reproduzierbar und wartbar bleiben.

Wer hier richtig ist

Linux-Administratorinnen und Linux-Administratoren mit Betriebsverantwortung für GPU-Server
DevOps- und Platform-Engineers, die KI-Workloads containerisiert ausrollen
ML-Engineers und MLOps-Verantwortliche mit Bedarf an stabilem Infrastruktur-Setup
IT-Betrieb und SRE-Teams, die Training und Inference absichern
Für alle, die GPU-Workloads unter Linux reproduzierbar, performant und wartbar betreiben wollen

Das lernst du

Du kannst einen stabilen NVIDIA-Treiber- und CUDA-Stack unter Linux aufsetzen und versioniert betreiben.
Du kannst GPU-Workloads in Containern zuverlässig ausführen und typische Fehlerbilder systematisch beheben.
Du kannst Performance-Bottlenecks (NUMA, IO, Netzwerk, Limits) identifizieren und mit konkreten Maßnahmen verbessern.
Du erstellst Checklisten und Runbooks für Abnahme, Updates und Incident-Handling.

Die Themen GPU-Stack unter Linux stabil aufsetzen NVIDIA-Treiber: Versionierung, DKMS, Secure Boot, Kernel-Updates · CUDA, cuDNN, NCCL: Kompatibilität und typische Fallstricke...

GPU-Stack unter Linux stabil aufsetzen
- NVIDIA-Treiber: Versionierung, DKMS, Secure Boot, Kernel-Updates
- CUDA, cuDNN, NCCL: Kompatibilität und typische Fallstricke
- Multi-GPU-Grundlagen: Topologie, PCIe, NVLink, NUMA
- Validierung: nvidia-smi, Persistenced, Smoke-Tests
Container für KI: Docker, NVIDIA Container Toolkit
- GPU in Containern: Runtime, Device-Plugin-Logik, Berechtigungen
- Images reproduzierbar bauen: Base-Images, Pinning, SBOM-Idee
- Fehlerbilder: „CUDA driver too old“, fehlende Libs, Mount-Probleme
- Best Practices für Training vs. Inference
Ressourcen, Scheduling und Isolation
- cgroups v2: CPU, RAM, IO und GPU-Device-Zugriff
- MIG und GPU-Slicing (Überblick): sinnvolle Einsatzmuster
- Ulimits, Shared Memory, Hugepages: typische KI-Engpässe
- Mehrbenutzerbetrieb: Rechte, Gruppen, Policy-Ansätze
Performance-Tuning für Training und Inference
- Storage-Pfade: NVMe, RAID, Filesystem-Optionen, Dataset-Caching
- Netzwerk: MTU/Jumbo Frames, RDMA-Grundlagen, Latenz-Checks
- CPU-Pinning, NUMA-Affinität, IRQ-Balancing
- Monitoring: GPU-Utilization, Thermals, Power-Limits
Observability, Troubleshooting und Betrieb
- Logs und Metriken: journald, dmesg, DCGM-Ansatz, Exporter-Idee
- Kernel- und Treiber-Debugging: Module, Signaturen, tainted Kernel
- Incident-Playbooks: Rollback, Canary, Wartungsfenster
- Hardening: Updates, Repo-Strategie, minimaler Angriffsvektor
Praxis: Referenz-Setup und Abnahmecheck
- Golden Path: von Bare Metal bis Container-Workload
- Kompatibilitätsmatrix als Betriebsdokument
- Checkliste für Go-Live: Tests, Limits, Monitoring, Backup
- Übergabe an Betrieb: Runbooks und Verantwortlichkeiten

So arbeiten wir

Trainerinput mit klaren Entscheidungsregeln und Praxisbeispielen
Geführte Hands-on-Übungen in bereitgestellten Linux-Umgebungen mit GPU
Troubleshooting-Labs anhand realistischer Fehlerbilder
Erarbeitung von Checklisten, Kompatibilitätsmatrix und Runbooks

Empfohlene Vorkenntnisse

Sichere Linux-Kenntnisse (Shell, Systemdienste, Paketmanagement, Logs)
Grundverständnis von Docker ist hilfreich, aber nicht zwingend

Dein Fahrplan

Treiberstrategie, DKMS, Updatepfade, Validierung und typische Kernel-/Modulfehlerbilder.

Organisatorisches

Lernformate

Unsere Seminare bieten dir maximale Flexibilität: Du kannst zwischen Live-Online und Vor Ort in unseren modernen Schulungszentren im D-A-CH Raum wählen. Beide Formate garantieren dir die gleiche hohe Qualität und interaktive Lernerfahrung.

Schulungsarten

Wir bieten dir verschiedene Schulungsarten: Offene Seminare, Firmenseminare für Teams und Inhouse-Schulungen direkt bei dir vor Ort. So findest du genau das Format, das zu deinen Bedürfnissen passt.

Uhrzeiten

9:00-16:00 Uhr

Aktuelle Software

In unseren offenen Kursen arbeiten wir mit der aktuellsten Software-Version. So lernst du direkt mit den Tools und Features, die du auch in deinem Arbeitsalltag verwendest - praxisnah und zukunftsorientiert. Bei Inhouse- und Firmenschulungen bestimmt ihr die Version.

Deine Vorteile

Zufriedenheitsgarantie

Wir sind von unserer Qualität überzeugt. Sollte ein Training einmal nicht deinen Erwartungen entsprechen, bieten wir dir an, den Kurs kostenlos zu wiederholen oder ein anderes Training zu besuchen. Ohne Risiko, ohne Diskussion.

Inklusivleistungen

Deine Teilnahme beinhaltet: Schulungsmaterial, Zertifikat, Verpflegung (bei Präsenzveranstaltungen) und persönliche Betreuung durch unsere Trainer und unser Orga-Team. Alles aus einer Hand - keine versteckten Kosten.

Lernen von Experten

Unsere Trainer sind zertifizierte und erfahrene Profis mit jahrelanger Berufserfahrung. Sie vermitteln dir in den Kursen nicht nur theoretisches Wissen, sondern teilen ihre Erfahrungen aus realen Projekten und helfen dir, das Gelernte direkt in deiner täglichen Arbeit anzuwenden. Das ist kein Werbeversprechen, sondern unser Anspruch. Am besten siehst du das in unseren Bewertungen, z.B. auch bei Google.

Keine Vorkasse

Du zahlst erst nach dem Seminar. Keine Vorkasse, keine Vorauszahlung - so kannst du sicher sein, dass du nur für das bezahlst, was du auch wirklich erhalten hast. Die Rechnung erhälst du erst nach Kursbeginn.

Max. 8 Teilnehmende

Wir setzen auf kleine Gruppen, damit jeder Teilnehmer die Aufmerksamkeit bekommt, die er verdient. So haben wir mehr Zeit für deine individuellen Fragen und können gezielt auf deine Bedürfnisse eingehen.

Termine & Buchung

Vor Ort

Standardpreis: 1.490,00 € netto (1.773,10 € brutto)

18. - 20.05.2026

München

Buchen

17. - 19.08.2026

München

Buchen

16. - 18.11.2026

München

Buchen

Online

Standardpreis: 1.490,00 € netto (1.773,10 € brutto)

18. - 20.05.2026

17. - 19.08.2026

16. - 18.11.2026

Der passende Termin ist nicht dabei? Kontaktiere uns - wir finden die passende Lösung

Inhouse-Schulungen & Firmenseminare

Inhouse-Schulungen

Buche diese Schulung als maßgeschneiderte Inhouse-Schulung für dein Unternehmen oder deine Behörde. Unsere Trainer kommen zu dir und führen die Schulung in deinen Räumlichkeiten durch.

Vorteile:

Maßgeschneiderte Inhalte für dein Unternehmen
Flexible Terminplanung nach euren Bedürfnissen
Kosteneffizient bei mehreren Teilnehmern
Schulung in vertrauter Umgebung
Fokus auf deine spezifischen Anforderungen

Inhouse-Schulung anfragen

Firmen-Seminare

Firmen-Seminare finden an einem unserer Schulungsstandorte statt, sind aber maßgeschneidert für dich und exklusiv für dein Team. Sie können auch online stattfinden.

Ideal für:

Geschlossene Gruppen aus einem Unternehmen / Behörde
Individuelle Terminplanung für dein Team
An unseren Schulungsstandorten oder Online
Angepasste Inhalte für deine Anforderungen

Firmen-Seminar anfragen

Offenes Seminar

Buche einen festen Termin aus unserem Seminarprogramm. Diese Seminare finden an unseren Standorten oder Online statt und sind für alle Teilnehmer offen.

Vorteile:

Feste Termine im Voraus planbar
An unseren Standorten oder Online verfügbar
Netzwerken mit Teilnehmern aus verschiedenen Unternehmen
Direkte Buchung mit festem Termin

Termine ansehen

Fragen und Antworten zu Linux Administration für KI-Workloads mit GPUs

Brauche ich ein eigenes Notebook oder Lizenzen?

Nein. Geräte, VMs und Software werden Dir bei Bedarf zur Verfügung gestellt.

Ist das Seminar eher für Training oder Inference?

Beides. Du lernst die gemeinsamen Grundlagen und die Unterschiede, die im Betrieb wirklich relevant sind, zum Beispiel Image-Strategie, Ressourcenlimits und Monitoring.

Welche Distribution wird verwendet?

Die Übungen sind so aufgebaut, dass die Konzepte auf gängige Enterprise- und Server-Distributionen übertragbar sind. Die konkrete Übungsumgebung wird im Kurs gestellt.

Wie tief geht es in Kubernetes?

Der Schwerpunkt liegt auf Linux und Container-Runtime. Kubernetes wird nur dort angesprochen, wo es für GPU-Container-Prinzipien und Troubleshooting hilfreich ist.

Weitere häufig gestellte Fragen und Antworten findest du in den FAQs .

Unser Qualitätsversprechen: Wissen, das in der Praxis funktioniert

Aus der Praxis für die Praxis

Schluss mit theoretischem Ballast. Wir trainieren dich für reale IT-Herausforderungen, nicht für Multiple-Choice-Tests. Unsere Trainer vermitteln dir genau das Wissen, das am nächsten Montagmorgen im Job wirklich funktioniert.

Individuell statt "Schema F"

Deine Fragen passen nicht ins Standard-Skript? Bei uns schon. Wir verzichten auf starre Lehrpläne und geben deinen konkreten Projekt-Fragen Raum. Unsere Trainer passen die Inhalte flexibel an das an, was dich und dein Team aktuell weiterbringt.

Maximale Freiheit: Remote oder vor Ort

Lerne so, wie es in deinen Alltag passt - ohne Reise-Stress und Zeitverlust. Egal ob remote, hybrid oder präsent vor Ort: Wir garantieren dir ein nahtloses und effektives Lernerlebnis, egal von wo du dich zuschaltest.

Mit Zufriedenheitsgarantie

Wir sind von unserer Qualität überzeugt - und wollen, dass du es auch bist. Sollte ein Training einmal nicht deinen Erwartungen entsprechen, bieten wir dir an, den Kurs kostenlos zu wiederholen oder ein anderes Training zu besuchen. Ohne Risiko, ohne Diskussion.

Über 20.000 Unternehmen und Behörden vertrauen auf uns

Alle Referenzen

Präsenz:

18. - 20.05.2026 in München

Online:

18. - 20.05.2026

ab 1.490 €

zzgl. 19% MwSt.

Termine ansehen Inhouse Firmenseminar

Linux Administration für KI-Workloads mit GPUs

Treiber, CUDA-Stack, Performance und stabile Deployments für Training und Inference