Linux Administration für KI-Workloads mit GPUs
Linux Schulungen

Linux Administration für KI-Workloads mit GPUs

Treiber, CUDA-Stack, Performance und stabile Deployments für Training und Inference im Betrieb

Die wichtigsten Themen

NVIDIA-Treiber versionieren

CUDA, cuDNN, NCCL koppeln

GPU-Container stabil betreiben

cgroups v2 und Limits anwenden

NUMA und Topologie einordnen

Monitoring und Runbooks aufbauen

Überblick Dieses Advanced-Seminar zeigt dir, wie Linux-Systeme für KI-Workloads mit GPUs zuverlässig betrieben werden: vom passenden NVIDIA-Treiber über den CUDA-Stack bis zur Container-Laufzeit. Im Mittelpunkt stehen...

Dieses Advanced-Seminar zeigt dir, wie Linux-Systeme für KI-Workloads mit GPUs zuverlässig betrieben werden: vom passenden NVIDIA-Treiber über den CUDA-Stack bis zur Container-Laufzeit. Im Mittelpunkt stehen Entscheidungen, die im Betrieb spürbare Folgen haben: Versionen sauber pinnen, Kernel-Updates kontrolliert planen und typische Fehlerbilder wie „CUDA driver too old“ systematisch eingrenzen.

Dazu kommen Performance-Themen, die bei Training und Inference unmittelbar zählen: NUMA-Affinität, Storage-Durchsatz, Shared Memory, Power- und Thermal-Limits sowie Monitoring über Log- und Metrikpfade. Wer Docker-Grundlagen auffrischen möchte, findet mit dem Docker Grundkurs eine passende Vorbereitung. Für tiefere Systemoptimierung schließt der Linux Systemanpassungen Deep Dive fachlich an.

Am Ende steht ein praxistaugliches Referenz-Setup mit Abnahmecheckliste und Runbooks, damit GPU-Server im Mehrbenutzerbetrieb stabil, reproduzierbar und wartbar bleiben.

Die Themen NVIDIA-Treiber und Versionierung · DKMS, Secure Boot, Kernel-Updates · CUDA, cuDNN und NCCL-Kompatibilität · nvidia-smi, Persistenced, Smoke-Tests · Docker und NVIDIA Container Toolkit · CDI für GPU-Device-Zugriff...

GPU-Stack unter Linux

  • NVIDIA-Treiber und Versionierung
  • DKMS, Secure Boot, Kernel-Updates
  • CUDA, cuDNN und NCCL-Kompatibilität
  • nvidia-smi, Persistenced, Smoke-Tests

Container-Laufzeiten für KI-Workloads

  • Docker und NVIDIA Container Toolkit
  • CDI für GPU-Device-Zugriff
  • Reproduzierbare Images und Base-Images
  • Pinning, SBOM-Idee, Library-Mismatches
  • Training- und Inference-Betrieb

Ressourcensteuerung und Isolation

  • cgroups v2 für CPU, RAM, IO
  • GPU-Device-Zugriff und Berechtigungen
  • MIG und GPU-Slicing im Überblick
  • Ulimits, Shared Memory, Hugepages
  • Mehrbenutzerbetrieb und Policy-Ansätze

Performance-Tuning für GPU-Server

  • NVMe, RAID und Filesystem-Optionen
  • Dataset-Caching und Storage-Durchsatz
  • MTU, Jumbo Frames, RDMA-Grundlagen
  • CPU-Pinning und NUMA-Affinität
  • IRQ-Balancing und Latenz-Checks

Observability und Troubleshooting

  • journald, dmesg und Modul-Logs
  • DCGM und DCGM Exporter
  • GPU-Utilization, Thermals, Power-Limits
  • Signaturen und tainted Kernel
  • Rollback, Canary, Wartungsfenster

Referenz-Setup und Betriebsübergabe

  • Golden Path bis Container-Workload
  • Kompatibilitätsmatrix als Betriebsdokument
  • Go-Live-Tests und Monitoring-Limits
  • Backup, Runbooks und Verantwortlichkeiten
Wer hier richtig ist
  • Linux-Administratorinnen und Linux-Administratoren mit Betriebsverantwortung für GPU-Server
  • DevOps- und Platform-Engineers für containerisierte KI-Workloads
  • ML-Engineers und MLOps-Verantwortliche mit Infrastruktur- und Deployment-Aufgaben
  • IT-Betrieb und SRE-Teams für stabile Training- und Inference-Umgebungen
Das lernst du
  • Stabiler Betrieb eines NVIDIA-Treiber- und CUDA-Stacks unter Linux
  • Versionierte und nachvollziehbare GPU-Container-Setups für Training und Inference
  • Systematische Analyse typischer Fehlerbilder in Treiber-, Library- und Runtime-Schichten
  • Performance-Engpässe bei NUMA, IO, Netzwerk und Limits belastbar einordnen
  • Abnahmechecklisten, Kompatibilitätsmatrizen und Runbooks für den Betrieb erstellen
So arbeiten wir
  • Trainerinput mit Entscheidungsregeln und realen Betriebsbeispielen
  • Geführte Hands-on-Übungen in bereitgestellten Linux-Umgebungen mit GPU
  • Troubleshooting-Labs anhand realistischer Treiber-, CUDA- und Container-Fehlerbilder
  • Erarbeitung von Checklisten, Kompatibilitätsmatrix und Runbooks
  • Gemeinsame Auswertung typischer Betriebsentscheidungen für Training und Inference
Empfohlene Vorkenntnisse
  • Sichere Linux-Kenntnisse in Shell, Systemdiensten, Paketmanagement und Logs
  • Administrationspraxis auf Server-Systemen, idealerweise auf Niveau des Linux Aufbaukurs: Administration und Systemmanagement
  • Grundverständnis von Containern und Docker, bei Bedarf auffrischbar im Docker Grundkurs
  • Erste Berührungspunkte mit KI-Workloads, MLOps oder GPU-basierten Anwendungen sind hilfreich
Dein Fahrplan

Der erste Tag legt die Grundlage für stabile GPU-Server unter Linux. Behandelt werden Treiberstrategie, DKMS, Secure Boot, Kernel-Updates, Repository-Pinning und Validierung über nvidia-smi, Persistenced und Smoke-Tests.

  • NVIDIA-Treiber und Kernel-Integration
  • CUDA, cuDNN und NCCL-Kompatibilität
  • Multi-GPU-Topologie, PCIe, NVLink, NUMA
  • Typische Modul- und Library-Fehlerbilder
Organisatorisches

Lernformate

Unsere Seminare bieten dir maximale Flexibilität: Du kannst zwischen Live-Online und Vor Ort in unseren modernen Schulungszentren im D-A-CH Raum wählen. Beide Formate garantieren dir die gleiche hohe Qualität und interaktive Lernerfahrung.

Schulungsarten

Wir bieten dir verschiedene Schulungsarten: Offene Seminare, Firmenseminare für Teams und Inhouse-Schulungen direkt bei dir vor Ort. So findest du genau das Format, das zu deinen Bedürfnissen passt.

Uhrzeiten

9:00-16:00 Uhr

Aktuelle Software

In unseren offenen Kursen arbeiten wir mit der aktuellsten Software-Version. So lernst du direkt mit den Tools und Features, die du auch in deinem Arbeitsalltag verwendest - praxisnah und zukunftsorientiert. Bei Inhouse- und Firmenschulungen bestimmt ihr die Version.

Deine Vorteile

Zufriedenheitsgarantie

Wir sind von unserer Qualität überzeugt. Sollte ein Training einmal nicht deinen Erwartungen entsprechen, bieten wir dir an, den Kurs kostenlos zu wiederholen oder ein anderes Training zu besuchen. Ohne Risiko, ohne Diskussion.

Inklusivleistungen

Deine Teilnahme beinhaltet: Schulungsmaterial, Zertifikat, Verpflegung (bei Präsenzveranstaltungen) und persönliche Betreuung durch unsere Trainer und unser Orga-Team. Alles aus einer Hand - keine versteckten Kosten.

Lernen von Experten

Unsere Trainer sind zertifizierte und erfahrene Profis mit jahrelanger Berufserfahrung. Sie vermitteln dir in den Kursen nicht nur theoretisches Wissen, sondern teilen ihre Erfahrungen aus realen Projekten und helfen dir, das Gelernte direkt in deiner täglichen Arbeit anzuwenden. Das ist kein Werbeversprechen, sondern unser Anspruch. Am besten siehst du das in unseren Bewertungen, z.B. auch bei Google.

Keine Vorkasse

Du zahlst erst nach dem Seminar. Keine Vorkasse, keine Vorauszahlung - so kannst du sicher sein, dass du nur für das bezahlst, was du auch wirklich erhalten hast. Die Rechnung erhältst du erst nach Kursbeginn.

Max. 8 Teilnehmende

Wir setzen auf kleine Gruppen, damit du die Aufmerksamkeit bekommst, die du verdienst. So haben wir mehr Zeit für deine individuellen Fragen und können gezielt auf deine Bedürfnisse eingehen.

Termine & Buchung

Vor Ort

Standardpreis: 1.490,00 € netto (1.773,10 € brutto)
17. - 19.08.2026
16. - 18.11.2026
01. - 03.02.2027
05. - 07.04.2027

Online

Standardpreis: 1.490,00 € netto (1.773,10 € brutto)
17. - 19.08.2026
16. - 18.11.2026
01. - 03.02.2027
05. - 07.04.2027

Nicht der passende Termin dabei?

Wir finden eine Lösung: anderer Termin, mehrere Teilnehmer, Inhouse-Schulung oder individuelle Beratung.

Anfrage stellen
Inhouse & Firmenseminare

Lieber gleich das ganze Team schulen?

Diese Schulung gibt es auch exklusiv für dein Unternehmen, bei euch vor Ort, an unseren Standorten oder Live-Online. Inhalte und Termine nach Maß.

Beliebteste Wahl

Inhouse-Schulung

Wir kommen zu euch: diese Schulung maßgeschneidert in euren Räumen, für Unternehmen und Behörden.

  • Inhalte exakt auf euch zugeschnitten
  • Termine nach euren Bedürfnissen
  • Günstiger ab mehreren Teilnehmern
  • Vertraute Umgebung, kein Reiseaufwand
Inhouse-Schulung anfragen

Firmen-Seminar

Exklusiv für dein Team an einem unserer Standorte oder Live-Online, individuell angepasst.

  • Geschlossene Gruppe aus eurem Haus
  • Individuelle Terminplanung
  • An unseren Standorten oder Live-Online
  • Angepasste Inhalte
Firmen-Seminar anfragen

Fragen und Antworten zu Linux Administration für KI-Workloads mit GPUs

Brauche ich ein eigenes Notebook oder eigene Lizenzen?

Nein. Geräte, VMs und Software werden dir bei Bedarf zur Verfügung gestellt. Für die Übungen nutzt das Seminar vorbereitete Linux-Umgebungen mit GPU-Bezug.

Ist das Seminar eher für Training oder Inference gedacht?

Beides. Das Seminar behandelt gemeinsame Betriebsgrundlagen und die Unterschiede, die in produktiven Umgebungen relevant sind, etwa Image-Strategie, Ressourcenlimits, Shared Memory, Monitoring und Abnahmechecks.

Welche Linux-Distribution wird im Seminar verwendet?

Die Übungen sind so aufgebaut, dass die Konzepte auf gängige Enterprise- und Server-Distributionen übertragbar sind. Die konkrete Übungsumgebung wird im Seminar gestellt.

Wie tief geht das Seminar in Kubernetes?

Der Schwerpunkt liegt auf Linux, NVIDIA-Treiber-Stack, CUDA-Kompatibilität und Container-Runtime. Kubernetes wird dort angesprochen, wo es für GPU-Container-Prinzipien, Device-Zugriff und Troubleshooting hilfreich ist.

Welche Vorkenntnisse in Docker sind erforderlich?

Grundverständnis von Images, Containern und Volumes ist hilfreich. Wer vorab eine solide Basis benötigt, kann den Docker Grundkurs als Vorbereitung nutzen.

Geht es auch um Storage-Performance für KI-Datasets?

Ja. Storage-Pfade, NVMe, RAID, Filesystem-Optionen und Dataset-Caching werden im Zusammenhang mit Trainings- und Inference-Workloads behandelt. Eine fachliche Vertiefung bietet das Seminar Linux Storage und Dateisysteme.

Werden typische GPU-Fehler praktisch analysiert?

Ja. Das Seminar enthält Troubleshooting-Labs zu Treiber-, Kernel-, CUDA- und Runtime-Problemen. Für eine breitere Methodik zur Fehleranalyse passt ergänzend das Linux Troubleshooting Training.

Weitere häufig gestellte Fragen und Antworten findest du in den FAQs .

Unser Qualitätsversprechen: Wissen, das in der Praxis funktioniert

Aus der Praxis für die Praxis

Schluss mit theoretischem Ballast. Wir trainieren dich für reale IT-Herausforderungen, nicht für Multiple-Choice-Tests. Unsere Trainer vermitteln dir genau das Wissen, das am nächsten Montagmorgen im Job wirklich funktioniert.

Individuell statt "Schema F"

Deine Fragen passen nicht ins Standard-Skript? Bei uns schon. Wir verzichten auf starre Lehrpläne und geben deinen konkreten Projekt-Fragen Raum. Unsere Trainer passen die Inhalte flexibel an das an, was dich und dein Team aktuell weiterbringt.

Maximale Freiheit: Remote oder vor Ort

Lerne so, wie es in deinen Alltag passt - ohne Reise-Stress und Zeitverlust. Egal ob remote, hybrid oder präsent vor Ort: Wir garantieren dir ein nahtloses und effektives Lernerlebnis, egal von wo du dich zuschaltest.

Mit Zufriedenheitsgarantie

Wir sind von unserer Qualität überzeugt - und wollen, dass du es auch bist. Sollte ein Training einmal nicht deinen Erwartungen entsprechen, bieten wir dir an, den Kurs kostenlos zu wiederholen oder ein anderes Training zu besuchen. Ohne Risiko, ohne Diskussion.

Über 20.000 Unternehmen und Behörden vertrauen auf uns

Alle Referenzen
Siemens Logo
Telekom Logo
Rheinmetall Logo
Infineon Logo
MAN Logo
Fraunhofer Logo
ADAC Logo
Munich Re Logo
Deutsche Bahn Logo
ab 1.490 €
zzgl. 19% MwSt.