Linux Administration für KI-Workloads mit GPUs

Treiber, CUDA-Stack, Performance und stabile Deployments für Training und Inference im Betrieb

5,0 (2260 Bewertungen)

Die wichtigsten Themen

NVIDIA-Treiber versionieren

CUDA, cuDNN, NCCL koppeln

GPU-Container stabil betreiben

cgroups v2 und Limits anwenden

NUMA und Topologie einordnen

Monitoring und Runbooks aufbauen

4.9 von 5 Sternen 500+ Google Bewertungen

28 Jahre Erfahrung Zufriedenheit. Garantiert.

5.0 / 5 Sternen 2260 Gesamtbewertungen

Zahlreiche Termine Kontinuierlich geplant

Überblick Dieses Advanced-Seminar zeigt dir, wie Linux-Systeme für KI-Workloads mit GPUs zuverlässig betrieben werden: vom passenden NVIDIA-Treiber über den CUDA-Stack bis zur Container-Laufzeit. Im Mittelpunkt stehen...

Dieses Advanced-Seminar zeigt dir, wie Linux-Systeme für KI-Workloads mit GPUs zuverlässig betrieben werden: vom passenden NVIDIA-Treiber über den CUDA-Stack bis zur Container-Laufzeit. Im Mittelpunkt stehen Entscheidungen, die im Betrieb spürbare Folgen haben: Versionen sauber pinnen, Kernel-Updates kontrolliert planen und typische Fehlerbilder wie „CUDA driver too old“ systematisch eingrenzen.

Dazu kommen Performance-Themen, die bei Training und Inference unmittelbar zählen: NUMA-Affinität, Storage-Durchsatz, Shared Memory, Power- und Thermal-Limits sowie Monitoring über Log- und Metrikpfade. Wer Docker-Grundlagen auffrischen möchte, findet mit dem Docker Grundkurs eine passende Vorbereitung. Für tiefere Systemoptimierung schließt der Linux Systemanpassungen Deep Dive fachlich an.

Am Ende steht ein praxistaugliches Referenz-Setup mit Abnahmecheckliste und Runbooks, damit GPU-Server im Mehrbenutzerbetrieb stabil, reproduzierbar und wartbar bleiben.

Die Themen NVIDIA-Treiber und Versionierung · DKMS, Secure Boot, Kernel-Updates · CUDA, cuDNN und NCCL-Kompatibilität · nvidia-smi, Persistenced, Smoke-Tests · Docker und NVIDIA Container Toolkit · CDI für GPU-Device-Zugriff...

GPU-Stack unter Linux

NVIDIA-Treiber und Versionierung
DKMS, Secure Boot, Kernel-Updates
CUDA, cuDNN und NCCL-Kompatibilität
nvidia-smi, Persistenced, Smoke-Tests

Container-Laufzeiten für KI-Workloads

Docker und NVIDIA Container Toolkit
CDI für GPU-Device-Zugriff
Reproduzierbare Images und Base-Images
Pinning, SBOM-Idee, Library-Mismatches
Training- und Inference-Betrieb

Ressourcensteuerung und Isolation

cgroups v2 für CPU, RAM, IO
GPU-Device-Zugriff und Berechtigungen
MIG und GPU-Slicing im Überblick
Ulimits, Shared Memory, Hugepages
Mehrbenutzerbetrieb und Policy-Ansätze

Performance-Tuning für GPU-Server

NVMe, RAID und Filesystem-Optionen
Dataset-Caching und Storage-Durchsatz
MTU, Jumbo Frames, RDMA-Grundlagen
CPU-Pinning und NUMA-Affinität
IRQ-Balancing und Latenz-Checks

Observability und Troubleshooting

journald, dmesg und Modul-Logs
DCGM und DCGM Exporter
GPU-Utilization, Thermals, Power-Limits
Signaturen und tainted Kernel
Rollback, Canary, Wartungsfenster

Referenz-Setup und Betriebsübergabe

Golden Path bis Container-Workload
Kompatibilitätsmatrix als Betriebsdokument
Go-Live-Tests und Monitoring-Limits
Backup, Runbooks und Verantwortlichkeiten

Zielgruppe

Linux-Administratorinnen und Linux-Administratoren mit Betriebsverantwortung für GPU-Server
DevOps- und Platform-Engineers für containerisierte KI-Workloads
ML-Engineers und MLOps-Verantwortliche mit Infrastruktur- und Deployment-Aufgaben
IT-Betrieb und SRE-Teams für stabile Training- und Inference-Umgebungen

Das lernst du

Stabiler Betrieb eines NVIDIA-Treiber- und CUDA-Stacks unter Linux
Versionierte und nachvollziehbare GPU-Container-Setups für Training und Inference
Systematische Analyse typischer Fehlerbilder in Treiber-, Library- und Runtime-Schichten
Performance-Engpässe bei NUMA, IO, Netzwerk und Limits belastbar einordnen
Abnahmechecklisten, Kompatibilitätsmatrizen und Runbooks für den Betrieb erstellen

So arbeiten wir

Trainerinput mit Entscheidungsregeln und realen Betriebsbeispielen
Geführte Hands-on-Übungen in bereitgestellten Linux-Umgebungen mit GPU
Troubleshooting-Labs anhand realistischer Treiber-, CUDA- und Container-Fehlerbilder
Erarbeitung von Checklisten, Kompatibilitätsmatrix und Runbooks
Gemeinsame Auswertung typischer Betriebsentscheidungen für Training und Inference

Empfohlene Vorkenntnisse

Sichere Linux-Kenntnisse in Shell, Systemdiensten, Paketmanagement und Logs
Administrationspraxis auf Server-Systemen, idealerweise auf Niveau des Linux Aufbaukurs: Administration und Systemmanagement
Grundverständnis von Containern und Docker, bei Bedarf auffrischbar im Docker Grundkurs
Erste Berührungspunkte mit KI-Workloads, MLOps oder GPU-basierten Anwendungen sind hilfreich

Dein Fahrplan

Der erste Tag legt die Grundlage für stabile GPU-Server unter Linux. Behandelt werden Treiberstrategie, DKMS, Secure Boot, Kernel-Updates, Repository-Pinning und Validierung über nvidia-smi, Persistenced und Smoke-Tests.

NVIDIA-Treiber und Kernel-Integration
CUDA, cuDNN und NCCL-Kompatibilität
Multi-GPU-Topologie, PCIe, NVLink, NUMA
Typische Modul- und Library-Fehlerbilder

Organisatorisches

Lernformate

Unsere Seminare bieten dir maximale Flexibilität: Du kannst zwischen Live-Online und Vor Ort in unseren modernen Schulungszentren im D-A-CH Raum wählen. Beide Formate garantieren dir die gleiche hohe Qualität und interaktive Lernerfahrung.

Schulungsarten

Wir bieten dir verschiedene Schulungsarten: Offene Seminare, Firmenseminare für Teams und Inhouse-Schulungen direkt bei dir vor Ort. So findest du genau das Format, das zu deinen Bedürfnissen passt.

Uhrzeiten

9:00-16:00 Uhr

Aktuelle Software

In unseren offenen Kursen arbeiten wir mit der aktuellsten Software-Version. So lernst du direkt mit den Tools und Features, die du auch in deinem Arbeitsalltag verwendest - praxisnah und zukunftsorientiert. Bei Inhouse- und Firmenschulungen bestimmt ihr die Version.

Deine Vorteile

Zufriedenheitsgarantie

Wir sind von unserer Qualität überzeugt. Sollte ein Training einmal nicht deinen Erwartungen entsprechen, bieten wir dir an, den Kurs kostenlos zu wiederholen oder ein anderes Training zu besuchen. Ohne Risiko, ohne Diskussion.

Inklusivleistungen

Deine Teilnahme beinhaltet: Schulungsmaterial, Zertifikat, Verpflegung (bei Präsenzveranstaltungen) und persönliche Betreuung durch unsere Trainer und unser Orga-Team. Alles aus einer Hand - keine versteckten Kosten.

Lernen von Experten

Unsere Trainer sind zertifizierte und erfahrene Profis mit jahrelanger Berufserfahrung. Sie vermitteln dir in den Kursen nicht nur theoretisches Wissen, sondern teilen ihre Erfahrungen aus realen Projekten und helfen dir, das Gelernte direkt in deiner täglichen Arbeit anzuwenden. Das ist kein Werbeversprechen, sondern unser Anspruch. Am besten siehst du das in unseren Bewertungen, z.B. auch bei Google.

Keine Vorkasse

Du zahlst erst nach dem Seminar. Keine Vorkasse, keine Vorauszahlung - so kannst du sicher sein, dass du nur für das bezahlst, was du auch wirklich erhalten hast. Die Rechnung erhältst du erst nach Kursbeginn.

Max. 8 Teilnehmende

Wir setzen auf kleine Gruppen, damit du die Aufmerksamkeit bekommst, die du verdienst. So haben wir mehr Zeit für deine individuellen Fragen und können gezielt auf deine Bedürfnisse eingehen.

Termine & Buchung

Vor Ort

Standardpreis: 1.490,00 € netto (1.773,10 € brutto)

16. - 18.11.2026

München

Anfragen Buchen

01. - 03.02.2027

München

Anfragen Buchen

05. - 07.04.2027

München

Anfragen Buchen

14. - 16.06.2027

München

Anfragen Buchen

Online

Standardpreis: 1.490,00 € netto (1.773,10 € brutto)

16. - 18.11.2026

01. - 03.02.2027

05. - 07.04.2027

14. - 16.06.2027

Nicht der passende Termin dabei?

Wir finden eine Lösung: anderer Termin, mehrere Teilnehmer, Inhouse-Schulung oder individuelle Beratung.

Anfrage stellen

Alle KI-Schulungen in München: Termine, Preise und Anfahrt auf einen Blick

Inhouse & Firmenseminare

Lieber gleich das ganze Team schulen?

Diese Schulung gibt es auch exklusiv für dein Unternehmen, bei euch vor Ort, an unseren Standorten oder Live-Online. Inhalte und Termine nach Maß.

Beliebteste Wahl

Inhouse-Schulung

Wir kommen zu euch: diese Schulung maßgeschneidert in euren Räumen, für Unternehmen und Behörden.

Inhalte exakt auf euch zugeschnitten
Termine nach euren Bedürfnissen
Günstiger ab mehreren Teilnehmern
Vertraute Umgebung, kein Reiseaufwand

Inhouse-Schulung anfragen

Firmen-Seminar

Exklusiv für dein Team an einem unserer Standorte oder Live-Online, individuell angepasst.

Geschlossene Gruppe aus eurem Haus
Individuelle Terminplanung
An unseren Standorten oder Live-Online
Angepasste Inhalte

Firmen-Seminar anfragen

Offenes Seminar

Fester Termin aus unserem Programm, an unseren Standorten oder Live-Online und für alle offen.

Feste Termine, im Voraus planbar
An unseren Standorten oder Live-Online
Austausch mit anderen Unternehmen
Direkte Buchung mit festem Termin

Termine ansehen

Fragen und Antworten zu Linux Administration für KI-Workloads mit GPUs

Brauche ich ein eigenes Notebook oder eigene Lizenzen?

Nein. Geräte, VMs und Software werden dir bei Bedarf zur Verfügung gestellt. Für die Übungen nutzt das Seminar vorbereitete Linux-Umgebungen mit GPU-Bezug.

Ist das Seminar eher für Training oder Inference gedacht?

Beides. Das Seminar behandelt gemeinsame Betriebsgrundlagen und die Unterschiede, die in produktiven Umgebungen relevant sind, etwa Image-Strategie, Ressourcenlimits, Shared Memory, Monitoring und Abnahmechecks.

Welche Linux-Distribution wird im Seminar verwendet?

Die Übungen sind so aufgebaut, dass die Konzepte auf gängige Enterprise- und Server-Distributionen übertragbar sind. Die konkrete Übungsumgebung wird im Seminar gestellt.

Wie tief geht das Seminar in Kubernetes?

Der Schwerpunkt liegt auf Linux, NVIDIA-Treiber-Stack, CUDA-Kompatibilität und Container-Runtime. Kubernetes wird dort angesprochen, wo es für GPU-Container-Prinzipien, Device-Zugriff und Troubleshooting hilfreich ist.

Welche Vorkenntnisse in Docker sind erforderlich?

Grundverständnis von Images, Containern und Volumes ist hilfreich. Wer vorab eine solide Basis benötigt, kann den Docker Grundkurs als Vorbereitung nutzen.

Geht es auch um Storage-Performance für KI-Datasets?

Ja. Storage-Pfade, NVMe, RAID, Filesystem-Optionen und Dataset-Caching werden im Zusammenhang mit Trainings- und Inference-Workloads behandelt. Eine fachliche Vertiefung bietet das Seminar Linux Storage und Dateisysteme.

Werden typische GPU-Fehler praktisch analysiert?

Ja. Das Seminar enthält Troubleshooting-Labs zu Treiber-, Kernel-, CUDA- und Runtime-Problemen. Für eine breitere Methodik zur Fehleranalyse passt ergänzend das Linux Troubleshooting Training.

Weitere häufig gestellte Fragen und Antworten findest du in den FAQs.

Passende Schulungen nach dem Kurs

Linux Aufbaukurs: Linux im Netz (LPI04)

3 Tage • Aufbau

Linux Storage und Dateisysteme (STOR)

3 Tage • Expert

Unser Qualitätsversprechen: Wissen, das in der Praxis funktioniert

Aus der Praxis für die Praxis

Schluss mit theoretischem Ballast. Wir trainieren dich für reale IT-Herausforderungen, nicht für Multiple-Choice-Tests. Unsere Trainer vermitteln dir genau das Wissen, das am nächsten Montagmorgen im Job wirklich funktioniert.

Individuell statt "Schema F"

Deine Fragen passen nicht ins Standard-Skript? Bei uns schon. Wir verzichten auf starre Lehrpläne und geben deinen konkreten Projekt-Fragen Raum. Unsere Trainer passen die Inhalte flexibel an das an, was dich und dein Team aktuell weiterbringt.

Maximale Freiheit: Remote oder vor Ort

Lerne so, wie es in deinen Alltag passt - ohne Reise-Stress und Zeitverlust. Egal ob remote, hybrid oder präsent vor Ort: Wir garantieren dir ein nahtloses und effektives Lernerlebnis, egal von wo du dich zuschaltest.

Mit Zufriedenheitsgarantie

Wir sind von unserer Qualität überzeugt - und wollen, dass du es auch bist. Sollte ein Training einmal nicht deinen Erwartungen entsprechen, bieten wir dir an, den Kurs kostenlos zu wiederholen oder ein anderes Training zu besuchen. Ohne Risiko, ohne Diskussion.

Über 20.000 Unternehmen und Behörden vertrauen auf uns

Alle Referenzen

Präsenz:

16. - 18.11.2026 in München

Online:

16. - 18.11.2026

ab 1.490 €

zzgl. 19% MwSt.

Termine ansehen Inhouse Firmenseminar

Die wichtigsten Themen

GPU-Stack unter Linux

Container-Laufzeiten für KI-Workloads

Ressourcensteuerung und Isolation

Performance-Tuning für GPU-Server

Observability und Troubleshooting

Referenz-Setup und Betriebsübergabe

Docker Grundkurs für Einsteiger

Linux Container Workshop - Docker und podman Intensivkurs

Linux BootCamp zum LPIC-1 Linux-Administrator

Lernformate

Schulungsarten

Uhrzeiten

Aktuelle Software

Zufriedenheitsgarantie

Inklusivleistungen

Lernen von Experten

Keine Vorkasse

Max. 8 Teilnehmende

Termine & Buchung

Vor Ort

Online

Nicht der passende Termin dabei?

Lieber gleich das ganze Team schulen?

Inhouse-Schulung

Firmen-Seminar

Offenes Seminar

Fragen und Antworten zu Linux Administration für KI-Workloads mit GPUs

Passende Schulungen nach dem Kurs

Linux Aufbaukurs: Linux im Netz (LPI04)

Linux Storage und Dateisysteme (STOR)

Ähnliche Kurse

Apache Webserver einrichten und administrieren unter Linux

CKAD: Certified Kubernetes Application Developer

Kubernetes Grundkurs

Linux Grundkurs (LPI01)

Linux Komplettausbildung zur LPIC-1 Zertifizierung

Unser Qualitätsversprechen: Wissen, das in der Praxis funktioniert

Aus der Praxis für die Praxis

Individuell statt "Schema F"

Maximale Freiheit: Remote oder vor Ort

Mit Zufriedenheitsgarantie

Cookie-Einstellungen

Funktionale Cookies

Analyse-Cookies

Sonstige Cookies