Abstrakte Visualisierung: KI-Modelle im eigenen, abgesicherten Rechenzentrum

Open-Source- & Self-Hosted-LLMs

Open-Source- & Self-Hosted-LLMs.
Deine Modelle, deine Daten.

Q: Wann lohnt sich ein eigenes Modell statt einer Cloud-API?

Self-Hosting lohnt sich vor allem, wenn sensible Daten im Haus bleiben müssen , wenn du ein hohes, planbares Anfragevolumen hast oder wenn du das Modell auf eure Fachsprache anpassen willst. Für schnelle Prototypen, schwankendes Volumen oder wenn du das jeweils stärkste Spitzenmodell brauchst, ist eine Cloud-API oft der bessere Start. In der Praxis ist es kein Entweder-oder: Viele Unternehmen kombinieren beides. Genau diese Abwägung treffen wir im Kurs an euren konkreten Anwendungsfällen.

Q: Was unterscheidet Ollama und vLLM?

Ollama ist auf Einfachheit ausgelegt: Modell laden und in wenigen Minuten lokal nutzen, ideal für Entwicklung, Tests und kleinere Setups. vLLM ist auf hohen Durchsatz und viele gleichzeitige Anfragen optimiert und damit erste Wahl für den produktiven Serverbetrieb. Viele Teams starten mit Ollama und wechseln für den Produktivbetrieb zu vLLM. Welches Werkzeug wann passt, zeigen wir an konkreten Beispielen, unter anderem in den Deployment-Kursen .

Llama, Mistral, DeepSeek, Qwen und Gemma laufen auf eigener Hardware oder in deiner privaten Cloud. Keine Daten, die das Haus verlassen, keine Abhängigkeit von einem Anbieter. Die Frage ist: Wann lohnt sich das, und wie setzt du es sauber um?

Wir zeigen dir, welches offene Modell zu welcher Aufgabe passt, wann ein eigenes Modell der Cloud-API überlegen ist und wie du es mit Ollama oder vLLM in Betrieb nimmst. Konkret und sofort umsetzbar.

Seit 1997

4,9/5 Bewertung

490+ KI-Kurse

Passende Schulung finden Cloud oder selbst hosten?

Über 20.000 Unternehmen und Behörden vertrauen auf uns

Alle Referenzen

01 Orientierung

Finde deinen Einstieg

Egal ob du Open-Source-Modelle evaluierst oder selbst hostest: Hier findest du die passende Schulung.

Direkt im KI-Katalog suchen

Noch unsicher?

Zwei Fragen, deine Schulungen.

Was hast du vor?

Wie sicher bist du im Umgang mit KI?

Beantworte beide Fragen, dann erscheinen hier deine passenden Empfehlungen.

Oder steig direkt über dein Tool ein:

Open Source & Self-Hosted

Weitere Modelle (Qwen, GLM …)

Noch unsicher, welcher Kurs zu dir passt? In einer kostenlosen 15-Minuten-Einordnung finden wir ihn gemeinsam. Beratung anfragen

02 Einordnung

Was Open-Source- & Self-Hosted-LLMs
wirklich bedeuten.

Bei den großen Cloud-Diensten schickst du deine Eingaben an einen externen Anbieter. Open-Source- und Self-Hosted-LLMs drehen das um: Die Modellgewichte sind offen, du betreibst das Modell auf eigener Hardware oder in deiner privaten Cloud. Deine Daten bleiben dort, wo sie hingehören.

Die offenen Familien Llama, Mistral, DeepSeek, Qwen und Gemma haben 2025 den Abstand zu den geschlossenen Spitzenmodellen deutlich verkleinert. In vielen Büro- und Business-Aufgaben sind sie heute mehr als ausreichend, und du behältst die volle Kontrolle über Daten, Kosten und Verfügbarkeit. Der Preis dafür: Du brauchst etwas Wissen für Auswahl, Betrieb und Pflege. Genau da setzen wir an.

Infografik: Cloud-API gegenüber selbst gehostetem Modell, Startzeit, Kosten und Datenhoheit im Vergleich — Cloud-API oder selbst gehostet: Die wichtigsten Abwägungen auf einen Blick.

offene Familien

Llama, Mistral, DeepSeek, Qwen und Gemma decken vom kompakten bis zum großen Modell alles ab.

On-Prem

Daten bleiben intern

Eingaben verlassen das eigene Netz nicht und werden nicht zum Training eines fremden Anbieters genutzt.

Kein

Vendor-Lock-in

Du bist nicht an Preise, Limits oder Modellwechsel eines einzelnen Anbieters gebunden.

490+

KI-Kurse bei cmt

Vom lokalen Grundkurs über Fine-Tuning bis zum produktiven Deployment.

03 Modellfamilien

Offene Modellfamilien,
die du kennen solltest.

Du brauchst nicht alle. Aber du solltest wissen, wofür jede Familie steht. Konkrete Versions- und Größenwahl hängt von deiner Aufgabe und Hardware ab, das klären wir im Kurs.

Llama

Mistral

Frankreich / EU

EuropäischEffizient

Schlanke, effiziente Modelle aus Europa, beliebt für mehrsprachige Aufgaben und einen guten Kompromiss aus Qualität und Ressourcenbedarf.

DeepSeek

DeepSeek (CN)

Logisches DenkenProgrammieren

Bekannt für starke Fähigkeiten beim logischen Schließen und beim Programmieren, und das bei vergleichsweise günstigem Betrieb. Spannend, wenn analytische Tiefe gefragt ist.

Qwen

Alibaba (CN)

Viele GrößenMehrsprachig

Eine breite Familie von kleinen bis großen Modellen mit offenen Lizenzen. Gut, wenn du je nach Hardware die passende Größe wählen willst.

Gemma

Google

KompaktLäuft auf Standard-Hardware

Kompakte offene Modelle, die auf überschaubarer Hardware laufen. Ideal für den Einstieg ins lokale Hosting ohne großes Rechenzentrum.

MiniMax

MiniMax (CN)

Sehr lange KontexteAgenten

Starkes chinesisches Open-Weight-Modell, das vor allem bei sehr langen Kontexten und Agenten-Aufgaben punktet. Spannend, wenn du große Dokumentmengen oder komplexe Werkzeugketten verarbeiten willst.

GLM

Zhipu / Z.ai (CN)

ProgrammierenAgenten

Open-Weight-Modellfamilie von Zhipu (Z.ai), die Reasoning, Programmieren und Agenten-Fähigkeiten vereint. Eine starke Alternative für anspruchsvolle Entwicklungs- und Werkzeug-Aufgaben.

Llama-Modelle im Vergleich Qwen und Alibaba-Modelle DeepSeek: Einsatz & Self-Hosting GLM als Open-Source-LLM

04 Einsatzfelder

Wo eigene Modelle
im Business glänzen.

Self-Hosting spielt seine Stärken überall dort aus, wo Daten besonders schützenswert sind oder das Modell euer Spezialwissen kennen soll. Vier typische Fälle.

Interner Wissens-Assistent

Ein Chatbot auf euren Handbüchern, Verträgen und Wikis, der eure Dokumente nie an einen externen Dienst schickt. Das Modell läuft im eigenen Netz, die Antworten zitieren eure Quellen.

Dokumente analysieren

Verträge, Rechnungen und Berichte auswerten, ohne dass ein einziges Zeichen das Haus verlässt.

Fachsprache lernen

Per Fine-Tuning lernt das Modell eure Begriffe, eure Tonalität und eure Abläufe.

Vorhersehbare Kosten

Statt pro Token zu zahlen, trägst du feste Hardware- und Betriebskosten. Bei hohem Volumen wird das planbar und oft günstiger.

Wie du daraus eine produktive Anwendung baust, etwa einen internen Wissens-Assistenten mit RAG, vertiefen die RAG- und Vektordatenbank-Trainings und der Kurs zur LLM-Dokumentenanalyse.

05 Ehrliche Einordnung

Wann Open-Source & Self-Hosting,
wann lieber etwas anderes?

Self-Hosting ist kein Selbstzweck. Für manche Aufgaben ist eine Cloud-API der schnellere und günstigere Weg, für andere ist das eigene Modell klar überlegen. Hier die ehrliche Faustregel.

Wenn das auf dich zutrifft

Dann eher

Warum

Sensible oder personenbezogene Daten

Self-Hosted

Daten bleiben im eigenen Netz, nichts geht an einen externen Anbieter.

Schneller Prototyp, wenig Volumen

Cloud-API

In Minuten startklar, du zahlst nur, was du nutzt, keine eigene Hardware nötig.

Hohes, planbares Anfragevolumen

Self-Hosted

Ab einer gewissen Menge sind feste Hardware-Kosten günstiger als laufende Token-Preise.

Branche mit strengen Compliance-Vorgaben

Self-Hosted

Datenresidenz, Nachvollziehbarkeit und Kontrolle über das Modell statt undurchsichtiger Blackbox.

Du brauchst das jeweils stärkste Spitzenmodell

Cloud-API

Geschlossene Spitzenmodelle liegen in einzelnen Disziplinen oft noch vorn.

Fine-Tuning auf eigene Fachsprache

Self-Hosted

Offene Gewichte lassen sich auf eure Daten und Begriffe anpassen.

In der Praxis ist es selten ein Entweder-oder: Viele Teams nutzen eine Cloud-API für den schnellen Start und ein eigenes Modell für alles, was sensibel oder hochvolumig ist. Wenn du wissen willst, welche Cloud-Modelle wofür stark sind, hilft die Werkzeug-Übersicht unter Produktiver arbeiten mit KI, für den Schritt zur eigenen Anwendung die KI-Entwicklung und für den rechtlichen Rahmen KI & Compliance. Die konkrete Abwägung treffen wir mit dir an deinem Anwendungsfall.

06 So nutzt du es richtig

Vom Modell zur
verlässlichen Lösung.

Ein Modell herunterzuladen ist der einfache Teil. Der Mehrwert entsteht durch die richtigen Entscheidungen drumherum. Diese sechs Schritte machen aus einem offenen Modell ein verlässliches Werkzeug.

Modell zur Aufgabe wählen

Nimm das kleinste Modell, das die Aufgabe gut löst, nicht das größte. Das spart Hardware, Strom und Wartezeit.

Mit Ollama starten

Für erste Tests und Entwicklung bringt Ollama ein Modell in Minuten lokal zum Laufen, ganz ohne komplexe Einrichtung.

Für Produktion zu vLLM

Sobald viele Anfragen gleichzeitig kommen, sorgt vLLM für hohen Durchsatz und stabile Antwortzeiten im Serverbetrieb.

Mit RAG erden

Verbinde das Modell mit euren Dokumenten, statt es alles auswendig lernen zu lassen. Antworten werden belegbar und aktuell.

Erst bei Bedarf feintunen

Fine-Tuning lohnt sich, wenn Fachsprache oder Ton entscheidend sind. Oft reicht aber schon gutes Prompting plus RAG.

Messen und absichern

Lege Qualitätskriterien fest, evaluiere die Ausgaben und sichere den Betrieb gegen Missbrauch ab, bevor er in Produktion geht.

Eigene LLMs & Tuning lernen LLM-Evaluation in der Praxis

Das beste Modell ist nicht das größte.
Es ist das, das deine Daten im Haus lässt.

Aus über 490 KI-Schulungen bei cmt

Überzeugt? Finde deinen passenden Kurs.

Vom lokalen Grundkurs über Fine-Tuning bis zum produktiven Deployment, offen, online oder inhouse bei dir.

Passende Schulung finden Kostenlos beraten lassen

Mehr als Schulung

Wenn KI nicht nur Tool, sondern Prozess werden soll.

Je nachdem, wo du stehst: erst in einem kostenlosen Webinar reinschnuppern, dann gemeinsam die Strategie klären und am Ende echte KI-Lösungen umsetzen. Wir begleiten jeden Schritt.

Kostenlos

KI-Webinare

Der einfachste erste Schritt: In kompakten Live-Online-Sessions zeigen dir unsere Fachleute aktuelle KI-Themen, ganz ohne Kosten und mit Raum für deine Fragen.

Live-Online & kostenlos
Unter einer Stunde
Direkt Fragen stellen

Zu den KI-Webinaren

KI-Beratung

Strategie und Roadmap, gedacht aus der Umsetzung. Wir wählen mit dir die richtigen Tools für deine Prozesse, setzen Leitlinien und machen KI vom Einzeltool zum Teamstandard, ohne 80-Seiten-Strategiepapier.

Tool- & Use-Case-Auswahl
Datenschutz & Leitlinien
Roadmap mit Prioritäten

Zur KI-Beratung

KI-Projektumsetzung

Kein eigenes Entwicklerteam? Wir bauen produktive KI-Lösungen, die dein Team danach selbst übernimmt: vom automatisierten Angebotsentwurf bis zum maßgeschneiderten Assistenten für eure Abläufe. Der Code gehört dir.

Maßgeschneiderte Assistenten
Automatisierte Workflows
Code & Wissen bleiben bei dir

Zur KI-Projektumsetzung

4,9/5 Teilnehmerbewertung Seit 1997 am Markt 490+ KI-Kurse Auch als Inhouse-Training

07 Nächste Termine

Diese Kurse starten
als Nächstes

Freie Termine aus unseren Trainings zu offenen Modellen, Self-Hosting und LLM-Engineering. Alle Kurse auch als Inhouse-Training buchbar.

Garantie

24.08.2026

München

🖥️

Lokal betreiben & Self-Hosting

⚖️

Modelle im Vergleich

🔧

Anpassen & Engineering

📄

Daten & Pipelines

🛡️

Sicherheit

Andere Hersteller: Oracle, DeepSeek, Qwen KI Engineering & LLMs MLOps & Model Deployment

08 Häufig gestellt

Fragen zu Open-Source-
und Self-Hosted-LLMs

Was sind Open-Source- und Self-Hosted-LLMs?

Open-Source-LLMs sind Sprachmodelle, deren Gewichte offen verfügbar sind, zum Beispiel die Familien Llama, Mistral, DeepSeek, Qwen oder Gemma. Du kannst sie herunterladen und auf eigener Hardware oder in deiner privaten Cloud betreiben. Self-Hosted heißt: Das Modell läuft on-prem oder in deiner Umgebung, nicht als externer API-Dienst. Der Vorteil ist Datensouveränität, Kontrolle und Unabhängigkeit von einem einzelnen Anbieter. In unseren Trainings zeigen wir dir, wann sich das lohnt und wie du es sauber umsetzt.

Wann lohnt sich ein eigenes Modell statt einer Cloud-API?

Self-Hosting lohnt sich vor allem, wenn sensible Daten im Haus bleiben müssen, wenn du ein hohes, planbares Anfragevolumen hast oder wenn du das Modell auf eure Fachsprache anpassen willst. Für schnelle Prototypen, schwankendes Volumen oder wenn du das jeweils stärkste Spitzenmodell brauchst, ist eine Cloud-API oft der bessere Start. In der Praxis ist es kein Entweder-oder: Viele Unternehmen kombinieren beides. Genau diese Abwägung treffen wir im Kurs an euren konkreten Anwendungsfällen.

Welche Hardware brauche ich, um ein LLM lokal zu betreiben?

Das hängt stark von der Modellgröße ab. Kompakte Modelle laufen heute schon auf einem gut ausgestatteten Arbeitsrechner oder einem kleinen Server mit einer GPU. Größere Modelle brauchen mehr Speicher und dedizierte GPUs. Werkzeuge wie Ollama machen den Einstieg auf einem einzelnen Rechner einfach, für den produktiven Mehrnutzerbetrieb kommt oft vLLM zum Einsatz. In der Schulung planen wir die passende Größe zu deiner Hardware, statt einfach das größte Modell zu nehmen.

Sind selbst gehostete Modelle DSGVO-konform?

Self-Hosting ist ein starker Baustein für den Datenschutz, weil Eingaben das eigene Netz nicht verlassen und nicht zum Training eines fremden Anbieters genutzt werden. DSGVO-Konformität ergibt sich aber nicht allein aus der Technik, sondern aus dem Gesamtkonzept: Zugriffsrechte, Protokollierung, Löschkonzepte und der richtige Umgang mit personenbezogenen Daten. Wie das zusammenpasst, vertiefen wir mit dir, mehr dazu auch unter KI sicher und rechtskonform einsetzen.

Was bedeutet Fine-Tuning auf eigene Daten?

Weil bei offenen Modellen die Gewichte verfügbar sind, kannst du sie auf eure eigenen Texte, Begriffe und Abläufe nachtrainieren. So spricht das Modell eure Fachsprache, kennt eure Produkte und antwortet im richtigen Ton. Das reicht von leichtgewichtigen Verfahren bis zum vollen Fine-Tuning. Bei einer geschlossenen Cloud-API ist das in dieser Tiefe meist nicht möglich. In den LLM-Engineering-Kursen üben wir genau diese Anpassung.

Was kostet ein Self-Hosting-Setup im Vergleich zur Cloud-API?

Bei einer Cloud-API zahlst du pro Anfrage, das ist im Einstieg günstig und ohne Vorabkosten. Beim Self-Hosting trägst du feste Kosten für Hardware und Betrieb, dafür keine Token-Gebühren. Eine Faustregel: Je höher und planbarer dein Volumen, desto eher rechnet sich der eigene Betrieb. Kleine Modelle lassen sich heute schon auf überschaubarer Hardware betreiben. Die konkrete Rechnung hängt von eurem Volumen ab, und genau die machen wir im Kurs gemeinsam auf.

Was unterscheidet Ollama und vLLM?

Ollama ist auf Einfachheit ausgelegt: Modell laden und in wenigen Minuten lokal nutzen, ideal für Entwicklung, Tests und kleinere Setups. vLLM ist auf hohen Durchsatz und viele gleichzeitige Anfragen optimiert und damit erste Wahl für den produktiven Serverbetrieb. Viele Teams starten mit Ollama und wechseln für den Produktivbetrieb zu vLLM. Welches Werkzeug wann passt, zeigen wir an konkreten Beispielen, unter anderem in den Deployment-Kursen.

Weitere häufig gestellte Fragen und Antworten findest du in den FAQs.

09 Weiter denken

Weitere KI-Themen

Eigene Modelle sind ein Baustein. Diese Seiten vertiefen Entwicklung, Daten und den rechtlichen Rahmen.

Persönlich für dich da

Deine Ansprechpartner

Wir beraten dich persönlich zu Modellwahl, Self-Hosting und Umsetzung. Kostenlos und unverbindlich.

Yves Hoppe

KI-Kompetenzcenter

Begleitet dich von der Modellauswahl über Self-Hosting bis zur produktiven Lösung im Unternehmen.

0800 71 20000 E-Mail

Norbert Jansen

Beratung & Weiterbildung

Findet mit dir das passende Format, ob offene Schulung, Inhouse oder Beratung.

0800 71 20000 E-Mail

Kostenlose Erstberatung

Bereit für deine
eigenen Modelle?

Wir finden gemeinsam heraus, ob Self-Hosting für euch passt und welche Schulung den größten Hebel bringt. Unverbindlich, am Telefon oder persönlich.

Seit 1997 4,9/5 Bewertung Antwort in 24h

Kostenlos beraten lassen 0800 71 20000

Mo-Fr 8-17 Uhr · kostenlos & unverbindlich

Open-Source- & Self-Hosted-LLMs.Deine Modelle, deine Daten.

Finde deinen Einstieg

Zwei Fragen, deine Schulungen.

Den Modell-Dschungel verstehen

Llama-Modelle im Vergleich: Nutzen statt Hype

Qwen und weitere Alibaba-Modelle: Was lohnt sich?

GPT-OSS im Einsatz: OpenAI-Modelle verstehen

Modelle gezielt vergleichen

GLM-5.2 Grundkurs: Open Weight LLM produktiv nutzen

Mistral-KI Training: Europas LLM-Stack im Einsatz

Kimi K3: OpenSource LLM sofort produktiv

Neue Modelle bewerten und einordnen

DeepSeek Training: Einsatz und Self-Hosting

MiniMax M3 Training: Das sich selbst-entwickelende Open-Source Model

Large Language Model Strategie: Alles für Entscheider

Erste Modelle lokal zum Laufen bringen

Open-Source-LLMs lokal betreiben: Grundkurs

Llama-Modelle im Vergleich: Nutzen statt Hype

Modelle sicher selbst betreiben

LLM Self-Hosting und Deployment

DeepSeek Training: Einsatz und Self-Hosting

Mistral-KI Training: Europas LLM-Stack im Einsatz

Betrieb unter höchsten Anforderungen

MLOps Training in Air-Gapped Umgebungen

KI-Infrastrukturplanung: On-Premise vs. Cloud

Verstehen, was hinter LLMs steckt

Large Language Model Grundkurs: Einsatz und Überblick

Open-Source-LLMs lokal betreiben: Grundkurs

Eigene Daten ins Modell bringen

Open-Source LLM Fine-Tuning für Entwickler

Large Language Models Aufbaukurs: RAG, Anpassung und Training

Eigene Modelle bis zum Limit tunen

Large Language Models Advanced: Eigene LLMs und Tuning

LLM-Evaluation: Evaluation. Praxis. Sicherheit

Wissen ans Modell anbinden

LangChain: RAG und Agents Intensiv-Training

LLM-Dokumentenanalyse und Pipelines Grundkurs

Belastbare RAG-Pipelines bauen

Vektordatenbanken und KI Training: Architektur & Praxis

APIs mit KI nutzen: RAG, Datenabruf und mehr

End-to-End in Produktion bringen

KI-Entwicklung: Full-Stack KI End-to-End Projekt

Large Language Models Aufbaukurs: RAG, Anpassung und Training

Die Infrastruktur-Basics legen

KI-Apps containerisieren mit Podman, Docker & Kubernetes

LLM Self-Hosting und Deployment

GPU-Workloads im Griff

Linux Administration für KI-Workloads mit GPUs

KI-Infrastrukturplanung: On-Premise vs. Cloud

Sicher und isoliert betreiben

MLOps Training in Air-Gapped Umgebungen

LLM Security: Injections erkennen & abwehren

Was Open-Source- & Self-Hosted-LLMswirklich bedeuten.

Offene Modellfamilien,die du kennen solltest.

Llama

Mistral

DeepSeek

Qwen

Gemma

MiniMax

GLM

Wo eigene Modelleim Business glänzen.

Interner Wissens-Assistent

Dokumente analysieren

Fachsprache lernen

Vorhersehbare Kosten

Wann Open-Source & Self-Hosting,wann lieber etwas anderes?

Vom Modell zurverlässlichen Lösung.

Überzeugt? Finde deinen passenden Kurs.

Wenn KI nicht nur Tool, sondern Prozess werden soll.

KI-Webinare

KI-Beratung

KI-Projektumsetzung

Diese Kurse startenals Nächstes

Large Language Model Grundkurs: Einsatz und Überblick

Python mit Tensorflow: Grundkurs

KI-Sicherheit in der Cloud Grundkurs

KI-Apps containerisieren mit Podman, Docker & Kubernetes

MiniMax M3 Training: Das sich selbst-entwickelende Open-Source Model

Python Deep-Dive Kurs: Deep Learning, Neuronale Netze & Visualisierung

Open-Source- & Self-Hosted-LLMs.
Deine Modelle, deine Daten.

Was Open-Source- & Self-Hosted-LLMs
wirklich bedeuten.

Offene Modellfamilien,
die du kennen solltest.

Wo eigene Modelle
im Business glänzen.

Wann Open-Source & Self-Hosting,
wann lieber etwas anderes?

Vom Modell zur
verlässlichen Lösung.

Diese Kurse starten
als Nächstes

Fragen zu Open-Source-
und Self-Hosted-LLMs

Bereit für deine
eigenen Modelle?