Abstrakte Visualisierung: KI-Modelle im eigenen, abgesicherten Rechenzentrum
Open-Source- & Self-Hosted-LLMs Ollama-Logo

Open-Source- & Self-Hosted-LLMs.
Deine Modelle, deine Daten.

Llama, Mistral, DeepSeek, Qwen und Gemma laufen auf eigener Hardware oder in deiner privaten Cloud. Keine Daten, die das Haus verlassen, keine Abhängigkeit von einem Anbieter. Die Frage ist: Wann lohnt sich das, und wie setzt du es sauber um?

Wir zeigen dir, welches offene Modell zu welcher Aufgabe passt, wann ein eigenes Modell der Cloud-API überlegen ist und wie du es mit Ollama oder vLLM in Betrieb nimmst. Praxisnah und sofort umsetzbar.

Seit 1997
4,9/5 Bewertung
490+ KI-Kurse

Über 20.000 Unternehmen und Behörden vertrauen auf uns

Alle Referenzen
Siemens Logo
Telekom Logo
Rheinmetall Logo
Infineon Logo
MAN Logo
Fraunhofer Logo
ADAC Logo
Munich Re Logo
Deutsche Bahn Logo
02 Einordnung

Was Open-Source- & Self-Hosted-LLMs
wirklich bedeuten.

Bei den großen Cloud-Diensten schickst du deine Eingaben an einen externen Anbieter. Open-Source- und Self-Hosted-LLMs drehen das um: Die Modellgewichte sind offen, du betreibst das Modell auf eigener Hardware oder in deiner privaten Cloud. Deine Daten bleiben dort, wo sie hingehören.

Die offenen Familien Llama, Mistral, DeepSeek, Qwen und Gemma haben 2025 den Abstand zu den geschlossenen Spitzenmodellen deutlich verkleinert. In vielen Büro- und Business-Aufgaben sind sie heute mehr als ausreichend, und du behältst die volle Kontrolle über Daten, Kosten und Verfügbarkeit. Der Preis dafür: Du brauchst etwas Wissen für Auswahl, Betrieb und Pflege. Genau da setzen wir an.

Infografik: Cloud-API gegenüber selbst gehostetem Modell, Startzeit, Kosten und Datenhoheit im Vergleich
Cloud-API oder selbst gehostet: Die wichtigsten Abwägungen auf einen Blick.
5
offene Familien

Llama, Mistral, DeepSeek, Qwen und Gemma decken vom kompakten bis zum großen Modell alles ab.

On-Prem
Daten bleiben intern

Eingaben verlassen das eigene Netz nicht und werden nicht zum Training eines fremden Anbieters genutzt.

Kein
Vendor-Lock-in

Du bist nicht an Preise, Limits oder Modellwechsel eines einzelnen Anbieters gebunden.

490+
KI-Kurse bei cmt

Vom lokalen Grundkurs über Fine-Tuning bis zum produktiven Deployment.

03 Modellfamilien

Offene Modellfamilien,
die du kennen solltest.

Du brauchst nicht alle. Aber du solltest wissen, wofür jede Familie steht. Konkrete Versions- und Größenwahl hängt von deiner Aufgabe und Hardware ab, das klären wir im Kurs.

Llama-Logo

Llama

Meta

Breites ÖkosystemLange Kontexte

Eine der meistgenutzten offenen Modellfamilien mit riesigem Werkzeug- und Community-Ökosystem. Gute erste Wahl, wenn du auf bewährte Werkzeuge, viele Anleitungen und breite Hardware-Unterstützung setzen willst.

Infografik: offene Modellfamilien Llama, Mistral, DeepSeek, Qwen und Gemma im Überblick
Mistral-Logo

Mistral

Frankreich / EU

EuropäischEffizient

Schlanke, effiziente Modelle aus Europa, beliebt für mehrsprachige Aufgaben und einen guten Kompromiss aus Qualität und Ressourcenbedarf.

DeepSeek-Logo

DeepSeek

DeepSeek (CN)

Logisches DenkenProgrammieren

Bekannt für starke Fähigkeiten beim logischen Schließen und beim Programmieren, und das zu vergleichsweise günstigem Betrieb. Spannend, wenn analytische Tiefe gefragt ist.

Qwen-Logo

Qwen

Alibaba (CN)

Viele GrößenMehrsprachig

Eine breite Familie von kleinen bis großen Modellen mit offenen Lizenzen. Gut, wenn du je nach Hardware die passende Größe wählen willst.

G

Gemma

Google

KompaktLäuft auf Standard-Hardware

Kompakte offene Modelle, die auf überschaubarer Hardware laufen. Ideal für den Einstieg ins lokale Hosting ohne großes Rechenzentrum.

MiniMax-Logo

MiniMax

MiniMax (CN)

Sehr lange KontexteAgenten

Starkes chinesisches Open-Weight-Modell, das vor allem bei sehr langen Kontexten und Agenten-Aufgaben punktet. Spannend, wenn du große Dokumentmengen oder komplexe Werkzeugketten verarbeiten willst.

GLM

GLM

Zhipu / Z.ai (CN)

ProgrammierenAgenten

Open-Weight-Modellfamilie von Zhipu (Z.ai), die Reasoning, Programmieren und Agenten-Fähigkeiten vereint. Eine starke Alternative für anspruchsvolle Entwicklungs- und Werkzeug-Aufgaben.

04 Einsatzfelder

Wo eigene Modelle
im Business glänzen.

Self-Hosting spielt seine Stärke überall dort aus, wo Daten besonders schützenswert sind oder das Modell euer Spezialwissen kennen soll. Vier typische Fälle.

Interner Wissens-Assistent

Ein Chatbot auf euren Handbüchern, Verträgen und Wikis, der eure Dokumente nie an einen externen Dienst schickt. Das Modell läuft im eigenen Netz, die Antworten zitieren eure Quellen.

Dokumente analysieren

Verträge, Rechnungen und Berichte auswerten, ohne dass ein einziges Zeichen das Haus verlässt.

Fachsprache lernen

Per Fine-Tuning lernt das Modell eure Begriffe, eure Tonalität und eure Abläufe.

Vorhersehbare Kosten

Statt pro Token zu zahlen, trägst du feste Hardware- und Betriebskosten. Bei hohem Volumen wird das planbar und oft günstiger.

Wie du daraus eine produktive Anwendung baust, etwa einen internen Wissens-Assistenten mit RAG, vertiefen die RAG- und Vektordatenbank-Trainings und der Kurs zur LLM-Dokumentenanalyse.

05 Ehrliche Einordnung

Wann Open-Source & Self-Hosting,
wann lieber etwas anderes?

Self-Hosting ist kein Selbstzweck. Für manche Aufgaben ist eine Cloud-API der schnellere und günstigere Weg, für andere ist das eigene Modell klar überlegen. Hier die ehrliche Faustregel.

Sensible oder personenbezogene Daten
Self-Hosted
Daten bleiben im eigenen Netz, nichts geht an einen externen Anbieter.
Schneller Prototyp, wenig Volumen
Cloud-API
In Minuten startklar, du zahlst nur, was du nutzt, keine eigene Hardware nötig.
Hohes, planbares Anfragevolumen
Self-Hosted
Ab einer gewissen Menge sind feste Hardware-Kosten günstiger als laufende Token-Preise.
Branche mit strengen Compliance-Vorgaben
Self-Hosted
Datenresidenz, Nachvollziehbarkeit und Kontrolle über das Modell statt undurchsichtiger Blackbox.
Du brauchst das jeweils stärkste Spitzenmodell
Cloud-API
Geschlossene Spitzenmodelle liegen in einzelnen Disziplinen oft noch vorn.
Fine-Tuning auf eigene Fachsprache
Self-Hosted
Offene Gewichte lassen sich auf eure Daten und Begriffe anpassen.

In der Praxis ist es selten ein Entweder-oder: Viele Teams nutzen eine Cloud-API für den schnellen Start und ein eigenes Modell für alles, was sensibel oder hochvolumig ist. Wenn du wissen willst, welche Cloud-Modelle wofür stark sind, hilft die Werkzeug-Übersicht unter Produktiver arbeiten mit KI, für den Schritt zur eigenen Anwendung die KI-Entwicklung und für den rechtlichen Rahmen KI & Compliance. Die konkrete Abwägung treffen wir mit dir an deinem Anwendungsfall.

06 So nutzt du es richtig

Vom Modell zur
verlässlichen Lösung.

Ein Modell herunterzuladen ist der einfache Teil. Der Mehrwert entsteht durch die richtigen Entscheidungen drumherum. Diese sechs Schritte machen aus einem offenen Modell ein verlässliches Werkzeug.

01
Modell zur Aufgabe wählen

Nimm das kleinste Modell, das die Aufgabe gut löst, nicht das größte. Das spart Hardware, Strom und Wartezeit.

02
Mit Ollama starten

Für erste Tests und Entwicklung bringt Ollama ein Modell in Minuten lokal zum Laufen, ganz ohne komplexe Einrichtung.

03
Für Produktion zu vLLM

Sobald viele Anfragen gleichzeitig kommen, sorgt vLLM für hohen Durchsatz und stabile Antwortzeiten im Serverbetrieb.

04
Mit RAG erden

Verbinde das Modell mit euren Dokumenten, statt es alles auswendig wissen zu lassen. Antworten werden belegbar und aktuell.

05
Erst bei Bedarf feintunen

Fine-Tuning lohnt sich, wenn Fachsprache oder Ton entscheidend sind. Oft reicht aber schon gutes Prompting plus RAG.

06
Messen und absichern

Lege Qualitätskriterien fest, evaluiere die Ausgaben und sichere den Betrieb gegen Missbrauch ab, bevor er live geht.

Das beste Modell ist nicht das größte.
Es ist das, das deine Daten im Haus lässt.

Aus über 490 KI-Schulungen bei cmt

Ueberzeugt? Finde deinen passenden Kurs.

Vom lokalen Grundkurs über Fine-Tuning bis zum produktiven Deployment, offen, online oder inhouse bei dir.

4,9/5 Teilnehmerbewertung Seit 1997 am Markt 490+ KI-Kurse Auch als Inhouse-Training
07 Nächste Termine

Diese Kurse starten
als Nächstes

Freie Termine aus unseren Trainings zu offenen Modellen, Self-Hosting und LLM-Engineering. Alle Kurse auch als Inhouse-Training buchbar.

08 Häufig gestellt

Fragen zu Open-Source-
und Self-Hosted-LLMs

Was sind Open-Source- und Self-Hosted-LLMs?
Open-Source-LLMs sind Sprachmodelle, deren Gewichte offen verfügbar sind, zum Beispiel die Familien Llama, Mistral, DeepSeek, Qwen oder Gemma. Du kannst sie herunterladen und auf eigener Hardware oder in deiner privaten Cloud betreiben. Self-Hosted heißt: Das Modell läuft on-prem oder in deiner Umgebung, nicht als externer API-Dienst. Der Vorteil ist Datensouveränität, Kontrolle und Unabhängigkeit von einem einzelnen Anbieter. In unseren Trainings zeigen wir dir, wann sich das lohnt und wie du es sauber umsetzt.
Wann lohnt sich ein eigenes Modell statt einer Cloud-API?
Self-Hosting lohnt sich vor allem, wenn sensible Daten im Haus bleiben müssen, wenn du ein hohes, planbares Anfragevolumen hast oder wenn du das Modell auf eure Fachsprache anpassen willst. Für schnelle Prototypen, schwankendes Volumen oder wenn du das jeweils stärkste Spitzenmodell brauchst, ist eine Cloud-API oft der bessere Start. In der Praxis ist es kein Entweder-oder: Viele Unternehmen kombinieren beides. Genau diese Abwägung treffen wir im Kurs an euren konkreten Anwendungsfällen.
Welche Hardware brauche ich, um ein LLM lokal zu betreiben?
Das hängt stark von der Modellgröße ab. Kompakte Modelle laufen heute schon auf einem gut ausgestatteten Arbeitsrechner oder einem kleinen Server mit einer GPU. Größere Modelle brauchen mehr Speicher und dedizierte GPUs. Werkzeuge wie Ollama machen den Einstieg auf einem einzelnen Rechner einfach, für den produktiven Mehrnutzerbetrieb kommt oft vLLM zum Einsatz. In der Schulung planen wir die passende Größe zu deiner Hardware, statt einfach das größte Modell zu nehmen.
Sind selbst gehostete Modelle DSGVO-konform?
Self-Hosting ist ein starker Baustein für den Datenschutz, weil Eingaben das eigene Netz nicht verlassen und nicht zum Training eines fremden Anbieters genutzt werden. DSGVO-Konformität ergibt sich aber nicht allein aus der Technik, sondern aus dem Gesamtkonzept: Zugriffsrechte, Protokollierung, Löschkonzepte und der richtige Umgang mit personenbezogenen Daten. Wie das zusammenpasst, vertiefen wir mit dir, mehr dazu auch unter KI sicher und rechtskonform einsetzen.
Was bedeutet Fine-Tuning auf eigene Daten?
Weil bei offenen Modellen die Gewichte verfügbar sind, kannst du sie auf eure eigenen Texte, Begriffe und Abläufe nachtrainieren. So spricht das Modell eure Fachsprache, kennt eure Produkte und antwortet im richtigen Ton. Das reicht von leichtgewichtigen Verfahren bis zum vollen Fine-Tuning. Bei einer geschlossenen Cloud-API ist das in dieser Tiefe meist nicht möglich. In den LLM-Engineering-Kursen üben wir genau diese Anpassung.
Was kostet ein Self-Hosting-Setup im Vergleich zur Cloud-API?
Bei einer Cloud-API zahlst du pro Anfrage, das ist im Einstieg günstig und ohne Vorabkosten. Beim Self-Hosting trägst du feste Kosten für Hardware und Betrieb, dafür keine Token-Gebühren. Eine Faustregel: Je höher und planbarer dein Volumen, desto eher rechnet sich der eigene Betrieb. Kleine Modelle lassen sich heute schon auf überschaubarer Hardware betreiben. Die konkrete Rechnung hängt von eurem Volumen ab, und genau die machen wir im Kurs gemeinsam auf.
Was unterscheidet Ollama und vLLM?
Ollama ist auf Einfachheit ausgelegt: Modell laden und in wenigen Minuten lokal nutzen, ideal für Entwicklung, Tests und kleinere Setups. vLLM ist auf hohen Durchsatz und viele gleichzeitige Anfragen optimiert und damit erste Wahl für den produktiven Serverbetrieb. Viele Teams starten mit Ollama und wechseln für den Produktivbetrieb zu vLLM. Welches Werkzeug wann passt, zeigen wir praxisnah, unter anderem in den Deployment-Kursen.

Weitere häufig gestellte Fragen und Antworten findest du in den FAQs .

Persönlich für dich da

Deine Ansprechpartner

Wir beraten dich persönlich zu Modellwahl, Self-Hosting und Umsetzung. Kostenlos und unverbindlich.

Yves Hoppe

Yves Hoppe

KI-Kompetenzcenter

Begleitet dich von der Modellauswahl über Self-Hosting bis zur produktiven Lösung im Unternehmen.

Norbert Jansen

Norbert Jansen

Beratung & Weiterbildung

Findet mit dir das passende Format, ob offene Schulung, Inhouse oder Beratung.

Kostenlose Erstberatung

Bereit für deine
eigenen Modelle?

Wir finden gemeinsam heraus, ob Self-Hosting für euch passt und welche Schulung den größten Hebel bringt. Unverbindlich, am Telefon oder persönlich.

Seit 1997 4,9/5 Bewertung Antwort in 24h
Kostenlos beraten lassen 0800 71 20000

Mo-Fr 8-17 Uhr · kostenlos & unverbindlich