Ollama

Tools & Plattformen

Ollama — Tool zum lokalen Betreiben von LLMs — ein Befehl, ein Modell.

Beispiel

ollama run llama3.3 — und ein 70B-Modell läuft auf deinem Rechner. Kein Account, keine Cloud.

Verwandt: LM Studio · OpenWebUI · Lokale KI

Mehr im Glossar

Alle Begriffe auf einen Blick →

Ollama ist eine freie Software, mit der Sie große Sprachmodelle (Large Language Models, LLMs) wie Llama, Mistral oder Gemma lokal auf Ihrem eigenen Rechner ausführen können, ohne dafür eine Internetverbindung oder einen Cloud-Dienst zu benötigen.

In einfachen Worten

Stellen Sie sich Ollama wie einen lokalen Getränkeautomaten für KI-Modelle vor. Statt jedes Mal in die Cloud zu gehen, um einen Kaffee (eine KI-Antwort) zu holen, steht der Automat direkt in Ihrem Büro. Sie wählen aus, welches „Getränk“ (Modell) Sie möchten – zum Beispiel ein kleines, schnelles Modell für einfache Fragen oder ein großes, leistungsstarkes für komplexe Analysen. Der Automat bereitet es dann auf Ihrem eigenen Rechner zu. Das spart Zeit, schützt Ihre Daten, weil alles lokal bleibt, und kostet keine laufenden Gebühren pro Nutzung.

Was bedeutet das technisch

Ollama ist ein Kommandozeilen-Tool und ein Server, der die Ausführung von LLMs auf der eigenen Hardware vereinfacht. Es kümmert sich um das Herunterladen, die Installation und die Optimierung der Modelle für die verfügbare Rechenleistung (CPU oder GPU). Technisch gesehen nutzt Ollama die quantisierten Versionen der Modelle, die weniger Speicher und Rechenleistung benötigen als die vollständigen, in der Cloud gehosteten Varianten. So läuft etwa ein 7-Milliarden-Parameter-Modell wie Llama 3 oft bereits auf einem handelsüblichen Laptop mit 8 GB RAM, wenn auch langsamer als auf einer teuren Grafikkarte.

Ollama stellt eine REST-API bereit, über die andere Programme (z. B. Chat-Anwendungen, Textverarbeitung oder eigene Unternehmenssoftware) mit dem Modell kommunizieren können. Das bedeutet: Ein KMU kann Ollama auf einem Server im eigenen Netz installieren und dann von mehreren Arbeitsplätzen aus darauf zugreifen. Die Modelle selbst sind vortrainiert, aber nicht auf die spezifischen Daten des Unternehmens angepasst. Ollama selbst führt kein Training durch, sondern nur die sogenannte Inferenz – das Beantworten von Fragen oder das Erzeugen von Text auf Basis des vorhandenen Wissens.

Warum es für KMU relevant ist

Für kleine und mittlere Unternehmen bietet Ollama drei entscheidende Vorteile: Datenschutz, Kostenkontrolle und Offline-Fähigkeit. Da alle Daten auf dem eigenen Rechner oder Server bleiben, müssen Sie keine sensiblen Kundendaten, Rechnungen oder interne Dokumente an einen externen Cloud-Anbieter senden. Das ist besonders wichtig für Unternehmen mit strengen Datenschutzauflagen, etwa in der Rechtsberatung, im Gesundheitswesen oder im Finanzsektor.

Ein konkretes Beispiel: Ein Handwerksbetrieb mit 20 Mitarbeitern könnte Ollama auf einem handelsüblichen Büro-PC installieren und damit ein KI-gestütztes Handbuch für häufig gestellte Kundenfragen betreiben. Die Kosten beschränken sich auf die einmalige Anschaffung der Hardware (ca. 1.000–2.000 Euro für einen geeigneten Rechner mit Grafikkarte) und den Stromverbrauch. Im Vergleich zu Cloud-Diensten, die oft pro Anfrage oder pro Monat abrechnen, spart das auf Dauer Geld. Ein weiteres Beispiel: Ein Ingenieurbüro, das regelmäßig Angebote erstellt, könnte Ollama nutzen, um Textentwürfe lokal zu generieren, ohne dass vertrauliche Konstruktionsdaten das Unternehmen verlassen.

Die Risiken liegen vor allem in der begrenzten Leistungsfähigkeit: Große Modelle mit über 30 Milliarden Parametern laufen auf normaler Bürohardware sehr langsam oder gar nicht. Zudem müssen Sie sich um Updates und die Auswahl des passenden Modells selbst kümmern. Ollama ist kein Plug-and-Play-Produkt, sondern erfordert grundlegende IT-Kenntnisse zur Installation und Konfiguration. Für Unternehmen ohne eigene IT-Abteilung kann die Einrichtung daher eine Hürde darstellen.

Verwandte Begriffe

Großes Sprachmodell (LLM) – Die zugrundeliegende Technologie, die Ollama lokal ausführt.

Quantisierung – Das Verfahren, das Modelle kleiner und schneller macht, damit sie auf lokaler Hardware laufen.

Inferenz – Der Vorgang, bei dem das Modell eine Antwort berechnet, ohne neu trainiert zu werden.

RAG (Retrieval-Augmented Generation) – Eine Methode, um lokale Modelle mit eigenen Unternehmensdaten zu kombinieren, ohne sie neu zu trainieren.

Open Source – Die Lizenzform, unter der Ollama und viele der unterstützten Modelle verfügbar sind.