Ollama unter Windows installieren — Schritt für Schritt (2026)
Ollama läuft auf Windows 11 nativ — kein WSL nötig, GPU-Beschleunigung funktioniert out-of-the-box mit NVIDIA und AMD. In 20 Minuten haben Sie einen vollwertigen lokalen ChatGPT-Ersatz auf Ihrem PC.
Was Sie brauchen
- Windows 11 (Windows 10 funktioniert, ist aber weniger getestet)
- Mindestens 16 GB RAM (32 GB für komfortables Arbeiten mit 8B-Modellen)
- NVIDIA-GPU mit ≥8 GB VRAM oder AMD-GPU (Radeon 7000-Serie) oder CPU-only (langsamer)
- Admin-Rechte auf dem Rechner
- 10–50 GB freien Speicherplatz (je nach Modellgröße)
Welches Modell zu Ihrer Hardware passt: VRAM-Rechner auf /hardware/.
Schritt 1 — Installer herunterladen
Auf ollama.com/download die Windows-Version laden (ca. 700 MB). Datei heißt OllamaSetup.exe. Ausführen, „Install" — das war's an der UI-Front.
Der Installer richtet automatisch ein:
- Ollama-Dienst (läuft als Hintergrund-Prozess, Auto-Start mit Windows)
- System-Tray-Icon
- HTTP-API auf
localhost:11434 - Modell-Verzeichnis in
%USERPROFILE%\.ollama\models
Schritt 2 — GPU-Erkennung prüfen
PowerShell öffnen und prüfen, ob Ollama die GPU sieht:
ollama serve # läuft normalerweise schon — Ctrl+C wenn ja
ollama list # leer beim Erst-Start, das ist okay
Den eigentlichen GPU-Test machen Sie beim ersten Modell-Lauf (Schritt 3) — im Log sehen Sie, ob CUDA / ROCm gefunden wurde.
NVIDIA: CUDA-Treiber
Bei NVIDIA brauchen Sie aktuelle Grafiktreiber (Studio oder Game Ready, Version ≥545). Falls Ollama auf CPU zurückfällt: Treiber updaten via nvidia.com.
AMD: ROCm
AMD-Support ist neuer und auf RDNA-3-Karten beschränkt (Radeon RX 7600 / 7700 / 7800 / 7900 + Pro W7000). AMD-Adrenalin-Treiber ≥24.3 vorausgesetzt.
Schritt 3 — Erstes Modell laden
Für 16 GB VRAM (z. B. RTX 4060 Ti 16GB) ist llama3.3:8b-instruct-q4_K_M ein guter Start:
ollama pull llama3.3:8b
ollama run llama3.3:8b
>>> Hallo, was kannst du?
Erste Antwort dauert 5–15 Sekunden (Modell wird in VRAM geladen), dann läuft das Modell flüssig. Mit Ctrl+D oder /bye beenden.
Modell-Empfehlungen nach VRAM:
- 8 GB:
qwen3:4b,gemma3:4b - 16 GB:
llama3.3:8b,qwen3:8b,phi-4:14b - 24 GB:
qwen3:32b-q4,gemma3:27b - 48 GB+:
llama3.3:70b-q4
Schritt 4 — OpenWebUI als ChatGPT-Ersatz
Die CLI ist nett für Tests, für echte Arbeit will man eine UI. OpenWebUI ist die Standard-Lösung — läuft als Docker-Container, sieht aus wie ChatGPT, hängt sich an Ollama.
Docker Desktop für Windows installieren (von docker.com), dann:
docker run -d --name openwebui -p 3000:3000 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
-v openwebui:/app/backend/data \
--restart always \
ghcr.io/open-webui/open-webui:main
Browser auf http://localhost:3000, ersten Account anlegen (bleibt lokal), Modell aus dem Dropdown wählen, loslegen.
Schritt 5 — Modell-Verzeichnis verlagern (optional, aber empfohlen)
Standardmäßig landen Modelle auf C:. Bei 70B-Modellen (40 GB+) wird's eng. So verlagern Sie das Verzeichnis auf eine andere SSD:
- Ollama-Dienst stoppen (System-Tray → Quit)
- Umgebungsvariable setzen: System → erweiterte Einstellungen → Umgebungsvariablen → neu:
OLLAMA_MODELS=D:\ollama\models - Bestehende Modelle nach
D:\ollama\modelsverschieben - Ollama neu starten
Typische Probleme
„CUDA out of memory"
Modell ist größer als die GPU. Lösungen: kleineres Modell (z. B. llama3.3:8b-q4 statt q8), oder OLLAMA_NUM_GPU=0 für CPU-Modus.
Ollama läuft nur auf CPU obwohl GPU vorhanden
Im Log (System-Tray → Logs) prüfen, ob CUDA/ROCm gefunden wurde. Häufige Ursachen: alter Treiber, andere GPU primär (Notebook-Hybrid), VRAM zu klein.
Firewall-Warnung beim Start
Windows Defender fragt einmal nach Netzwerk-Erlaubnis. „Privates Netzwerk" reicht — Ollama braucht nicht ins öffentliche Netz.
Datenschutz + Compliance
Das ist der ganze Punkt von Ollama: nichts verlässt Ihren Rechner. Wichtig für KMU mit sensiblen Daten, siehe unsere KI-Richtlinien-Vorlage + Glossar-Eintrag „Lokale KI".
Nächste Schritte
- Llama 3.3 — alle Modellvarianten im Detail
- Workflow: lokale KI für E-Mail-Drafts (kein Cloud-Risiko)
- Ollama im Test — was es kann, was es nicht kann
Weiterlesen
- Lokale KI — der vollständige KMU-Leitfaden
- Llama 3.3 lokal installieren — alle Plattformen
- Hardware für lokale KI — GPU-Vergleich + VRAM-Rechner
- Ollama im Test — Bewertung + Verwendungs-Empfehlung
- Glossar: Ollama
- Glossar: Quantisierung
Newsletter
1× pro Woche das KI-Lagebild
Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Kostenlos, jederzeit abbestellbar.
Kein Spam, keine Daten weitergegeben. Server in Deutschland (Brevo EU).