Ollama unter Windows installieren — Schritt für Schritt (2026)

Ollama läuft auf Windows 11 nativ — kein WSL nötig, GPU-Beschleunigung funktioniert out-of-the-box mit NVIDIA und AMD. In 20 Minuten haben Sie einen vollwertigen lokalen ChatGPT-Ersatz auf Ihrem PC.

Was Sie brauchen

  • Windows 11 (Windows 10 funktioniert, ist aber weniger getestet)
  • Mindestens 16 GB RAM (32 GB für komfortables Arbeiten mit 8B-Modellen)
  • NVIDIA-GPU mit ≥8 GB VRAM oder AMD-GPU (Radeon 7000-Serie) oder CPU-only (langsamer)
  • Admin-Rechte auf dem Rechner
  • 10–50 GB freien Speicherplatz (je nach Modellgröße)

Welches Modell zu Ihrer Hardware passt: VRAM-Rechner auf /hardware/.

Schritt 1 — Installer herunterladen

Auf ollama.com/download die Windows-Version laden (ca. 700 MB). Datei heißt OllamaSetup.exe. Ausführen, „Install" — das war's an der UI-Front.

Der Installer richtet automatisch ein:

  • Ollama-Dienst (läuft als Hintergrund-Prozess, Auto-Start mit Windows)
  • System-Tray-Icon
  • HTTP-API auf localhost:11434
  • Modell-Verzeichnis in %USERPROFILE%\.ollama\models

Schritt 2 — GPU-Erkennung prüfen

PowerShell öffnen und prüfen, ob Ollama die GPU sieht:

ollama serve  # läuft normalerweise schon — Ctrl+C wenn ja
ollama list   # leer beim Erst-Start, das ist okay

Den eigentlichen GPU-Test machen Sie beim ersten Modell-Lauf (Schritt 3) — im Log sehen Sie, ob CUDA / ROCm gefunden wurde.

NVIDIA: CUDA-Treiber

Bei NVIDIA brauchen Sie aktuelle Grafiktreiber (Studio oder Game Ready, Version ≥545). Falls Ollama auf CPU zurückfällt: Treiber updaten via nvidia.com.

AMD: ROCm

AMD-Support ist neuer und auf RDNA-3-Karten beschränkt (Radeon RX 7600 / 7700 / 7800 / 7900 + Pro W7000). AMD-Adrenalin-Treiber ≥24.3 vorausgesetzt.

Schritt 3 — Erstes Modell laden

Für 16 GB VRAM (z. B. RTX 4060 Ti 16GB) ist llama3.3:8b-instruct-q4_K_M ein guter Start:

ollama pull llama3.3:8b
ollama run llama3.3:8b
>>> Hallo, was kannst du?

Erste Antwort dauert 5–15 Sekunden (Modell wird in VRAM geladen), dann läuft das Modell flüssig. Mit Ctrl+D oder /bye beenden.

Modell-Empfehlungen nach VRAM:

  • 8 GB: qwen3:4b, gemma3:4b
  • 16 GB: llama3.3:8b, qwen3:8b, phi-4:14b
  • 24 GB: qwen3:32b-q4, gemma3:27b
  • 48 GB+: llama3.3:70b-q4

Schritt 4 — OpenWebUI als ChatGPT-Ersatz

Die CLI ist nett für Tests, für echte Arbeit will man eine UI. OpenWebUI ist die Standard-Lösung — läuft als Docker-Container, sieht aus wie ChatGPT, hängt sich an Ollama.

Docker Desktop für Windows installieren (von docker.com), dann:

docker run -d --name openwebui -p 3000:3000 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v openwebui:/app/backend/data \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Browser auf http://localhost:3000, ersten Account anlegen (bleibt lokal), Modell aus dem Dropdown wählen, loslegen.

Schritt 5 — Modell-Verzeichnis verlagern (optional, aber empfohlen)

Standardmäßig landen Modelle auf C:. Bei 70B-Modellen (40 GB+) wird's eng. So verlagern Sie das Verzeichnis auf eine andere SSD:

  1. Ollama-Dienst stoppen (System-Tray → Quit)
  2. Umgebungsvariable setzen: System → erweiterte Einstellungen → Umgebungsvariablen → neu: OLLAMA_MODELS = D:\ollama\models
  3. Bestehende Modelle nach D:\ollama\models verschieben
  4. Ollama neu starten

Typische Probleme

„CUDA out of memory"

Modell ist größer als die GPU. Lösungen: kleineres Modell (z. B. llama3.3:8b-q4 statt q8), oder OLLAMA_NUM_GPU=0 für CPU-Modus.

Ollama läuft nur auf CPU obwohl GPU vorhanden

Im Log (System-Tray → Logs) prüfen, ob CUDA/ROCm gefunden wurde. Häufige Ursachen: alter Treiber, andere GPU primär (Notebook-Hybrid), VRAM zu klein.

Firewall-Warnung beim Start

Windows Defender fragt einmal nach Netzwerk-Erlaubnis. „Privates Netzwerk" reicht — Ollama braucht nicht ins öffentliche Netz.

Datenschutz + Compliance

Das ist der ganze Punkt von Ollama: nichts verlässt Ihren Rechner. Wichtig für KMU mit sensiblen Daten, siehe unsere KI-Richtlinien-Vorlage + Glossar-Eintrag „Lokale KI".

Nächste Schritte

Weiterlesen

Newsletter

1× pro Woche das KI-Lagebild

Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Kostenlos, jederzeit abbestellbar.

Kein Spam, keine Daten weitergegeben. Server in Deutschland (Brevo EU).

/* CLUSTER-INJECTION-START */ /* CLUSTER-INJECTION-END */