Ollama auf macOS installieren — Anleitung für Apple Silicon (2026)

Apple Silicon ist für lokale KI besser als die meisten Leute glauben. Der Trick: Unified Memory bedeutet, das gesamte RAM steht der GPU zur Verfügung. Ein Mac Mini M4 Pro mit 64 GB führt 70B-Modelle aus — für 2.400 € statt 7.000 € für eine vergleichbare NVIDIA-Workstation.

Was Sie brauchen

  • Mac mit Apple Silicon (M1, M2, M3, M4 — alle gehen)
  • Mindestens 16 GB Unified Memory (24 GB+ deutlich angenehmer)
  • macOS 13 Ventura oder neuer
  • 10–50 GB freier Speicher

Intel-Macs werden technisch unterstützt, aber ohne Metal-GPU-Beschleunigung — Performance ist 5–10× schlechter. Nicht empfohlen.

Schritt 1 — Installation

Via Homebrew (empfohlen)

brew install ollama

Via Installer

Alternative: auf ollama.com/download die macOS-Version laden, .zip entpacken, Ollama.app in /Applications ziehen, starten. Menüleisten-Icon erscheint.

Schritt 2 — Dienst starten

# Falls über Homebrew installiert:
brew services start ollama

# Manueller Start (für Debugging):
ollama serve

API läuft auf localhost:11434. Test:

curl http://localhost:11434/api/tags

Schritt 3 — Erstes Modell

Apple Silicon nutzt die GPU automatisch via Metal — keine Treiber-Installation, kein Setup. Einfach laden und starten:

ollama pull llama3.3:8b
ollama run llama3.3:8b

Erste Antwort dauert 3–8 Sekunden (Modell wird in Memory geladen), danach läuft alles im RAM.

Modell-Empfehlungen nach Unified Memory

  • 16 GB: llama3.3:8b, qwen3:8b, phi-4:14b-q4
  • 24 GB: qwen3:14b, mistral-small:22b-q4
  • 32 GB: gemma3:27b-q4, qwen3:32b-q4
  • 64 GB: llama3.3:70b-q4 — ja, das geht auf einem Mac Mini M4 Pro
  • 96 GB+: llama3.3:70b-q8 (volle Qualität)

Wichtig zur Speicher-Logik: macOS lässt Ollama bis zu ~75 % des Unified Memory für KI nutzen. Bei 64 GB RAM also bis ~48 GB für ein Modell. Den Rest braucht das System.

Schritt 4 — OpenWebUI als ChatGPT-Ersatz

Docker Desktop für Mac installieren (von docker.com), dann:

docker run -d --name openwebui -p 3000:3000 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v openwebui:/app/backend/data \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Browser auf http://localhost:3000, Account anlegen (lokal), Modell wählen.

Schritt 5 — Modell-Verzeichnis verlagern

Standardmäßig liegen Modelle in ~/.ollama/models. Bei begrenztem internen Speicher auf eine externe SSD verlagern:

# Ollama stoppen
brew services stop ollama

# Variable in der Shell-Config setzen (Beispiel zsh):
echo 'export OLLAMA_MODELS="/Volumes/SSD/ollama-models"' >> ~/.zshrc
source ~/.zshrc

# Bestehende Modelle verschieben
mv ~/.ollama/models /Volumes/SSD/ollama-models

# Dienst neu starten
brew services start ollama

Performance — was Sie tatsächlich erwarten können

Geschwindigkeit in Tokens/Sekunde, gemessen mit llama3.3:8b-q4:

  • M1 (8 GB): ca. 25 t/s
  • M2 Pro (16 GB): ca. 40 t/s
  • M3 Max (36 GB): ca. 65 t/s
  • M4 Pro (24 GB): ca. 55 t/s
  • M2 Ultra (192 GB): ca. 90 t/s

Zum Vergleich: GPT-4o-API liefert ca. 80 t/s, ist also vergleichbar. Lokal ist man bei Latenz besser (kein Netzwerk-Overhead), bei Burst-Last gleich, bei Skalierung schlechter (single user vs. Tausende parallel).

Typische Probleme

„Cannot allocate memory"

Modell zu groß für verfügbares RAM. Lösungen: andere Apps schließen, kleinere Quantisierung wählen (q4 statt q8), oder kleineres Modell.

Modell läuft, aber sehr langsam

Vermutlich Intel-Mac oder Rosetta-Übersetzung. uname -m sollte arm64 ausgeben, nicht x86_64.

OpenWebUI sieht Ollama nicht

In Docker Desktop unter Settings → Resources → Network: „host.docker.internal" muss erreichbar sein. Alternative: Ollama mit OLLAMA_HOST=0.0.0.0:11434 starten.

Warum Apple Silicon für lokale KI gut ist

  • Unified Memory: kein VRAM/RAM-Split, kein PCIe-Bottleneck
  • Effizienz: ein M4 Pro zieht 30 W Volllast vs. 300 W bei einer RTX 4090
  • Lautstärke: typischerweise lautlos bis Last (Mac Mini hat aktiven Kühler, ist aber leise)
  • Preis pro GB Memory: bei 64 GB+ günstiger als NVIDIA-Workstation

Wo NVIDIA klar besser ist: Training (Mac nicht praktikabel), Multi-GPU-Setups, sehr hohe Token-Raten parallel.

Weiterlesen

Newsletter

1× pro Woche das KI-Lagebild

Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Kostenlos, jederzeit abbestellbar.

Kein Spam, keine Daten weitergegeben. Server in Deutschland (Brevo EU).

/* CLUSTER-INJECTION-START */ /* CLUSTER-INJECTION-END */