Ollama auf macOS installieren — Anleitung für Apple Silicon (2026)
Apple Silicon ist für lokale KI besser als die meisten Leute glauben. Der Trick: Unified Memory bedeutet, das gesamte RAM steht der GPU zur Verfügung. Ein Mac Mini M4 Pro mit 64 GB führt 70B-Modelle aus — für 2.400 € statt 7.000 € für eine vergleichbare NVIDIA-Workstation.
Was Sie brauchen
- Mac mit Apple Silicon (M1, M2, M3, M4 — alle gehen)
- Mindestens 16 GB Unified Memory (24 GB+ deutlich angenehmer)
- macOS 13 Ventura oder neuer
- 10–50 GB freier Speicher
Intel-Macs werden technisch unterstützt, aber ohne Metal-GPU-Beschleunigung — Performance ist 5–10× schlechter. Nicht empfohlen.
Schritt 1 — Installation
Via Homebrew (empfohlen)
brew install ollama
Via Installer
Alternative: auf ollama.com/download die macOS-Version laden, .zip entpacken, Ollama.app in /Applications ziehen, starten. Menüleisten-Icon erscheint.
Schritt 2 — Dienst starten
# Falls über Homebrew installiert:
brew services start ollama
# Manueller Start (für Debugging):
ollama serve
API läuft auf localhost:11434. Test:
curl http://localhost:11434/api/tags
Schritt 3 — Erstes Modell
Apple Silicon nutzt die GPU automatisch via Metal — keine Treiber-Installation, kein Setup. Einfach laden und starten:
ollama pull llama3.3:8b
ollama run llama3.3:8b
Erste Antwort dauert 3–8 Sekunden (Modell wird in Memory geladen), danach läuft alles im RAM.
Modell-Empfehlungen nach Unified Memory
- 16 GB:
llama3.3:8b,qwen3:8b,phi-4:14b-q4 - 24 GB:
qwen3:14b,mistral-small:22b-q4 - 32 GB:
gemma3:27b-q4,qwen3:32b-q4 - 64 GB:
llama3.3:70b-q4— ja, das geht auf einem Mac Mini M4 Pro - 96 GB+:
llama3.3:70b-q8(volle Qualität)
Wichtig zur Speicher-Logik: macOS lässt Ollama bis zu ~75 % des Unified Memory für KI nutzen. Bei 64 GB RAM also bis ~48 GB für ein Modell. Den Rest braucht das System.
Schritt 4 — OpenWebUI als ChatGPT-Ersatz
Docker Desktop für Mac installieren (von docker.com), dann:
docker run -d --name openwebui -p 3000:3000 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
-v openwebui:/app/backend/data \
--restart always \
ghcr.io/open-webui/open-webui:main
Browser auf http://localhost:3000, Account anlegen (lokal), Modell wählen.
Schritt 5 — Modell-Verzeichnis verlagern
Standardmäßig liegen Modelle in ~/.ollama/models. Bei begrenztem internen Speicher auf eine externe SSD verlagern:
# Ollama stoppen
brew services stop ollama
# Variable in der Shell-Config setzen (Beispiel zsh):
echo 'export OLLAMA_MODELS="/Volumes/SSD/ollama-models"' >> ~/.zshrc
source ~/.zshrc
# Bestehende Modelle verschieben
mv ~/.ollama/models /Volumes/SSD/ollama-models
# Dienst neu starten
brew services start ollama
Performance — was Sie tatsächlich erwarten können
Geschwindigkeit in Tokens/Sekunde, gemessen mit llama3.3:8b-q4:
- M1 (8 GB): ca. 25 t/s
- M2 Pro (16 GB): ca. 40 t/s
- M3 Max (36 GB): ca. 65 t/s
- M4 Pro (24 GB): ca. 55 t/s
- M2 Ultra (192 GB): ca. 90 t/s
Zum Vergleich: GPT-4o-API liefert ca. 80 t/s, ist also vergleichbar. Lokal ist man bei Latenz besser (kein Netzwerk-Overhead), bei Burst-Last gleich, bei Skalierung schlechter (single user vs. Tausende parallel).
Typische Probleme
„Cannot allocate memory"
Modell zu groß für verfügbares RAM. Lösungen: andere Apps schließen, kleinere Quantisierung wählen (q4 statt q8), oder kleineres Modell.
Modell läuft, aber sehr langsam
Vermutlich Intel-Mac oder Rosetta-Übersetzung. uname -m sollte arm64 ausgeben, nicht x86_64.
OpenWebUI sieht Ollama nicht
In Docker Desktop unter Settings → Resources → Network: „host.docker.internal" muss erreichbar sein. Alternative: Ollama mit OLLAMA_HOST=0.0.0.0:11434 starten.
Warum Apple Silicon für lokale KI gut ist
- Unified Memory: kein VRAM/RAM-Split, kein PCIe-Bottleneck
- Effizienz: ein M4 Pro zieht 30 W Volllast vs. 300 W bei einer RTX 4090
- Lautstärke: typischerweise lautlos bis Last (Mac Mini hat aktiven Kühler, ist aber leise)
- Preis pro GB Memory: bei 64 GB+ günstiger als NVIDIA-Workstation
Wo NVIDIA klar besser ist: Training (Mac nicht praktikabel), Multi-GPU-Setups, sehr hohe Token-Raten parallel.
Weiterlesen
- Lokale KI — der vollständige KMU-Leitfaden
- Llama 3.3 lokal installieren — alle Plattformen
- Hardware für lokale KI — GPU-Vergleich + VRAM-Rechner
- Ollama im Test — Bewertung + Verwendungs-Empfehlung
- Glossar: Ollama
- Glossar: Quantisierung
Newsletter
1× pro Woche das KI-Lagebild
Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Kostenlos, jederzeit abbestellbar.
Kein Spam, keine Daten weitergegeben. Server in Deutschland (Brevo EU).