Llama 3.3 lokal installieren — Windows, Mac, Linux (Schritt für Schritt)
Llama 3.3 70B lokal in 15 Minuten. Auf Mac, Windows oder Linux. Mit Ollama. Hier ist die Schritt-für-Schritt-Anleitung mit echten Befehlen, Hardware-Anforderungen und allem, was Reddit-Tutorials für DACH-Nutzer vergessen.
Diese Anleitung führt dich durch die komplette Installation von Ollama mit Llama 3.3 70B auf allen drei großen Betriebssystemen. Am Ende hast du eine lokale KI laufen, die ChatGPT-3.5-Niveau erreicht oder übertrifft — ohne Cloud, ohne Datenabfluss, ohne monatliche Kosten.
Was du am Ende hast
- Ollama-Server läuft im Hintergrund auf deinem Rechner
- Llama 3.3 70B (oder kleineres Modell, je nach Hardware) ist installiert
- OpenAI-kompatible API unter
http://localhost:11434 - OpenWebUI als ChatGPT-ähnliches Web-Frontend (optional)
- Alle Daten bleiben auf deinem Rechner — kein Account, keine Cloud
Hardware-Voraussetzungen
Bevor wir installieren: was funktioniert auf welcher Hardware?
| Hardware | Modell-Empfehlung | Performance |
|---|---|---|
| Mac M1/M2/M3/M4 mit 16 GB RAM | Llama 3.2 8B Q4 | ~25 Tokens/s |
| Mac M2/M3/M4 Pro/Max mit 32 GB | Llama 3.3 14B Q4 oder Qwen 3 14B | ~18 Tokens/s |
| Mac M4 Pro/Max mit 64+ GB | Llama 3.3 70B Q4 | ~9 Tokens/s |
| NVIDIA RTX 3060 12 GB | Llama 3.2 8B Q4 | ~50 Tokens/s |
| NVIDIA RTX 4070 12 GB | Qwen 3 14B Q4 | ~45 Tokens/s |
| NVIDIA RTX 3090 / 4090 24 GB | Qwen 3 32B Q4 oder Llama 3.3 70B teil-CPU | ~30 Tokens/s |
| 2× RTX 3090/4090 | Llama 3.3 70B Q4 voll auf GPU | ~25 Tokens/s |
Faustregel: Parameter × 0,6 GB = VRAM-Bedarf bei Q4-Quantisierung. Llama 3.3 70B braucht also ~40 GB VRAM. Mehr Hardware-Details: Hardware-Hub mit VRAM-Rechner.
Installation auf macOS
Schritt 1: Ollama-App herunterladen
Gehe auf ollama.com/download und lade die Mac-App. Alternativ via Homebrew:
brew install ollama
Schritt 2: Ollama starten
Wenn du die App installiert hast: einfach öffnen. Sie läuft als Menüleisten-Icon. Wenn Homebrew installiert hat, starte den Server:
ollama serve
Schritt 3: Modell herunterladen
Jetzt das passende Modell ziehen. Für 64+ GB Mac:
ollama pull llama3.3:70b
Für kleinere Macs:
ollama pull llama3.2:8b
# oder
ollama pull qwen3:14b
Download dauert je nach Modell und Internet-Verbindung 5–30 Minuten. 70B ist ~40 GB groß.
Schritt 4: Modell testen
ollama run llama3.3:70b
>>> Erkläre kurz: Was ist DSGVO?
Die ersten Tokens dauern bei 70B auf Mac ~5–10 Sekunden, dann läuft die Generierung mit ~9 Tokens/s. Bei 14B sofort schnell. Mit /bye verlassen.
Installation auf Windows
Schritt 1: Ollama-App herunterladen
Von ollama.com/download/windows. Doppelklick zum Installieren. Ollama läuft als Windows-Service im Hintergrund.
Schritt 2: PowerShell oder cmd öffnen
Windows-Taste → „PowerShell" eingeben → öffnen. Dann:
ollama --version
# Erwarteter Output: ollama version is 0.x.x
Schritt 3: NVIDIA-GPU-Treiber prüfen (falls vorhanden)
Mit NVIDIA-GPU: stelle sicher, dass aktuelle CUDA-Treiber installiert sind. Test:
nvidia-smi
# Zeigt GPU + VRAM
Wenn der Befehl nicht gefunden wird: NVIDIA-Treiber aktualisieren von nvidia.com/drivers.
Schritt 4: Modell herunterladen + testen
ollama pull qwen3:32b
ollama run qwen3:32b
>>> Was ist EU AI Act in einem Satz?
Häufige Windows-Probleme
- Ollama nutzt CPU statt GPU: meist CUDA-Treiber-Version zu alt. Aktualisieren.
- Out of Memory: kleineres Modell wählen oder höhere Quantisierung (z.B. q3 statt q4).
- Firewall blockiert Port 11434: Windows-Firewall-Regel für ollama.exe erstellen.
Installation auf Linux (Ubuntu/Debian)
Schritt 1: Ollama installieren
curl -fsSL https://ollama.com/install.sh | sh
Das Script erkennt deine NVIDIA-GPU automatisch und installiert CUDA-Unterstützung. Bei AMD-GPU werden ROCm-Treiber genutzt.
Schritt 2: Service prüfen
systemctl status ollama
# active (running) erwartet
Schritt 3: GPU-Erkennung verifizieren
ollama serve 2>&1 | grep -i "gpu\|cuda"
# Sollte erkannte GPU(s) zeigen
Schritt 4: Modell herunterladen + testen
ollama pull llama3.3:70b
ollama run llama3.3:70b
>>> Wie lange dauert Anpassung einer KI-Richtlinie?
Server-Setup für Multi-User (Optional)
Wenn der Server für mehrere Personen erreichbar sein soll:
# /etc/systemd/system/ollama.service ändern:
# Environment="OLLAMA_HOST=0.0.0.0"
sudo systemctl daemon-reload
sudo systemctl restart ollama
Wichtig: für Multi-User unbedingt Reverse-Proxy mit Auth davorschalten (Caddy, nginx, Traefik). Ollama selbst hat keine Authentifizierung.
OpenWebUI als Chat-Frontend (alle OS)
Das CLI ist OK für Tests. Für produktive Nutzung willst du ein Web-Frontend wie OpenWebUI — sieht aus wie ChatGPT, läuft lokal.
Installation per Docker (funktioniert auf allen OS):
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
Dann http://localhost:3000 öffnen, Account anlegen (lokal, kein Cloud-Konto nötig). OpenWebUI erkennt Ollama automatisch und zeigt deine Modelle.
Troubleshooting: häufige Probleme
„Out of Memory" obwohl genug VRAM
Ollama lädt mehrere Modelle parallel ins VRAM, falls du sie nacheinander aufgerufen hast. Lösung: ollama ps zeigt aktive Modelle, ollama stop <modell> stoppt einzelne.
Modell-Antworten sehr langsam
Prüfe ob die GPU genutzt wird:
nvidia-smi -l 1
# während Ollama läuft
Wenn GPU bei 0% bleibt: Treiber, CUDA-Version oder Ollama-Build-Problem.
Modell halluziniert oder versteht Deutsch schlecht
Llama 3.3 ist gut bei Deutsch, aber nicht perfekt. Bessere Alternativen für DACH:
- Qwen 3 32B/72B (Alibaba): meist beste DE-Performance bei Open-Models
- Mistral Small 22B (Frankreich): EU-Modell, solide DE-Performance
- Spezialisierte Fine-Tunes: SauerkrautLM, DiscoLM (deutsch optimiert)
System-Crash beim Modell-Laden
Nicht genug RAM/VRAM. Lösung: kleineres Modell oder höhere Quantisierung (Q3 statt Q4). Bei Mac: Activity Monitor checken, ob Swap-File anschwillt.
Performance-Tuning
Mehr Tokens/Sekunde durch GPU-Offload
Bei begrenztem VRAM lädt Ollama Teile aufs CPU/RAM. Maximalen GPU-Offload erzwingen:
# Beim Modell-Start
OLLAMA_NUM_GPU=99 ollama run qwen3:32b
Mehrere Modelle gleichzeitig
Verfügbar ab Ollama 0.5+:
OLLAMA_MAX_LOADED_MODELS=3 ollama serve
Nächste Schritte
- RAG mit eigenen Dokumenten: OpenWebUI hat eingebautes RAG-Modul. PDFs, DOCX hochladen, KI antwortet mit Belegstellen. Mehr: RAG-Glossar
- n8n anbinden: Workflow-Automatisierung mit lokaler KI. Automatisierungs-Hub
- Reverse-Proxy + Auth: Caddy + Authelia für sicheren Multi-User-Zugang
- Modelle wechseln und vergleichen: verschiedene Modelle parallel testen — Qwen vs Llama vs Mistral
FAQ
Brauche ich einen Ollama-Account?
Nein. Alles läuft lokal, kein Account, keine Anmeldung. Im Gegensatz zu ChatGPT oder Claude.
Kann ich Ollama auch auf einem Raspberry Pi laufen lassen?
Theoretisch ja (Pi 5 mit 8 GB RAM), aber nur sehr kleine Modelle (1B-3B) und sehr langsam. Für produktive Nutzung nicht zu empfehlen. Mac Mini M4 ab 500 € ist die deutlich bessere Wahl.
Ist die API wirklich OpenAI-kompatibel?
Ja, fast vollständig. Bestehende Code-Beispiele für OpenAI funktionieren mit Ollama nur durch Änderung der Base-URL. n8n, LangChain, LlamaIndex, viele Cursor-Forks etc. unterstützen das.
Was kostet das im Betrieb?
Strom. Eine RTX 4090 unter Last zieht 350–450 W. Bei 10 h/Tag Nutzung und 0,30 €/kWh: ~35 €/Monat. Bei Mac: deutlich weniger (~5–10 €).
Verwandte Themen
Lokale KI Hub · Hardware-Kaufberater + VRAM-Rechner · Ollama Vollständiger Review · Quantisierung erklärt · RAG einrichten
Newsletter
1× pro Woche das KI-Lagebild
Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Kostenlos, jederzeit abbestellbar.
Kein Spam, keine Daten weitergegeben. Server in Deutschland (Brevo EU).
Kommentare ()