Llama 3.3 lokal installieren — Windows, Mac, Linux (Schritt für Schritt)

Llama 3.3 lokal installieren — Windows, Mac, Linux (Schritt für Schritt)

Llama 3.3 70B lokal in 15 Minuten. Auf Mac, Windows oder Linux. Mit Ollama. Hier ist die Schritt-für-Schritt-Anleitung mit echten Befehlen, Hardware-Anforderungen und allem, was Reddit-Tutorials für DACH-Nutzer vergessen.

Diese Anleitung führt dich durch die komplette Installation von Ollama mit Llama 3.3 70B auf allen drei großen Betriebssystemen. Am Ende hast du eine lokale KI laufen, die ChatGPT-3.5-Niveau erreicht oder übertrifft — ohne Cloud, ohne Datenabfluss, ohne monatliche Kosten.

Was du am Ende hast

  • Ollama-Server läuft im Hintergrund auf deinem Rechner
  • Llama 3.3 70B (oder kleineres Modell, je nach Hardware) ist installiert
  • OpenAI-kompatible API unter http://localhost:11434
  • OpenWebUI als ChatGPT-ähnliches Web-Frontend (optional)
  • Alle Daten bleiben auf deinem Rechner — kein Account, keine Cloud

Hardware-Voraussetzungen

Bevor wir installieren: was funktioniert auf welcher Hardware?

HardwareModell-EmpfehlungPerformance
Mac M1/M2/M3/M4 mit 16 GB RAMLlama 3.2 8B Q4~25 Tokens/s
Mac M2/M3/M4 Pro/Max mit 32 GBLlama 3.3 14B Q4 oder Qwen 3 14B~18 Tokens/s
Mac M4 Pro/Max mit 64+ GBLlama 3.3 70B Q4~9 Tokens/s
NVIDIA RTX 3060 12 GBLlama 3.2 8B Q4~50 Tokens/s
NVIDIA RTX 4070 12 GBQwen 3 14B Q4~45 Tokens/s
NVIDIA RTX 3090 / 4090 24 GBQwen 3 32B Q4 oder Llama 3.3 70B teil-CPU~30 Tokens/s
2× RTX 3090/4090Llama 3.3 70B Q4 voll auf GPU~25 Tokens/s

Faustregel: Parameter × 0,6 GB = VRAM-Bedarf bei Q4-Quantisierung. Llama 3.3 70B braucht also ~40 GB VRAM. Mehr Hardware-Details: Hardware-Hub mit VRAM-Rechner.

Installation auf macOS

Schritt 1: Ollama-App herunterladen

Gehe auf ollama.com/download und lade die Mac-App. Alternativ via Homebrew:

brew install ollama

Schritt 2: Ollama starten

Wenn du die App installiert hast: einfach öffnen. Sie läuft als Menüleisten-Icon. Wenn Homebrew installiert hat, starte den Server:

ollama serve

Schritt 3: Modell herunterladen

Jetzt das passende Modell ziehen. Für 64+ GB Mac:

ollama pull llama3.3:70b

Für kleinere Macs:

ollama pull llama3.2:8b
# oder
ollama pull qwen3:14b

Download dauert je nach Modell und Internet-Verbindung 5–30 Minuten. 70B ist ~40 GB groß.

Schritt 4: Modell testen

ollama run llama3.3:70b
>>> Erkläre kurz: Was ist DSGVO?

Die ersten Tokens dauern bei 70B auf Mac ~5–10 Sekunden, dann läuft die Generierung mit ~9 Tokens/s. Bei 14B sofort schnell. Mit /bye verlassen.

Installation auf Windows

Schritt 1: Ollama-App herunterladen

Von ollama.com/download/windows. Doppelklick zum Installieren. Ollama läuft als Windows-Service im Hintergrund.

Schritt 2: PowerShell oder cmd öffnen

Windows-Taste → „PowerShell" eingeben → öffnen. Dann:

ollama --version
# Erwarteter Output: ollama version is 0.x.x

Schritt 3: NVIDIA-GPU-Treiber prüfen (falls vorhanden)

Mit NVIDIA-GPU: stelle sicher, dass aktuelle CUDA-Treiber installiert sind. Test:

nvidia-smi
# Zeigt GPU + VRAM

Wenn der Befehl nicht gefunden wird: NVIDIA-Treiber aktualisieren von nvidia.com/drivers.

Schritt 4: Modell herunterladen + testen

ollama pull qwen3:32b
ollama run qwen3:32b
>>> Was ist EU AI Act in einem Satz?

Häufige Windows-Probleme

  • Ollama nutzt CPU statt GPU: meist CUDA-Treiber-Version zu alt. Aktualisieren.
  • Out of Memory: kleineres Modell wählen oder höhere Quantisierung (z.B. q3 statt q4).
  • Firewall blockiert Port 11434: Windows-Firewall-Regel für ollama.exe erstellen.

Installation auf Linux (Ubuntu/Debian)

Schritt 1: Ollama installieren

curl -fsSL https://ollama.com/install.sh | sh

Das Script erkennt deine NVIDIA-GPU automatisch und installiert CUDA-Unterstützung. Bei AMD-GPU werden ROCm-Treiber genutzt.

Schritt 2: Service prüfen

systemctl status ollama
# active (running) erwartet

Schritt 3: GPU-Erkennung verifizieren

ollama serve 2>&1 | grep -i "gpu\|cuda"
# Sollte erkannte GPU(s) zeigen

Schritt 4: Modell herunterladen + testen

ollama pull llama3.3:70b
ollama run llama3.3:70b
>>> Wie lange dauert Anpassung einer KI-Richtlinie?

Server-Setup für Multi-User (Optional)

Wenn der Server für mehrere Personen erreichbar sein soll:

# /etc/systemd/system/ollama.service ändern:
# Environment="OLLAMA_HOST=0.0.0.0"

sudo systemctl daemon-reload
sudo systemctl restart ollama

Wichtig: für Multi-User unbedingt Reverse-Proxy mit Auth davorschalten (Caddy, nginx, Traefik). Ollama selbst hat keine Authentifizierung.

OpenWebUI als Chat-Frontend (alle OS)

Das CLI ist OK für Tests. Für produktive Nutzung willst du ein Web-Frontend wie OpenWebUI — sieht aus wie ChatGPT, läuft lokal.

Installation per Docker (funktioniert auf allen OS):

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Dann http://localhost:3000 öffnen, Account anlegen (lokal, kein Cloud-Konto nötig). OpenWebUI erkennt Ollama automatisch und zeigt deine Modelle.

Troubleshooting: häufige Probleme

„Out of Memory" obwohl genug VRAM

Ollama lädt mehrere Modelle parallel ins VRAM, falls du sie nacheinander aufgerufen hast. Lösung: ollama ps zeigt aktive Modelle, ollama stop <modell> stoppt einzelne.

Modell-Antworten sehr langsam

Prüfe ob die GPU genutzt wird:

nvidia-smi -l 1
# während Ollama läuft

Wenn GPU bei 0% bleibt: Treiber, CUDA-Version oder Ollama-Build-Problem.

Modell halluziniert oder versteht Deutsch schlecht

Llama 3.3 ist gut bei Deutsch, aber nicht perfekt. Bessere Alternativen für DACH:

  • Qwen 3 32B/72B (Alibaba): meist beste DE-Performance bei Open-Models
  • Mistral Small 22B (Frankreich): EU-Modell, solide DE-Performance
  • Spezialisierte Fine-Tunes: SauerkrautLM, DiscoLM (deutsch optimiert)

System-Crash beim Modell-Laden

Nicht genug RAM/VRAM. Lösung: kleineres Modell oder höhere Quantisierung (Q3 statt Q4). Bei Mac: Activity Monitor checken, ob Swap-File anschwillt.

Performance-Tuning

Mehr Tokens/Sekunde durch GPU-Offload

Bei begrenztem VRAM lädt Ollama Teile aufs CPU/RAM. Maximalen GPU-Offload erzwingen:

# Beim Modell-Start
OLLAMA_NUM_GPU=99 ollama run qwen3:32b

Mehrere Modelle gleichzeitig

Verfügbar ab Ollama 0.5+:

OLLAMA_MAX_LOADED_MODELS=3 ollama serve

Nächste Schritte

  1. RAG mit eigenen Dokumenten: OpenWebUI hat eingebautes RAG-Modul. PDFs, DOCX hochladen, KI antwortet mit Belegstellen. Mehr: RAG-Glossar
  2. n8n anbinden: Workflow-Automatisierung mit lokaler KI. Automatisierungs-Hub
  3. Reverse-Proxy + Auth: Caddy + Authelia für sicheren Multi-User-Zugang
  4. Modelle wechseln und vergleichen: verschiedene Modelle parallel testen — Qwen vs Llama vs Mistral

FAQ

Brauche ich einen Ollama-Account?

Nein. Alles läuft lokal, kein Account, keine Anmeldung. Im Gegensatz zu ChatGPT oder Claude.

Kann ich Ollama auch auf einem Raspberry Pi laufen lassen?

Theoretisch ja (Pi 5 mit 8 GB RAM), aber nur sehr kleine Modelle (1B-3B) und sehr langsam. Für produktive Nutzung nicht zu empfehlen. Mac Mini M4 ab 500 € ist die deutlich bessere Wahl.

Ist die API wirklich OpenAI-kompatibel?

Ja, fast vollständig. Bestehende Code-Beispiele für OpenAI funktionieren mit Ollama nur durch Änderung der Base-URL. n8n, LangChain, LlamaIndex, viele Cursor-Forks etc. unterstützen das.

Was kostet das im Betrieb?

Strom. Eine RTX 4090 unter Last zieht 350–450 W. Bei 10 h/Tag Nutzung und 0,30 €/kWh: ~35 €/Monat. Bei Mac: deutlich weniger (~5–10 €).

Verwandte Themen

Lokale KI Hub · Hardware-Kaufberater + VRAM-Rechner · Ollama Vollständiger Review · Quantisierung erklärt · RAG einrichten

Newsletter

1× pro Woche das KI-Lagebild

Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Kostenlos, jederzeit abbestellbar.

Kein Spam, keine Daten weitergegeben. Server in Deutschland (Brevo EU).

/* CLUSTER-INJECTION-START */ /* CLUSTER-INJECTION-END */