Kann ich Llama 3.3 auch ohne GPU nutzen?

Ja, Ollama unterstützt CPU-only, aber die Geschwindigkeit ist deutlich langsamer. Nutzen Sie dann kleinere Modelle wie Llama 3.2 3B.

Wie installiere ich Ollama unter Windows?

Laden Sie das Installationsprogramm von ollama.com herunter und führen Sie es aus. Öffnen Sie anschließend die Eingabeaufforderung und geben Sie 'ollama run llama3.3' ein.

Tutorial

Llama 3.3 lokal installieren — Windows, Mac, Linux (Schritt für Schritt)

Q: Welche Hardware wird für Llama 3.3 lokal empfohlen?

Für flüssigen Betrieb wird mindestens 16 GB RAM und eine GPU mit 8 GB VRAM empfohlen. Bei CPU-only reichen 32 GB RAM für kleinere Modelle.

Q: Was ist OpenWebUI und wie richte ich es ein?

OpenWebUI ist eine Web-Oberfläche für Ollama. Installieren Sie es per 'docker run -d -p 3000:8080 --name open-webui ghcr.io/open-webui/open-webui:main' und rufen Sie http://localhost:3000 auf.

Auf einen Blick

Llama 3.3 kann mit Ollama auf Windows, Mac und Linux lokal installiert werden. Die Anleitung umfasst Hardware-Empfehlungen, Troubleshooting und die Einrichtung von OpenWebUI.

Kategorie	KI-Modelle lokal ausführen
Lesezeit	10 Min
Zielgruppe	KI-Interessierte mit grundlegenden Computerkenntnissen
Schwierigkeit	Einsteiger
Stand	2026-05
Quellen	Anleitung

Llama 3.3 70B lokal in 15 Minuten. Auf Mac, Windows oder Linux. Mit Ollama. Hier ist die Schritt-für-Schritt-Anleitung mit echten Befehlen, Hardware-Anforderungen und allem, was Reddit-Tutorials für DACH-Nutzer vergessen.

Diese Anleitung führt dich durch die komplette Installation von Ollama mit Llama 3.3 70B auf allen drei großen Betriebssystemen. Am Ende hast du eine lokale KI laufen, die ChatGPT-3.5-Niveau erreicht oder übertrifft — ohne Cloud, ohne Datenabfluss, ohne monatliche Kosten.

Was du am Ende hast

Ollama-Server läuft im Hintergrund auf deinem Rechner
Llama 3.3 70B (oder kleineres Modell, je nach Hardware) ist installiert
OpenAI-kompatible API unter http://localhost:11434
OpenWebUI als ChatGPT-ähnliches Web-Frontend (optional)
Alle Daten bleiben auf deinem Rechner — kein Account, keine Cloud

Hardware-Voraussetzungen

Bevor wir installieren: was funktioniert auf welcher Hardware?

Hardware	Modell-Empfehlung	Performance
Mac M1/M2/M3/M4 mit 16 GB RAM	Llama 3.2 8B Q4	~25 Tokens/s
Mac M2/M3/M4 Pro/Max mit 32 GB	Llama 3.3 14B Q4 oder Qwen 3 14B	~18 Tokens/s
Mac M4 Pro/Max mit 64+ GB	Llama 3.3 70B Q4	~9 Tokens/s
NVIDIA RTX 3060 12 GB	Llama 3.2 8B Q4	~50 Tokens/s
NVIDIA RTX 4070 12 GB	Qwen 3 14B Q4	~45 Tokens/s
NVIDIA RTX 3090 / 4090 24 GB	Qwen 3 32B Q4 oder Llama 3.3 70B teil-CPU	~30 Tokens/s
2× RTX 3090/4090	Llama 3.3 70B Q4 voll auf GPU	~25 Tokens/s

Faustregel: Parameter × 0,6 GB = VRAM-Bedarf bei Q4-Quantisierung. Llama 3.3 70B braucht also ~40 GB VRAM. Mehr Hardware-Details: Hardware-Hub mit VRAM-Rechner.

Installation auf macOS

Schritt 1: Ollama-App herunterladen

Gehe auf ollama.com/download und lade die Mac-App. Alternativ via Homebrew:

brew install ollama

Schritt 2: Ollama starten

Wenn du die App installiert hast: einfach öffnen. Sie läuft als Menüleisten-Icon. Wenn Homebrew installiert hat, starte den Server:

ollama serve

Schritt 3: Modell herunterladen

Jetzt das passende Modell ziehen. Für 64+ GB Mac:

ollama pull llama3.3:70b

Für kleinere Macs:

ollama pull llama3.2:8b
# oder
ollama pull qwen3:14b

Download dauert je nach Modell und Internet-Verbindung 5–30 Minuten. 70B ist ~40 GB groß.

Schritt 4: Modell testen

ollama run llama3.3:70b
>>> Erkläre kurz: Was ist DSGVO?

Die ersten Tokens dauern bei 70B auf Mac ~5–10 Sekunden, dann läuft die Generierung mit ~9 Tokens/s. Bei 14B sofort schnell. Mit /bye verlassen.

Installation auf Windows

Schritt 1: Ollama-App herunterladen

Von ollama.com/download/windows. Doppelklick zum Installieren. Ollama läuft als Windows-Service im Hintergrund.

Schritt 2: PowerShell oder cmd öffnen

Windows-Taste → „PowerShell" eingeben → öffnen. Dann:

ollama --version
# Erwarteter Output: ollama version is 0.x.x

Schritt 3: NVIDIA-GPU-Treiber prüfen (falls vorhanden)

Mit NVIDIA-GPU: stelle sicher, dass aktuelle CUDA-Treiber installiert sind. Test:

nvidia-smi
# Zeigt GPU + VRAM

Wenn der Befehl nicht gefunden wird: NVIDIA-Treiber aktualisieren von nvidia.com/drivers.

Schritt 4: Modell herunterladen + testen

ollama pull qwen3:32b
ollama run qwen3:32b
>>> Was ist EU AI Act in einem Satz?

Häufige Windows-Probleme

Ollama nutzt CPU statt GPU: meist CUDA-Treiber-Version zu alt. Aktualisieren.
Out of Memory: kleineres Modell wählen oder höhere Quantisierung (z.B. q3 statt q4).
Firewall blockiert Port 11434: Windows-Firewall-Regel für ollama.exe erstellen.

Installation auf Linux (Ubuntu/Debian)

Schritt 1: Ollama installieren

curl -fsSL https://ollama.com/install.sh | sh

Das Script erkennt deine NVIDIA-GPU automatisch und installiert CUDA-Unterstützung. Bei AMD-GPU werden ROCm-Treiber genutzt.

Schritt 2: Service prüfen

systemctl status ollama
# active (running) erwartet

Schritt 3: GPU-Erkennung verifizieren

ollama serve 2>&1 | grep -i "gpu\|cuda"
# Sollte erkannte GPU(s) zeigen

Schritt 4: Modell herunterladen + testen

ollama pull llama3.3:70b
ollama run llama3.3:70b
>>> Wie lange dauert Anpassung einer KI-Richtlinie?

Server-Setup für Multi-User (Optional)

Wenn der Server für mehrere Personen erreichbar sein soll:

# /etc/systemd/system/ollama.service ändern:
# Environment="OLLAMA_HOST=0.0.0.0"

sudo systemctl daemon-reload
sudo systemctl restart ollama

Wichtig: für Multi-User unbedingt Reverse-Proxy mit Auth davorschalten (Caddy, nginx, Traefik). Ollama selbst hat keine Authentifizierung.

OpenWebUI als Chat-Frontend (alle OS)

Das CLI ist OK für Tests. Für produktive Nutzung willst du ein Web-Frontend wie OpenWebUI — sieht aus wie ChatGPT, läuft lokal.

Installation per Docker (funktioniert auf allen OS):

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Dann http://localhost:3000 öffnen, Account anlegen (lokal, kein Cloud-Konto nötig). OpenWebUI erkennt Ollama automatisch und zeigt deine Modelle.

Troubleshooting: häufige Probleme

„Out of Memory" obwohl genug VRAM

Ollama lädt mehrere Modelle parallel ins VRAM, falls du sie nacheinander aufgerufen hast. Lösung: ollama ps zeigt aktive Modelle, ollama stop <modell> stoppt einzelne.

Modell-Antworten sehr langsam

Prüfe ob die GPU genutzt wird:

nvidia-smi -l 1
# während Ollama läuft

Wenn GPU bei 0% bleibt: Treiber, CUDA-Version oder Ollama-Build-Problem.

Modell halluziniert oder versteht Deutsch schlecht

Llama 3.3 ist gut bei Deutsch, aber nicht perfekt. Bessere Alternativen für DACH:

Qwen 3 32B/72B (Alibaba): meist beste DE-Performance bei Open-Models
Mistral Small 22B (Frankreich): EU-Modell, solide DE-Performance
Spezialisierte Fine-Tunes: SauerkrautLM, DiscoLM (deutsch optimiert)

System-Crash beim Modell-Laden

Nicht genug RAM/VRAM. Lösung: kleineres Modell oder höhere Quantisierung (Q3 statt Q4). Bei Mac: Activity Monitor checken, ob Swap-File anschwillt.

Performance-Tuning

Mehr Tokens/Sekunde durch GPU-Offload

Bei begrenztem VRAM lädt Ollama Teile aufs CPU/RAM. Maximalen GPU-Offload erzwingen:

# Beim Modell-Start
OLLAMA_NUM_GPU=99 ollama run qwen3:32b

Mehrere Modelle gleichzeitig

Verfügbar ab Ollama 0.5+:

OLLAMA_MAX_LOADED_MODELS=3 ollama serve

Nächste Schritte

RAG mit eigenen Dokumenten: OpenWebUI hat eingebautes RAG-Modul. PDFs, DOCX hochladen, KI antwortet mit Belegstellen. Mehr: RAG-Glossar
n8n anbinden: Workflow-Automatisierung mit lokaler KI. Automatisierungs-Hub
Reverse-Proxy + Auth: Caddy + Authelia für sicheren Multi-User-Zugang
Modelle wechseln und vergleichen: verschiedene Modelle parallel testen — Qwen vs Llama vs Mistral

FAQ

Brauche ich einen Ollama-Account?

Nein. Alles läuft lokal, kein Account, keine Anmeldung. Im Gegensatz zu ChatGPT oder Claude.

Kann ich Ollama auch auf einem Raspberry Pi laufen lassen?

Theoretisch ja (Pi 5 mit 8 GB RAM), aber nur sehr kleine Modelle (1B-3B) und sehr langsam. Für produktive Nutzung nicht zu empfehlen. Mac Mini M4 ab 500 € ist die deutlich bessere Wahl.

Ist die API wirklich OpenAI-kompatibel?

Ja, fast vollständig. Bestehende Code-Beispiele für OpenAI funktionieren mit Ollama nur durch Änderung der Base-URL. n8n, LangChain, LlamaIndex, viele Cursor-Forks etc. unterstützen das.

Was kostet das im Betrieb?

Strom. Eine RTX 4090 unter Last zieht 350–450 W. Bei 10 h/Tag Nutzung und 0,30 €/kWh: ~35 €/Monat. Bei Mac: deutlich weniger (~5–10 €).

Häufige Fragen

Welche Hardware wird für Llama 3.3 lokal empfohlen?

Für Llama 3.3 (8B) reichen 8 GB RAM, für größere Modelle (70B) werden 32 GB RAM und eine leistungsstarke GPU empfohlen. Eine SSD beschleunigt den Modell-Ladevorgang.

Kann ich Llama 3.3 ohne Internetverbindung nutzen?

Ja, nach dem Herunterladen des Modells läuft es vollständig lokal. Ollama lädt das Modell einmalig herunter, danach ist keine Internetverbindung mehr nötig.

Wie installiere ich Ollama auf Windows?

Laden Sie das Installationsprogramm von der offiziellen Ollama-Website herunter und führen Sie es aus. Nach der Installation öffnen Sie die Eingabeaufforderung und geben 'ollama run llama3.3' ein.

Was ist OpenWebUI und wie richte ich es ein?

OpenWebUI ist eine webbasierte Benutzeroberfläche für Ollama. Sie installieren es per Docker-Befehl: 'docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main'.

Zuletzt aktualisiert: 2026-06-01 · Autor: Florian Neuhuber

Was du am Ende hast

Hardware-Voraussetzungen

Installation auf macOS

Schritt 1: Ollama-App herunterladen

Schritt 2: Ollama starten

Schritt 3: Modell herunterladen

Schritt 4: Modell testen

Installation auf Windows

Schritt 1: Ollama-App herunterladen

Schritt 2: PowerShell oder cmd öffnen

Schritt 3: NVIDIA-GPU-Treiber prüfen (falls vorhanden)

Schritt 4: Modell herunterladen + testen

Häufige Windows-Probleme

Installation auf Linux (Ubuntu/Debian)

Schritt 1: Ollama installieren

Schritt 2: Service prüfen

Schritt 3: GPU-Erkennung verifizieren

Schritt 4: Modell herunterladen + testen

Server-Setup für Multi-User (Optional)

OpenWebUI als Chat-Frontend (alle OS)

Troubleshooting: häufige Probleme

„Out of Memory" obwohl genug VRAM

Modell-Antworten sehr langsam

Modell halluziniert oder versteht Deutsch schlecht

System-Crash beim Modell-Laden

Performance-Tuning

Mehr Tokens/Sekunde durch GPU-Offload

Mehrere Modelle gleichzeitig

Nächste Schritte

FAQ

Brauche ich einen Ollama-Account?

Kann ich Ollama auch auf einem Raspberry Pi laufen lassen?

Ist die API wirklich OpenAI-kompatibel?

Was kostet das im Betrieb?

Verwandte Themen

1× pro Woche das KI-Lagebild

Häufige Fragen

Welche Hardware wird für Llama 3.3 lokal empfohlen?

Kann ich Llama 3.3 ohne Internetverbindung nutzen?

Wie installiere ich Ollama auf Windows?

Was ist OpenWebUI und wie richte ich es ein?

Weiterführend: Lokale KI im Detail

Lies auch

Kommentare ( )

Kommentare ()