Ollama auf Linux installieren — Ubuntu/Debian/Fedora mit GPU
Linux ist die natürliche Heimat von Ollama: ein-Zeilen-Installer, systemd-Dienst out-of-the-box, GPU-Support stabiler als auf Windows. Plus: einen Ollama-Server kann man mehreren Nutzern im Team zur Verfügung stellen — etwa für ein KMU mit 5–20 Wissensarbeitern.
Was Sie brauchen
- Linux mit Kernel ≥5.15 (Ubuntu 22.04+/24.04, Debian 12+, Fedora 38+, Arch — alles gut)
- NVIDIA-GPU mit CUDA ≥12 ODER AMD-GPU mit ROCm ≥6 ODER CPU-only
- 16+ GB RAM (32+ GB für 8B-Modelle parallel)
- sudo-Zugriff
Schritt 1 — One-Line-Installer
curl -fsSL https://ollama.com/install.sh | sh
Das Skript:
- Lädt den Ollama-Binary nach
/usr/local/bin/ollama - Legt User
ollama+ Gruppeollamaan - Installiert systemd-Service
ollama.service - Erkennt NVIDIA / AMD und installiert passende Runtime-Komponenten
- Startet den Dienst
Prüfen:
systemctl status ollama
ollama list
Schritt 2 — GPU-Treiber sicherstellen
NVIDIA
# Ubuntu/Debian
sudo apt install nvidia-driver-550 nvidia-cuda-toolkit
nvidia-smi # sollte GPU + Treiber-Version zeigen
Falls nvidia-smi nicht funktioniert: Secure Boot kann blocken. Im BIOS Secure Boot temporär aus oder MOK-Key signieren.
AMD (ROCm)
# Ubuntu 24.04
wget https://repo.radeon.com/amdgpu-install/6.2/ubuntu/jammy/amdgpu-install_6.2.60200-1_all.deb
sudo apt install ./amdgpu-install_6.2.60200-1_all.deb
sudo amdgpu-install --usecase=rocm
# user in render+video group
sudo usermod -aG render,video $USER
Nach AMD-Install: Reboot. Test mit rocm-smi.
Schritt 3 — Erstes Modell
ollama pull llama3.3:8b
ollama run llama3.3:8b
Im Service-Log prüfen, ob die GPU genutzt wird:
journalctl -u ollama -f
Sie sehen Zeilen wie cuda_v12: NVIDIA GeForce RTX 4090 (14.6 GiB) oder rocm_v6: AMD Radeon RX 7900 XTX. Falls nur cpu auftaucht: GPU wurde nicht erkannt.
Schritt 4 — systemd-Konfiguration tunen
Standard-Konfig in /etc/systemd/system/ollama.service.d/override.conf editieren via:
sudo systemctl edit ollama
Empfehlenswerte Optionen für KMU-Server:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/var/lib/ollama-models"
Environment="OLLAMA_KEEP_ALIVE=30m"
Environment="OLLAMA_MAX_LOADED_MODELS=2"
Environment="OLLAMA_NUM_PARALLEL=4"
Erklärung:
OLLAMA_HOST=0.0.0.0:11434— Erreichbar im LAN (siehe Schritt 6 für Auth)OLLAMA_MODELS— Modelle auf größerer DiskOLLAMA_KEEP_ALIVE— Wie lange Modell im VRAM bleibt nach letzter AnfrageOLLAMA_NUM_PARALLEL— Anzahl simultaner Requests pro Modell
Anwenden:
sudo systemctl daemon-reload
sudo systemctl restart ollama
Schritt 5 — OpenWebUI für das Team
# Docker installieren falls nötig
curl -fsSL https://get.docker.com | sh
# OpenWebUI
sudo docker run -d --name openwebui --restart always \
-p 3000:3000 \
-e OLLAMA_BASE_URL=http://localhost:11434 \
--network=host \
-v openwebui:/app/backend/data \
ghcr.io/open-webui/open-webui:main
UI erreichbar unter http://server-ip:3000. Erster registrierter User wird Admin.
Schritt 6 — Reverse-Proxy + TLS + Auth
Für Multi-User-Setup soll OpenWebUI hinter HTTPS + Auth. Caddy ist die einfachste Option:
# /etc/caddy/Caddyfile
ki.firma.intern {
reverse_proxy localhost:3000
basicauth {
team JDJ5JDEy... # bcrypt-hash via: caddy hash-password
}
}
Caddy installiert Let's-Encrypt-Cert automatisch (wenn DNS+Port-Forwarding stimmen) oder eigenes Cert via tls /etc/caddy/cert.pem /etc/caddy/key.pem.
Schritt 7 — Backup + Monitoring
Modelle sichern
Eigentlich nicht nötig — Modelle sind immutable und neu downloadbar. Aber Chat-Historie + User-Daten von OpenWebUI lohnen:
# Backup OpenWebUI-Volume
docker run --rm -v openwebui:/data -v $(pwd):/backup \
alpine tar czf /backup/openwebui-$(date +%F).tar.gz -C /data .
GPU-Last beobachten
# NVIDIA
watch -n 1 nvidia-smi
# AMD
watch -n 1 rocm-smi
Typische Probleme
„failed to load model: out of memory"
VRAM zu klein. Lösungen: kleineres Modell, OLLAMA_MAX_LOADED_MODELS=1, oder Multi-GPU.
journalctl zeigt „library compatibility"
CUDA-Version passt nicht zur Ollama-Binary. Lösung: Treiber aktualisieren ODER Ollama neu installieren (One-Liner nochmal).
Modell nutzt nur eine GPU bei Multi-GPU-Setup
Mit CUDA_VISIBLE_DEVICES steuern, welche GPUs nutzbar sind. Multi-GPU-Tensor-Split ist in Ollama begrenzt — für volles Multi-GPU lieber vLLM oder llama.cpp direkt.
KMU-Empfehlung
Ein dedizierter Ollama-Server für 5–20 Wissensarbeitende lohnt sich ab etwa 50 €/Monat Cloud-KI-Kosten. Empfohlenes Setup:
- Hetzner EX44 oder gleichwertig + 1× RTX 4090 (24 GB)
- oder gebraucht: 2× RTX 3090 für 48 GB Total
- Ubuntu 24.04 LTS
- Ollama + OpenWebUI + Caddy
- VPN-only-Zugang oder Tailscale
Wir setzen das auch in Kundenprojekten um — siehe KMU-Leitfaden oder Erstgespräch via florian@ki-rundschau.de.
Weiterlesen
- Lokale KI — der vollständige KMU-Leitfaden
- Llama 3.3 lokal installieren — alle Plattformen
- Hardware für lokale KI — GPU-Vergleich + VRAM-Rechner
- Ollama im Test — Bewertung + Verwendungs-Empfehlung
- Glossar: Ollama
- Glossar: Quantisierung
Newsletter
1× pro Woche das KI-Lagebild
Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Kostenlos, jederzeit abbestellbar.
Kein Spam, keine Daten weitergegeben. Server in Deutschland (Brevo EU).