Ollama auf Linux installieren — Ubuntu/Debian/Fedora mit GPU

Linux ist die natürliche Heimat von Ollama: ein-Zeilen-Installer, systemd-Dienst out-of-the-box, GPU-Support stabiler als auf Windows. Plus: einen Ollama-Server kann man mehreren Nutzern im Team zur Verfügung stellen — etwa für ein KMU mit 5–20 Wissensarbeitern.

Was Sie brauchen

Linux mit Kernel ≥5.15 (Ubuntu 22.04+/24.04, Debian 12+, Fedora 38+, Arch — alles gut)
NVIDIA-GPU mit CUDA ≥12 ODER AMD-GPU mit ROCm ≥6 ODER CPU-only
16+ GB RAM (32+ GB für 8B-Modelle parallel)
sudo-Zugriff

Schritt 1 — One-Line-Installer

curl -fsSL https://ollama.com/install.sh | sh

Das Skript:

Lädt den Ollama-Binary nach /usr/local/bin/ollama
Legt User ollama + Gruppe ollama an
Installiert systemd-Service ollama.service
Erkennt NVIDIA / AMD und installiert passende Runtime-Komponenten
Startet den Dienst

Prüfen:

systemctl status ollama
ollama list

Schritt 2 — GPU-Treiber sicherstellen

NVIDIA

# Ubuntu/Debian
sudo apt install nvidia-driver-550 nvidia-cuda-toolkit
nvidia-smi  # sollte GPU + Treiber-Version zeigen

Falls nvidia-smi nicht funktioniert: Secure Boot kann blocken. Im BIOS Secure Boot temporär aus oder MOK-Key signieren.

AMD (ROCm)

# Ubuntu 24.04
wget https://repo.radeon.com/amdgpu-install/6.2/ubuntu/jammy/amdgpu-install_6.2.60200-1_all.deb
sudo apt install ./amdgpu-install_6.2.60200-1_all.deb
sudo amdgpu-install --usecase=rocm
# user in render+video group
sudo usermod -aG render,video $USER

Nach AMD-Install: Reboot. Test mit rocm-smi.

Schritt 3 — Erstes Modell

ollama pull llama3.3:8b
ollama run llama3.3:8b

Im Service-Log prüfen, ob die GPU genutzt wird:

journalctl -u ollama -f

Sie sehen Zeilen wie cuda_v12: NVIDIA GeForce RTX 4090 (14.6 GiB) oder rocm_v6: AMD Radeon RX 7900 XTX. Falls nur cpu auftaucht: GPU wurde nicht erkannt.

Schritt 4 — systemd-Konfiguration tunen

Standard-Konfig in /etc/systemd/system/ollama.service.d/override.conf editieren via:

sudo systemctl edit ollama

Empfehlenswerte Optionen für KMU-Server:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/var/lib/ollama-models"
Environment="OLLAMA_KEEP_ALIVE=30m"
Environment="OLLAMA_MAX_LOADED_MODELS=2"
Environment="OLLAMA_NUM_PARALLEL=4"

Erklärung:

OLLAMA_HOST=0.0.0.0:11434 — Erreichbar im LAN (siehe Schritt 6 für Auth)
OLLAMA_MODELS — Modelle auf größerer Disk
OLLAMA_KEEP_ALIVE — Wie lange Modell im VRAM bleibt nach letzter Anfrage
OLLAMA_NUM_PARALLEL — Anzahl simultaner Requests pro Modell

Anwenden:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Schritt 5 — OpenWebUI für das Team

# Docker installieren falls nötig
curl -fsSL https://get.docker.com | sh

# OpenWebUI
sudo docker run -d --name openwebui --restart always \
  -p 3000:3000 \
  -e OLLAMA_BASE_URL=http://localhost:11434 \
  --network=host \
  -v openwebui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

UI erreichbar unter http://server-ip:3000. Erster registrierter User wird Admin.

Schritt 6 — Reverse-Proxy + TLS + Auth

Für Multi-User-Setup soll OpenWebUI hinter HTTPS + Auth. Caddy ist die einfachste Option:

# /etc/caddy/Caddyfile
ki.firma.intern {
  reverse_proxy localhost:3000
  basicauth {
    team JDJ5JDEy... # bcrypt-hash via: caddy hash-password
  }
}

Caddy installiert Let's-Encrypt-Cert automatisch (wenn DNS+Port-Forwarding stimmen) oder eigenes Cert via tls /etc/caddy/cert.pem /etc/caddy/key.pem.

Schritt 7 — Backup + Monitoring

Modelle sichern

Eigentlich nicht nötig — Modelle sind immutable und neu downloadbar. Aber Chat-Historie + User-Daten von OpenWebUI lohnen:

# Backup OpenWebUI-Volume
docker run --rm -v openwebui:/data -v $(pwd):/backup \
  alpine tar czf /backup/openwebui-$(date +%F).tar.gz -C /data .

GPU-Last beobachten

# NVIDIA
watch -n 1 nvidia-smi

# AMD
watch -n 1 rocm-smi

Typische Probleme

„failed to load model: out of memory"

VRAM zu klein. Lösungen: kleineres Modell, OLLAMA_MAX_LOADED_MODELS=1, oder Multi-GPU.

journalctl zeigt „library compatibility"

CUDA-Version passt nicht zur Ollama-Binary. Lösung: Treiber aktualisieren ODER Ollama neu installieren (One-Liner nochmal).

Modell nutzt nur eine GPU bei Multi-GPU-Setup

Mit CUDA_VISIBLE_DEVICES steuern, welche GPUs nutzbar sind. Multi-GPU-Tensor-Split ist in Ollama begrenzt — für volles Multi-GPU lieber vLLM oder llama.cpp direkt.

KMU-Empfehlung

Ein dedizierter Ollama-Server für 5–20 Wissensarbeitende lohnt sich ab etwa 50 €/Monat Cloud-KI-Kosten. Empfohlenes Setup:

Hetzner EX44 oder gleichwertig + 1× RTX 4090 (24 GB)
oder gebraucht: 2× RTX 3090 für 48 GB Total
Ubuntu 24.04 LTS
Ollama + OpenWebUI + Caddy
VPN-only-Zugang oder Tailscale

Wir setzen das auch in Kundenprojekten um — siehe KMU-Leitfaden oder Erstgespräch via redaktion@ki-rundschau.de.

Weiterlesen

Newsletter

1× pro Woche das KI-Lagebild

Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Samstags um 09:00 Uhr. Kostenlos. 0 Spam. Abbestellung in 1 Klick.

Wir schicken dir eine Bestätigungs-Mail (Double-Opt-In). Server in Deutschland (Hetzner).