KI-Rundschau

vLLM

runtime · Apache-2.0 (offen)

Hochperformante Production-Runtime. Continuous Batching. GPU-Memory effizienter als Ollama.

Kategorie
runtime
Lizenz
Apache-2.0
Wirklich offen?
✓ ja
Deutsche UI
— englisch
Docker-ready
✓ ja
Wartungslast
mittel
Proxmox/LXC-Hinweise:

VM mit GPU-Passthrough besser als LXC (CUDA driver context). Speicher-vorallokierend.