vLLM

runtime · Apache-2.0 (offen)

Hochperformante Production-Runtime. Continuous Batching. GPU-Memory effizienter als Ollama.

Kategorie

runtime

Lizenz

Apache-2.0

Wirklich offen?

✓ ja

Deutsche UI

— englisch

Docker-ready

✓ ja

Wartungslast

mittel

Proxmox/LXC-Hinweise:

VM mit GPU-Passthrough besser als LXC (CUDA driver context). Speicher-vorallokierend.