Lokale KI
Lokale KI & Self-Hosting
Lokale KI — Modelle, die auf eigener Hardware laufen — keine Cloud, keine Datenabflüsse. Für KMU mit DSGVO-Anforderungen die ehrlichste Antwort.
Was lokale KI 2026 wirklich kann
Lokale KI heißt: das Sprachmodell läuft auf deiner Hardware. Daten gehen nicht in eine Cloud. Drei Jahre nach dem ersten Llama-Release ist die Realität: für etwa 80% der KMU-Anwendungsfälle ist lokale KI 2026 ausreichend gut.
Konkret: Llama 3.3 70B, Qwen 3 32B oder Mistral Large auf einer Workstation mit RTX 4090 liefern Antworten, die in vielen Aufgabentypen ChatGPT-3.5-Niveau (oft sogar GPT-4-Niveau) erreichen.
Wann lokale KI klar gewinnt
1. Sensible Daten
Mandantenakten, Patientendaten, Personalakten, Verträge mit NDA, Strategiepapiere. Diese Daten dürfen DSGVO-konform nicht in US-Cloud-KIs.
2. RAG über eigene Dokumente
Mit RAG über Ihre 5.000 Verträge oder 12.000 Service-Tickets: die Daten bleiben lokal, die KI sucht und antwortet auf Ihrer Hardware. Kein Anbieter-Lock-in, kein Trainingsdaten-Risiko.
3. Hohe Volumen
Bei mehr als 5M Output-Tokens/Monat wird lokale KI günstiger als Cloud-API. Bei Tausenden Anfragen pro Tag ein Kostenfaktor.
4. Offline-Anforderung
Außendienst, Werkstatt, Krisenszenario, Schiffsfahrt — überall, wo Internet unzuverlässig ist. Lokale KI läuft offline.
5. Compliance + EU AI Act
Bei Hochrisiko-Anwendungen nach EU AI Act ist die Erklärbarkeit und Kontrolle ein Vorteil von lokaler KI. Sie wissen genau, welches Modell mit welchen Parametern läuft.
Wann Cloud-KI besser bleibt
- Multimodale Aufgaben (Bild + Text + Audio in einem Schritt)
- Neueste Spitzen-Performance (GPT-5, Claude 4 sind weiterhin stärker als Open-Weights für komplexe Reasoning-Aufgaben)
- Kleine Volumen ohne Datenschutz-Bedenken
- Wenn niemand im Team einen Server warten kann
Der Setup-Stack 2026
Modell-Server
- Ollama — Standard für lokale Inferenz. Ein Befehl, ein Modell. OpenAI-kompatible API.
- LM Studio — Grafische Oberfläche für Einsteiger.
- vLLM — Produktions-Inferenz-Server mit hoher Durchsatzleistung.
- llama.cpp — direkter Engine-Zugriff, sehr effizient.
UI-Layer
- OpenWebUI — Web-Frontend wie ChatGPT, mit RAG-Modul
- Open-Source-Alternativen: AnythingLLM, Jan.ai, MSTY
Automatisierung
- n8n Self-Hosted mit Ollama-Knoten
- Workflow-Code mit Python (LangChain, LlamaIndex)
Vektor-DB für RAG
- Chroma — einfach, lokale Files
- Qdrant — skalierbar
- pgvector — in vorhandener PostgreSQL
Hardware-Setup nach Budget
| Budget | Hardware | Modell-Klasse | Geeignet für |
|---|---|---|---|
| €500 | Mac Mini M4 16 GB | Bis 8B (Q4) | Einzelperson, kleine Workflows |
| €1.500 | Mac Mini M4 Pro 32 GB | Bis 14B (Q4) | Selbstständige + leichte RAG |
| €3.500 | RTX 4090 24 GB | 32B (Q4) | KMU mit ernsthafter Last |
| €8.000 | 2× RTX 4090 oder RTX 5090 | 70B (Q4) | Profi-Setup, 5–15 Nutzer |
| €15.000+ | Workstation mit H100/A6000 | 200B+ / Fine-Tuning | Custom-Lösungen, Cluster |
Realität: Wo lokale KI 2026 hinkt
- Tool-Use / Function Calling: Bei Cloud-Modellen besser ausgereift
- Sehr lange Kontexte (> 200k Tokens): Cloud bietet hier mehr
- Multimodal (Bilder + Text): Cloud-Modelle sind weiter
- Out-of-the-box-Workflows: mehr Friktion als bei ChatGPT
Hybrid-Strategie (oft am sinnvollsten)
- Lokale KI für sensitive Daten + häufige Use Cases
- Cloud-KI für gelegentliche Komplex-Aufgaben mit nicht-sensitiven Daten
- Routing über n8n: prüfe Datentyp → entscheide Modell-Pfad
Energieverbrauch + Strom
Eine RTX 4090 zieht unter Last 350–450 W. Bei 10 h/Tag Nutzung und 0,30 €/kWh sind das ~30 €/Monat Stromkosten. Bei dauerhafter Nutzung (Server 24/7): 80–100 €/Monat. Im TCO einkalkulieren.
Verwandte Begriffe
Self-Hosting · Ollama · Quantisierung · VRAM · Souveränität
Praxis-Hilfe
Sie wollen KI strukturiert + DSGVO-konform in Ihrem KMU einführen? Wir setzen das mit Ihrem Team um — in 90 Tagen. Zum KMU-Leitfaden →
Kommentare ()