Lokale KI mit eigenen Daten: RAG-Leitfaden für KMU 2026
RAG (Retrieval-Augmented Generation) ist der eigentliche Grund, warum KMU lokale KI einführen. Statt nur „chatten“ verbinden Sie ein LLM mit Ihren Verträgen, PDFs, Tickets oder Wikis — und bekommen Antworten, die auf Ihren Daten basieren. Quellenbezogen, lokal, ohne dass je ein Byte in eine Cloud geht.
Was ist RAG — in einfachen Worten
Stellen Sie sich vor, Sie geben einer kompetenten Mitarbeiterin einen Stapel Akten und sagen: „Wenn jemand fragt, schau hier rein und antworte auf Basis dieser Akten." Genau das ist RAG.
Technisch besteht RAG aus drei Schritten:
- Indexierung: Ihre Dokumente werden in kleine Stücke zerlegt und als Embeddings in einer Vektor-Datenbank gespeichert.
- Retrieval: Bei jeder Frage werden die 3-5 thematisch passendsten Stücke aus der Datenbank geholt.
- Generation: Das LLM bekommt Frage + die passenden Stücke und formuliert eine Antwort — quellenbezogen.
Wichtig: das Modell wird nicht trainiert. Ihre Daten bleiben in der Datenbank, das Modell sieht sie nur als Kontext bei jeder Anfrage. Sie können Dokumente jederzeit hinzufügen, ändern oder löschen — anders als bei Fine-Tuning.
Warum RAG lokal so viel besser ist als in der Cloud
Cloud-RAG-Anbieter wie ChatGPT Enterprise, Claude Projects oder Custom-GPTs versprechen das Gleiche — mit drei harten Einschränkungen:
- Daten verlassen das Haus: Verträge, Personalakten, F&E-Dokumente landen auf US-Servern. Schrems II grüßt.
- Größen-Limit: typischerweise 20-100 MB pro „Projekt". Für ein KMU-Archiv mit 50.000 Dokumenten zu wenig.
- Update-Trägheit: Ein neuer Vertrag muss neu hochgeladen werden, Versionierung ist mau.
Lokales RAG löst alle drei Probleme. Bonus: keine Token-Kosten pro Abfrage, sobald die Hardware steht — das macht hochvolumige Use-Cases (Support-Suche, Tickets) erst wirtschaftlich.
Der KMU-RAG-Stack: was Sie konkret brauchen
Unser Standard-Stack für DACH-KMU, in echten Projekten erprobt:
| Komponente | Empfehlung | Alternative |
|---|---|---|
| LLM | Llama 3.3 70B (Q4) — beste Qualität | Qwen 3 32B (kleiner Hardware-Bedarf) |
| Embedding-Modell | BAAI/bge-m3 (multilingual, top-Qualität) | nomic-embed-text (kompakt) |
| Vektor-DB | Qdrant (self-hosted, schnell, gutes UI) | Chroma (einfacher), Weaviate |
| Orchestrierung | n8n + Custom-Nodes oder LangChain | LlamaIndex, eigener Python-Code |
| Frontend | OpenWebUI mit RAG-Plugin | AnythingLLM, Eigenes UI |
| Dokument-Pipeline | Unstructured.io + tika | Paperless-ngx Export |
5 Schritte zum produktiven RAG-System
Schritt 1 — Dokumenten-Inventur (2-5 Tage)
Bevor irgendeine Technik kommt: welche Dokumente sollen ins System? Vertragsablage, Wiki, Mail-Archiv, PDF-Bibliothek, CRM-Notizen? Volumen messen (Anzahl, GB), Vertraulichkeits-Klassifizierung, Zugriffsrechte klären. Häufiger Fehler: „alles rein" — besser kuratiert starten.
Schritt 2 — Dokumenten-Pipeline aufsetzen (3-5 Tage)
Dokumente werden in einheitliches Text-Format konvertiert (PDF → Text, DOCX → Text, E-Mails → Text), in „Chunks" zerlegt (typisch 500-1.000 Wörter pro Chunk mit Overlap), dann durch das Embedding-Modell geschickt. Resultat: Vektoren in der Datenbank.
Schritt 3 — Retrieval testen (2-3 Tage)
Stellen Sie 30-50 reale Test-Fragen aus dem Tagesgeschäft. Holt das System die richtigen Chunks? Wenn nein: Chunk-Größe anpassen, Embedding-Modell wechseln, Filter-Logik einbauen (z. B. nur Verträge ≤ 2 Jahre alt).
Schritt 4 — LLM verbinden + Prompt tunen (2-3 Tage)
Das LLM bekommt einen System-Prompt der Art „Antworte ausschließlich auf Basis der bereitgestellten Quellen. Wenn die Quellen die Frage nicht beantworten, sage das ehrlich." Halluzinationen reduzieren sich damit drastisch.
Schritt 5 — Frontend + Rollout (1-2 Wochen)
OpenWebUI mit RAG-Plugin oder eigene UI, Single-Sign-On gegen Active Directory / LDAP, Audit-Log für Compliance, Schulung des Teams.
4 Use Cases aus echten KMU-Projekten
Steuerberatungs-Kanzlei — Mandanten-Recherche
14 Jahre Mandantenakten (PDFs, DOCX) im RAG-System. Mitarbeitende fragen „Welche Mandanten hatten 2023 Probleme mit § 6b EStG?" — Antwort mit Quellenangabe in 8 Sekunden. Manuelle Recherchezeit von 2-3 h auf 5 min reduziert.
Maschinenbauer — Service-Wissen
5.000 Konstruktions-PDFs + 12.000 Service-Tickets im RAG. Techniker im Außendienst fragen via App, das Modell antwortet quellenbezogen. Bewährt sich besonders bei Wissens-Transfer zu jungen Mitarbeitenden.
Rechtsanwaltskanzlei — Schriftsatz-Vorbereitung
Eigene Schriftsätze + Urteils-Sammlung im RAG. Bei neuem Mandat: „Welche ähnlichen Fälle hatten wir?" — sofort relevante interne Präzedenzien plus passende Urteile.
Mittelständischer Konzern — HR-FAQ
Personalrichtlinien, Betriebsvereinbarungen, Tarifverträge im RAG. Mitarbeitende fragen über Slack-Bot „Wie viele Urlaubstage habe ich nach 5 Jahren?" — Antwort sofort, korrekt, ohne dass HR jedes Mal antworten muss.
Typische Fallstricke + wie wir sie umgehen
- Mangelnde Dokument-Qualität: Scans ohne OCR landen als unleserliche Chunks im Index. Fix: OCR-Stufe (Tesseract / Adobe-OCR) vor dem Embedding.
- Halluzinationen trotz RAG: Modell ignoriert die Quellen. Fix: System-Prompt verschärfen, Temperature niedrig (0.1-0.3), Quellen-Zitate erzwingen.
- Zugriffs-Rechte ignoriert: Jeder findet alles. Fix: RBAC-Filter im Retrieval, pro User nur Chunks ausspielen, für die er berechtigt ist.
- Veraltete Inhalte: alte Verträge werden immer wieder zitiert. Fix: Versions-Metadaten in jedem Chunk, Filter „nur aktuell" als Default.
Was kostet ein RAG-System wirklich?
Realistische Zahlen für ein Mittelstands-RAG mit ca. 50.000 Dokumenten und 10-30 aktiven Nutzern:
| Posten | Spanne | Anmerkung |
|---|---|---|
| Hardware (Workstation oder Server) | 3.500 – 7.000 € | einmalig, 4-5 Jahre Nutzungsdauer |
| Setup-Aufwand (extern oder intern) | 8.000 – 18.000 € | einmalig, je nach Komplexität |
| Strom + Wartung | 500 – 1.200 € / Jahr | laufend |
| Schulung Team | 1.500 – 4.000 € | einmalig + jährliche Auffrischung |
| Summe Jahr 1 | 13.500 – 30.000 € | danach nur laufender Posten |
Zum Vergleich: Eine vergleichbare Cloud-RAG-Lösung (Custom-GPT Enterprise oder ChatGPT Team) liegt schnell bei 1.500-3.000 € pro Monat — also 18.000-36.000 € pro Jahr. Lokal lohnt sich ab ca. 8-12 aktiven Nutzern.
Was kostet das wirklich — und ab wann rechnet es sich?
20.000 € Setup-Kosten klingen erst mal nach viel. Die ehrliche Rechnung anhand realer Projekte:
Beispiel-Rechnung Anwaltskanzlei
10 Anwält:innen × 2 h Recherche-Zeitersparnis/Woche
20 h
eingesparte Stunden / Woche
200 €/h
Anwalts-Stundensatz (konservativ)
4.000 €
Ersparnis pro Woche
5 Wochen
bis Break-Even bei 20 k € Setup
Realer ROI Jahr 1: ca. 180.000 € bei 48 produktiven Wochen — eine Rendite von ~800 % auf die Initial-Investition. In Steuerberatung und Maschinenbau sehen wir ähnliche Größenordnungen, lediglich die Stundensätze unterscheiden sich (Steuerberatung 120–180 €/h, Maschinenbau-Service 90–140 €/h).
Realistischer Erfahrungswert über alle Branchen: Break-Even im ersten Quartal, ROI ≥ 200 % im ersten Jahr. Voraussetzung ist, dass die eingesparte Zeit tatsächlich in produktive Arbeit fließt — nicht in mehr Kaffeepausen.
Done-for-you · RAG-Pilot in 60 Tagen
Wir bauen Ihren RAG-Piloten
Dokumenten-Inventur, Stack-Aufbau, Pilot-System mit 1.000 Dokumenten und 5 Test-Usern, Schulung und Übergabe an Ihre IT. Pauschalpreis, transparent.
~6 h
Recherche-Zeitersparnis / Person / Woche
~140 %
ROI nach 6 Monaten (Median)
3 Branchen
Steuerberatung, Maschinenbau, Recht
Weiterlesen
- Lokale KI — Praxis-Leitfaden 2026
- Beste Hardware für lokale KI
- Glossar: RAG
- Glossar: Embeddings
- Glossar: Vendor Lock-in
- KI-Richtlinie für KMU
CLUSTER LOKALE KI
Vertiefen Sie das Thema
Newsletter
1× pro Woche das KI-Lagebild
Tools, Tests, Modell-Releases und ein Workflow zum Mitnehmen. Auf Deutsch, anti-Hype, in 5 Minuten gelesen. Kostenlos, jederzeit abbestellbar.
Kein Spam, keine Daten weitergegeben. Server in Deutschland (Brevo EU).