RAG (Retrieval-Augmented Generation)
Agenten & Fortgeschrittenes
RAG (Retrieval-Augmented Generation) — KI, die zuerst in deinen eigenen Dokumenten sucht und dann antwortet. Die Antwort kommt mit Belegstellen aus deiner Wissensbasis.
Was RAG technisch macht
Ein normales LLM wie ChatGPT oder Claude kennt nur, was im Training drin war. Frag es nach deinem letzten Vertrag oder deinem KMU-Handbuch: Halluzination oder ehrliches „weiß ich nicht". RAG löst genau dieses Problem.
Der Ablauf bei RAG:
- Indexierung (einmalig): Deine Dokumente (PDF, DOCX, TXT) werden in kleine Stücke zerlegt. Jedes Stück bekommt ein Embedding — einen Vektor, der die Bedeutung repräsentiert. Alles landet in einer Vektor-Datenbank.
- Anfrage: Du stellst eine Frage. Die Frage wird in einen Embedding-Vektor umgewandelt.
- Retrieval: Die Datenbank findet die 3–5 Stücke, deren Embeddings am ähnlichsten sind.
- Generation: Das LLM bekommt deine Frage PLUS die gefundenen Stücke und formuliert eine Antwort — mit Bezug auf die Quellen.
Warum RAG für KMU 2026 der wichtigste KI-Hebel ist
Drei Gründe machen RAG zur Schlüsseltechnologie für KMU:
- Eigene Daten ohne Cloud-Risiko: Mit lokaler KI und lokalem RAG bleiben sensible Dokumente im Haus.
- Halluzinations-Reduktion: Das Modell muss aus echten Quellen zitieren, nicht erfinden.
- Aktuelles Wissen: Deine neuesten Verträge, Tarife, Produktdaten — kein Modell-Knowledge-Cutoff mehr.
Praxisbeispiele aus dem KMU-Alltag
1. Wissensdatenbank für Kundenservice
Aus 2.000 Help-Center-Artikeln + alten Tickets wird eine RAG-Wissensbasis. Mitarbeitende bekommen sofort die passende Antwort mit Quellenverweis. Onboarding-Zeit für neue Service-Kräfte sinkt von 8 auf 2 Wochen.
2. Vertragsprüfung in Anwaltskanzlei
RAG über 5 Jahre eigener Verträge. „Wie haben wir Haftungsklauseln in Software-Verträgen typischerweise formuliert?" → Antwort mit 4–5 Belegstellen + Datum. Spart 30 Minuten pro Vertragsentwurf.
3. Technische Doku
Maschinenbauunternehmen mit 12.000 Seiten Handbücher. Servicetechniker im Außendienst fragen via Tablet: „Wie tausche ich den Drucksensor an Maschine XY-2024?" → Antwort mit Bild und Schrittliste. Spart Rückrufe ins Werk.
RAG-Setup für KMU 2026 — die ehrliche Anleitung
Variante A: Cloud (schnell, ~1 Tag Setup)
Geeignet für unkritische Daten:
- Notion AI mit eigener Wissensbasis
- ChatGPT mit Custom GPT + Knowledge Files
- Claude Projects mit Datei-Upload
Vorteil: in Stunden produktiv. Nachteil: Daten in der Cloud, Skalierungs-Limits.
Variante B: Self-Hosted (DSGVO-konform, 2–5 Tage Setup)
Der KMU-Standard 2026 für sensitive Daten:
- Ollama mit Llama 3.3 70B oder Qwen 3 32B
- OpenWebUI mit eingebautem RAG-Modul
- Lokale Vektor-DB (Chroma, Qdrant)
- Optional: n8n für Auto-Indexierung neuer Dokumente
Hardware-Bedarf: eine Workstation mit RTX 4090 (24 GB VRAM) reicht für 5–15 Nutzer.
Variante C: Hybrid (für Privacy-sensible Branchen)
Lokale RAG mit Embeddings + lokales LLM für sensitive Suchen. Bei nicht-sensitiven Fragen ggf. Cloud-LLM für bessere Sprache. Routing via n8n.
Häufige Fehler bei RAG-Setup
- Chunk-Größe schlecht gewählt: Zu kleine Stücke (200 Tokens) verlieren Kontext, zu große (2000+) verwässern Relevanz. Sweet Spot meist 500–800 Tokens.
- Schlechte Quellen: RAG ist nur so gut wie die Wissensbasis. Veraltete oder widersprüchliche Dokumente → falsche Antworten.
- Kein Re-Ranking: Ähnlichste Embeddings ≠ relevanteste Antworten. Ein Re-Ranking-Schritt (Cohere Reranker, lokale Alternativen) hebt Qualität deutlich.
- Keine Evaluierung: Ohne Test-Set („Wir wissen die richtige Antwort auf diese 30 Fragen") merkt niemand, dass RAG schlecht performt.
Tools im Detail
- Lokales Setup: Ollama + OpenWebUI
- Vektor-DB: Chroma (einfach), Qdrant (skalierbar), pgvector (in PostgreSQL)
- Pipeline-Frameworks: LangChain, LlamaIndex
- Cloud-RAG: Pinecone, Weaviate Cloud, Azure AI Search
Verwandte Begriffe
Embedding · LLM · Lokale KI · Halluzination · Ollama
RAG-Setup für Ihr KMU
Wir setzen RAG-Systeme für KMU auf — auf eigener Hardware, mit Ihren Dokumenten, in 2–4 Wochen. Zum KMU-Leitfaden →
Kommentare ()