Was ist der Unterschied zwischen einfachem und fortgeschrittenem RAG?

Einfaches RAG sucht nur in einer flachen Dokumentensammlung. Fortgeschrittenes RAG nutzt Chunking, Metadaten, hybride Suche und Agenten, um relevantere Ergebnisse zu liefern.

Welche Vorteile bietet RAG gegenüber reinen Sprachmodellen?

RAG reduziert Halluzinationen, da Antworten auf echten Quellen basieren. Es ermöglicht aktuelle Informationen ohne Modell-Neutraining und bietet nachvollziehbare Belege.

Wie wählt man die optimale Chunk-Größe für RAG?

Die Chunk-Größe hängt vom Dokumenttyp ab: Bei FAQs sind 100-200 Zeichen sinnvoll, bei Handbüchern 500-1000. Experimentiere mit Überlappungen von 10-20% für bessere Kontexterhaltung.

Kann RAG auch mit Bildern und Tabellen umgehen?

Ja, durch multimodale Modelle oder separate Verarbeitung. Bilder werden oft über Bildunterschriften oder OCR eingebunden, Tabellen über strukturierte Extraktion.

Glossar

RAG (Retrieval-Augmented Generation)

Auf einen Blick

RAG (Retrieval-Augmented Generation) ist ein KI-Ansatz, der vor der Antwortgenerierung relevante Informationen aus einer Wissensdatenbank abruft. Dadurch werden Faktenwissen und Aktualität verbessert, Halluzinationen reduziert und die Nachvollziehbarkeit erhöht.

Kategorie	Technologie
Lesezeit	8 Min
Zielgruppe	KI-Entwickler, IT-Entscheider, fortgeschrittene Anwender
Schwierigkeit	Fortgeschritten
Stand	2026-05
Quellen	Fachartikel, Dokumentation

Agenten & Fortgeschrittenes

RAG (Retrieval-Augmented Generation) — KI, die zuerst in deinen eigenen Dokumenten sucht und dann antwortet. Die Antwort kommt mit Belegstellen aus deiner Wissensbasis.

Was RAG technisch macht

Ein normales LLM wie ChatGPT oder Claude kennt nur, was im Training drin war. Frag es nach deinem letzten Vertrag oder deinem KMU-Handbuch: Halluzination oder ehrliches „weiß ich nicht". RAG löst genau dieses Problem.

Der Ablauf bei RAG:

Indexierung (einmalig): Deine Dokumente (PDF, DOCX, TXT) werden in kleine Stücke zerlegt. Jedes Stück bekommt ein Embedding — einen Vektor, der die Bedeutung repräsentiert. Alles landet in einer Vektor-Datenbank.
Anfrage: Du stellst eine Frage. Die Frage wird in einen Embedding-Vektor umgewandelt.
Retrieval: Die Datenbank findet die 3–5 Stücke, deren Embeddings am ähnlichsten sind.
Generation: Das LLM bekommt deine Frage PLUS die gefundenen Stücke und formuliert eine Antwort — mit Bezug auf die Quellen.

Warum RAG für KMU 2026 der wichtigste KI-Hebel ist

Drei Gründe machen RAG zur Schlüsseltechnologie für KMU:

Eigene Daten ohne Cloud-Risiko: Mit lokaler KI und lokalem RAG bleiben sensible Dokumente im Haus.
Halluzinations-Reduktion: Das Modell muss aus echten Quellen zitieren, nicht erfinden.
Aktuelles Wissen: Deine neuesten Verträge, Tarife, Produktdaten — kein Modell-Knowledge-Cutoff mehr.

Praxisbeispiele aus dem KMU-Alltag

1. Wissensdatenbank für Kundenservice

Aus 2.000 Help-Center-Artikeln + alten Tickets wird eine RAG-Wissensbasis. Mitarbeitende bekommen sofort die passende Antwort mit Quellenverweis. Onboarding-Zeit für neue Service-Kräfte sinkt von 8 auf 2 Wochen.

2. Vertragsprüfung in Anwaltskanzlei

RAG über 5 Jahre eigener Verträge. „Wie haben wir Haftungsklauseln in Software-Verträgen typischerweise formuliert?" → Antwort mit 4–5 Belegstellen + Datum. Spart 30 Minuten pro Vertragsentwurf.

3. Technische Doku

Maschinenbauunternehmen mit 12.000 Seiten Handbücher. Servicetechniker im Außendienst fragen via Tablet: „Wie tausche ich den Drucksensor an Maschine XY-2024?" → Antwort mit Bild und Schrittliste. Spart Rückrufe ins Werk.

RAG-Setup für KMU 2026 — die ehrliche Anleitung

Variante A: Cloud (schnell, ~1 Tag Setup)

Geeignet für unkritische Daten:

Notion AI mit eigener Wissensbasis
ChatGPT mit Custom GPT + Knowledge Files
Claude Projects mit Datei-Upload

Vorteil: in Stunden produktiv. Nachteil: Daten in der Cloud, Skalierungs-Limits.

Variante B: Self-Hosted (DSGVO-konform, 2–5 Tage Setup)

Der KMU-Standard 2026 für sensitive Daten:

Ollama mit Llama 3.3 70B oder Qwen 3 32B
OpenWebUI mit eingebautem RAG-Modul
Lokale Vektor-DB (Chroma, Qdrant)
Optional: n8n für Auto-Indexierung neuer Dokumente

Hardware-Bedarf: eine Workstation mit RTX 4090 (24 GB VRAM) reicht für 5–15 Nutzer.

Variante C: Hybrid (für Privacy-sensible Branchen)

Lokale RAG mit Embeddings + lokales LLM für sensitive Suchen. Bei nicht-sensitiven Fragen ggf. Cloud-LLM für bessere Sprache. Routing via n8n.

Häufige Fehler bei RAG-Setup

Chunk-Größe schlecht gewählt: Zu kleine Stücke (200 Tokens) verlieren Kontext, zu große (2000+) verwässern Relevanz. Sweet Spot meist 500–800 Tokens.
Schlechte Quellen: RAG ist nur so gut wie die Wissensbasis. Veraltete oder widersprüchliche Dokumente → falsche Antworten.
Kein Re-Ranking: Ähnlichste Embeddings ≠ relevanteste Antworten. Ein Re-Ranking-Schritt (Cohere Reranker, lokale Alternativen) hebt Qualität deutlich.
Keine Evaluierung: Ohne Test-Set („Wir wissen die richtige Antwort auf diese 30 Fragen") merkt niemand, dass RAG schlecht performt.

Tools im Detail

Lokales Setup: Ollama + OpenWebUI
Vektor-DB: Chroma (einfach), Qdrant (skalierbar), pgvector (in PostgreSQL)
Pipeline-Frameworks: LangChain, LlamaIndex
Cloud-RAG: Pinecone, Weaviate Cloud, Azure AI Search

Häufige Fragen

Was ist der Unterschied zwischen RAG und feinabgestimmten Modellen?

RAG ruft zur Laufzeit relevante Dokumente ab und ergänzt den Prompt, während Feinabstimmung das Modell dauerhaft auf spezifische Daten trainiert. RAG ist flexibler und benötigt kein erneutes Training bei neuen Informationen.

Welche Komponenten brauche ich für ein RAG-System?

Ein RAG-System besteht aus einem Retrieval-Modul (z. B. Vektordatenbank mit Embeddings), einem Generator (LLM) und einer Orchestrierungskomponente, die den Abruf und die Prompt-Erstellung steuert.

Wie vermeide ich Halluzinationen bei RAG?

Durch hochwertige, relevante Dokumente im Index, klare Prompt-Instruktionen, die das Modell auf die abgerufenen Quellen beschränken, und Metriken wie Relevanz-Scores oder Quellenangaben im Output.

Welche Herausforderungen gibt es bei fortgeschrittenem RAG?

Herausforderungen sind die Optimierung der Chunk-Größe, die Auswahl des Embedding-Modells, die Handhabung mehrerer Abfragen (Multi-Hop), die Latenz bei großen Dokumentenmengen und die Sicherstellung der Datenaktualität.

Zuletzt aktualisiert: 2026-06-01 · Autor: Florian Neuhuber

RAG (Retrieval-Augmented Generation)

Was RAG technisch macht

Warum RAG für KMU 2026 der wichtigste KI-Hebel ist