Kontextfenster

KI-Grundlagen

Kontextfenster — Wie viel Text ein Modell gleichzeitig lesen kann. Modern: 128k bis 2M Tokens.

Beispiel

Claude 4 hat 200k Tokens Kontext — das sind ungefähr 150.000 Wörter, also ein dickes Buch.

Verwandt: Token · LLM (Large Language Model)

Mehr im Glossar

Alle Begriffe auf einen Blick →

Das Kontextfenster ist der Speicherbereich eines KI-Sprachmodells, der alle Informationen aus einer aktuellen Unterhaltung oder Aufgabe gleichzeitig verarbeiten kann.

In einfachen Worten

Stellen Sie sich das Kontextfenster wie den Arbeitstisch eines Schreiners vor. Auf diesem Tisch kann er nur so viele Werkzeuge und Holzstücke gleichzeitig ablegen, wie Platz vorhanden ist. Legt er ein neues Werkzeug dazu, muss er etwas anderes wegräumen. Genauso funktioniert das Kontextfenster eines KI-Modells: Es kann nur eine begrenzte Menge an Text, Daten oder Anweisungen auf einmal „sehen“ und verarbeiten. Wenn Sie mit einer KI chatten und die Unterhaltung länger wird, „vergisst“ das Modell irgendwann den Anfang des Gesprächs – weil der alte Inhalt aus dem Kontextfenster gefallen ist, um Platz für Neues zu schaffen.

Was bedeutet das technisch

Das Kontextfenster (auch Kontextlänge genannt) misst die maximale Anzahl von Token, die ein Sprachmodell in einem Durchlauf verarbeiten kann. Ein Token entspricht etwa einer Silbe oder einem kurzen Wort. Bei deutschen Texten entspricht ein Token grob 0,75 Wörtern. Ein Modell mit einem Kontextfenster von 8.000 Token kann also etwa 6.000 deutsche Wörter auf einmal verarbeiten.

Technisch funktioniert das Kontextfenster über die sogenannte Aufmerksamkeitsmechanik (Attention-Mechanismus) des Modells. Das Modell berechnet für jedes Token im Fenster, wie stark es mit jedem anderen Token zusammenhängt. Diese Berechnung wächst quadratisch mit der Fenstergröße: Verdoppeln Sie das Fenster, vervierfacht sich der Rechenaufwand. Deshalb haben ältere Modelle wie GPT-3.5 nur 4.000 Token, während neuere Modelle wie GPT-4 Turbo bis zu 128.000 Token verarbeiten können. Claude 3 bietet sogar 200.000 Token. Der Preis für diese großen Fenster: höhere Rechenkosten und längere Antwortzeiten.

Wichtig zu verstehen: Das Kontextfenster ist nicht der Speicher des Modells. Das Modell speichert nichts dauerhaft. Jede neue Anfrage startet mit dem aktuellen Kontextfenster-Inhalt. Alles, was außerhalb des Fensters liegt, existiert für das Modell nicht mehr.

Warum es für KMU relevant ist

Die Größe des Kontextfensters bestimmt, welche Aufgaben Sie mit einer KI wirtschaftlich lösen können. Drei konkrete Beispiele:

1. Vertragsanalyse: Ein typischer deutscher Mietvertrag hat 5.000 bis 8.000 Wörter. Mit einem 8.000-Token-Fenster (ca. 6.000 Wörter) können Sie nur einen kurzen Vertrag komplett analysieren. Für einen 20-seitigen Kaufvertrag brauchen Sie ein Fenster von mindestens 32.000 Token. Sonst müssen Sie den Vertrag stückeln – und verlieren dabei den Zusammenhang.

2. Kundensupport-Chat: Ein Kunde schildert ein Problem über mehrere Nachrichten. Bei einem kleinen Fenster von 4.000 Token „vergisst“ die KI nach 15-20 Nachrichten, was der Kunde zu Beginn gesagt hat. Sie müssen dann entweder den Chatverlauf zusammenfassen oder die KI neu starten. Beides kostet Zeit und führt zu schlechteren Antworten.

3. Code-Analyse: Ein KMU, das seine hauseigene Software dokumentieren lässt: Eine einzelne Code-Datei mit 1.000 Zeilen hat schnell 10.000 Token. Für eine sinnvolle Analyse brauchen Sie ein Fenster von mindestens 32.000 Token. Mit kleineren Fenstern können Sie nur Code-Ausschnitte verarbeiten.

Die Kosten steigen mit der Fenstergröße. Ein Modell mit 128.000 Token kostet pro Anfrage etwa 5-10 Mal mehr als ein Modell mit 8.000 Token. Für viele KMU reicht ein Fenster von 8.000 bis 32.000 Token. Nur wenn Sie regelmäßig mit langen Dokumenten arbeiten (Handbücher, Verträge, Forschungsberichte), lohnt sich ein größeres Fenster.

Ein Risiko: Je größer das Fenster, desto mehr irrelevante Informationen können das Modell verwirren. Ein Modell mit 200.000 Token verarbeitet auch 200.000 Token Rauschen, wenn Sie nicht aufpassen. Sie müssen den Input sauber strukturieren – das kostet Zeit und erfordert Übung.

Verwandte Begriffe

Token
Sprachmodell
Feinabstimmung
Prompt-Engineering
Aufmerksamkeitsmechanismus