Token

KI-Grundlagen

Token — Die kleinste Einheit, in die ein KI-Modell Text zerlegt — ungefähr 0,7 Wörter im Deutschen.

Beispiel

Künstliche Intelligenz wird in ca. 5 Tokens zerlegt. Modelle zählen ihre Limits in Tokens, nicht Wörtern.

Verwandt: Kontextfenster · LLM (Large Language Model)

Mehr im Glossar

Alle Begriffe auf einen Blick →

Ein Token ist die kleinste bedeutungstragende Einheit, in die ein KI-Modell Texte zerlegt, um sie zu verarbeiten und zu generieren.

In einfachen Worten

Stellen Sie sich einen Satz wie eine Perlenkette vor. Jede einzelne Perle ist ein Token. Mal ist eine Perle ein ganzes Wort wie „Haus“, mal nur ein Wortteil wie „Haus-“ in „Hausaufgabe“, mal ein einzelnes Zeichen wie ein Punkt oder ein Leerzeichen. Das KI-Modell liest und schreibt nicht Buchstabe für Buchstabe, sondern Perle für Perle. Wenn Sie dem Modell eine Frage stellen, zerlegt es diese in Tokens. Die Antwort setzt es dann ebenfalls aus Tokens zusammen. Die Anzahl der Tokens bestimmt, wie viel „Platz“ ein Text im Modell einnimmt und wie viel Rechenleistung nötig ist.

Was bedeutet das technisch

Technisch gesehen wandelt ein Tokenizer den eingegebenen Text in eine Zahlenfolge um. Jeder Token erhält eine eindeutige ID aus einem festgelegten Wörterbuch (dem Vokabular). Ein Modell wie GPT-4o arbeitet mit einem Vokabular von etwa 100.000 bis 200.000 verschiedenen Tokens. Die Zerlegung folgt Regeln: Gängige Wörter wie „der“ oder „und“ sind oft einzelne Tokens. Seltene Wörter oder Fachbegriffe werden in mehrere Tokens aufgeteilt. Ein Beispiel: Das Wort „KünstlicheIntelligenz“ könnte in die Tokens [„Künstliche“, „Intelligenz“] oder [„Künst“, „liche“, „Intelligenz“] zerlegt werden, je nach Modell.

Die Tokenanzahl ist die zentrale Kosten- und Leistungseinheit. Die meisten KI-Dienste (OpenAI, Anthropic, Google) berechnen ihren Preis pro Token – sowohl für die Eingabe (Prompt) als auch für die Ausgabe (Antwort). Ein deutscher Text benötigt im Schnitt mehr Tokens als ein englischer, weil die Wortstruktur komplexer ist. Faustregel: Ein englischer Text verbraucht etwa 1,3 Tokens pro Wort, ein deutscher etwa 1,8 bis 2,2 Tokens pro Wort. Ein 500-Wörter-Text auf Deutsch kann also 1.000 Tokens oder mehr benötigen.

Warum es für KMU relevant ist

Für KMU hat die Token-Anzahl direkte Auswirkungen auf drei Bereiche: Kosten, Geschwindigkeit und Qualität. Erstens die Kosten: Wenn Sie eine KI für die E-Mail-Kommunikation oder die Erstellung von Produktbeschreibungen nutzen, zahlen Sie pro Token. Ein Modell, das 10.000 Tokens für eine Zusammenfassung eines 20-seitigen Vertrags benötigt, kostet bei 0,15 Euro pro 1.000 Tokens etwa 1,50 Euro. Bei 1.000 solcher Anfragen im Monat sind das 1.500 Euro – ein kalkulierbarer Posten.

Zweitens die Geschwindigkeit: Die meisten Modelle haben ein sogenanntes Kontextfenster (die maximale Anzahl an Tokens, die sie auf einmal verarbeiten können). Ein Fenster von 8.000 Tokens reicht für eine kurze E-Mail, aber nicht für die Analyse eines Jahresabschlusses mit 50 Seiten. Für solche Aufgaben benötigen Sie Modelle mit 100.000 oder mehr Tokens. Drittens die Qualität: Wenn Sie einen langen Text eingeben, müssen Sie Tokens sparen, indem Sie unwichtige Passagen weglassen. Sonst füllt der Prompt das Fenster, und die KI hat keinen Platz mehr für eine ausführliche Antwort.

Ein praktisches Beispiel: Ein Handwerksbetrieb möchte automatisch Angebote aus Kundenanfragen generieren. Die Anfrage hat 200 Wörter (ca. 400 Tokens). Die Antwort soll 300 Wörter haben (ca. 600 Tokens). Pro Angebot fallen also 1.000 Tokens an. Bei 100 Angeboten pro Monat und einem Preis von 0,10 Euro pro 1.000 Tokens kostet das 10 Euro. Das ist günstig. Würde der Betrieb jedoch ganze Baupläne (10.000 Wörter) hochladen, steigen die Kosten auf 200 Euro pro Monat – dann lohnt sich ein spezialisiertes Modell mit größerem Kontextfenster.

Verwandte Begriffe

Kontextfenster – die maximale Anzahl an Tokens, die ein Modell auf einmal verarbeiten kann.

Prompt – die Eingabe, die aus Tokens besteht und die Anfrage an das Modell darstellt.

Modell – das neuronale Netz, das Tokens verarbeitet und daraus Antworten generiert.

Embedding – die numerische Darstellung eines Tokens als Vektor im mehrdimensionalen Raum.

Aufmerksamkeitsmechanismus – die Technik, mit der das Modell die Beziehung zwischen Tokens in einem Satz berechnet.