Quantisierung
Lokale KI & Self-Hosting
Quantisierung — Modell-Größe reduzieren durch weniger genaue Zahlen — schneller, weniger RAM.
Beispiel
Ein 70B-Modell braucht in voller Präzision 140 GB VRAM. In Q4-Quantisierung nur ~40 GB.
Mehr im Glossar
Quantisierung ist ein Verfahren, um KI-Modelle zu verkleinern und zu beschleunigen, indem die Genauigkeit der Zahlenberechnungen reduziert wird.
In einfachen Worten
Stellen Sie sich vor, Sie haben ein Foto mit 16 Millionen Farben. Das ist sehr detailreich, aber die Datei ist groß. Wenn Sie dieses Foto in ein Schwarz-Weiß-Bild mit nur 256 Graustufen umwandeln, wird die Datei viel kleiner. Sie verlieren dabei etwas Farbinformation, aber das Motiv bleibt erkennbar. Genauso funktioniert Quantisierung bei KI-Modellen: Die ursprünglichen Zahlen, mit denen das Modell rechnet, werden vergröbert. Aus einer Zahl mit vielen Nachkommastellen wird eine ganze Zahl. Das Modell wird dadurch kleiner und schneller, arbeitet aber etwas ungenauer.
Was bedeutet das technisch
KI-Modelle wie große Sprachmodelle (LLMs) speichern ihre Gewichte – das sind die Zahlen, die das Verhalten des Modells bestimmen – normalerweise im 32-Bit-Gleitkommaformat (FP32). Jedes Gewicht belegt 4 Byte Speicher. Ein Modell mit 7 Milliarden Parametern benötigt daher etwa 28 Gigabyte Arbeitsspeicher. Das passt kaum in eine handelsübliche Grafikkarte.
Quantisierung wandelt diese 32-Bit-Zahlen in Formate mit weniger Bits um, zum Beispiel 8-Bit-Ganzzahlen (INT8) oder 4-Bit-Ganzzahlen (INT4). Ein 7-Milliarden-Parameter-Modell schrumpft so auf etwa 7 Gigabyte (INT8) oder 3,5 Gigabyte (INT4). Der Speicherbedarf sinkt drastisch. Die Berechnungen werden ebenfalls schneller, weil kleinere Zahlen schneller durch die Hardware laufen. Der Preis dafür ist ein geringer Genauigkeitsverlust. Bei guter Quantisierung bleibt die Qualität der Ergebnisse oft nahezu identisch, bei sehr starker Quantisierung (z. B. INT2) können die Ergebnisse merklich schlechter werden.
Warum es für KMU relevant ist
Quantisierung senkt die Hürden für den Einsatz von KI im eigenen Unternehmen erheblich. Sie benötigen keine teure Server-Hardware mit riesigen Grafikspeichern. Ein handelsüblicher Büro-PC mit einer Mittelklasse-Grafikkarte oder sogar ein leistungsstarker Laptop reichen aus, um große Modelle lokal auszuführen. Das spart Anschaffungskosten und macht Sie unabhängig von Cloud-Diensten.
Konkrete Anwendungsfälle: Ein KMU kann ein quantisiertes Sprachmodell auf einem lokalen Rechner betreiben, um E-Mails zu analysieren, Rechnungen zu kategorisieren oder Kundenanfragen vorzuverarbeiten. Da das Modell lokal läuft, bleiben sensible Daten im Haus. Das ist ein entscheidender Vorteil für Unternehmen mit strengen Datenschutzauflagen. Ein weiterer Vorteil: Die Antwortzeiten sinken, weil keine Daten über das Internet gesendet werden müssen.
Das Risiko: Bei zu starker Quantisierung leidet die Qualität. Für eine Rechtsabteilung, die Verträge prüft, kann ein ungenaues Modell fatale Folgen haben. Testen Sie daher verschiedene Quantisierungsstufen (z. B. INT8 vs. INT4) mit Ihren eigenen Daten, bevor Sie das Modell produktiv einsetzen. Viele KI-Frameworks bieten integrierte Funktionen zur Quantisierung an, sodass Sie den Vorgang selbst durchführen können.
Kommentare ()