NPU

Hardware

NPU — KI-Beschleuniger in modernen CPUs — Apple Silicon, Snapdragon, AMD Ryzen AI.

Beispiel

Apple M4 hat eine Neural Engine, die kleine Modelle (3B–8B) energieeffizient ausführt.

Verwandt: GPU · Mini-PC

Mehr im Glossar

Alle Begriffe auf einen Blick →

Eine NPU (Neuronale Verarbeitungseinheit) ist ein spezialisierter Prozessor, der KI-Berechnungen wie neuronale Netze direkt auf dem Gerät ausführt, statt sie in die Cloud auszulagern.

In einfachen Worten

Stellen Sie sich einen normalen Computerprozessor (CPU) wie einen Allround-Handwerker vor. Er kann vieles: Texte schreiben, Tabellen berechnen, im Internet surfen. Aber wenn Sie ihn bitten, tausend Fotos gleichzeitig zu analysieren oder Sprache in Echtzeit zu übersetzen, wird er langsam und heiß. Eine NPU ist wie ein Spezialist, der nur eine Aufgabe kann – nämlich KI-Modelle ausführen –, diese aber extrem schnell und stromsparend erledigt. Ein Beispiel: Wenn Sie auf Ihrem Smartphone die Kamera öffnen und das Gerät automatisch das Motiv scharfstellt oder den Himmel nachbelichtet, arbeitet im Hintergrund die NPU. Ohne sie müsste das Bild in die Cloud geschickt werden, was Zeit kostet und Ihre Daten preisgibt.

Was bedeutet das technisch

Eine NPU ist ein Hardware-Baustein, der für die Matrix- und Vektorberechnungen optimiert ist, die in tiefen neuronalen Netzen vorkommen. Während eine CPU wenige, aber komplexe Rechenkerne hat und eine GPU viele parallele Kerne für Grafikberechnungen, besitzt eine NPU hunderte bis tausende einfache Recheneinheiten, die speziell für Multiplikation-Akkumulation-Operationen (MACs) ausgelegt sind. Diese Operationen sind das Herzstück von KI-Modellen: Jedes Neuron in einem Netzwerk multipliziert Eingangswerte mit Gewichten und summiert sie auf.

Moderne NPUs integrieren oft dedizierte Speicherblöcke (SRAM) direkt auf dem Chip, um Daten eng an die Recheneinheiten zu koppeln. Das reduziert Latenzen und Energieverbrauch drastisch. Ein typischer KI-Workflow auf einer NPU läuft so ab: Das Modell wird vorab in ein komprimiertes Format (z. B. INT8 durch Quantisierung) umgewandelt. Die NPU lädt dann die Gewichte in ihren lokalen Speicher, nimmt Eingabedaten (z. B. ein Kamerabild) entgegen und führt die Vorwärtsberechnung des Netzes in einem Durchlauf aus. Das Ergebnis – etwa eine Objekterkennung – liegt innerhalb von Millisekunden vor. Der Stromverbrauch liegt oft unter 1 Watt, während eine CPU für dieselbe Aufgabe 5–15 Watt benötigen würde.

Warum es für KMU relevant ist

Für kleine und mittlere Unternehmen eröffnet die NPU neue Möglichkeiten, KI lokal und datenschutzkonform einzusetzen. Drei konkrete Szenarien:

1. Qualitätskontrolle in der Fertigung: Eine Kamera an einem Fließband erfasst jedes Werkstück. Eine NPU auf einem Industrie-PC führt in Echtzeit eine Fehlererkennung durch – ohne dass Bilddaten das Firmengelände verlassen. Das spart Cloud-Kosten und vermeidet Datenschutzrisiken. Die Anschaffung eines solchen Systems kostet heute ab 500 Euro.

2. Smarte Überwachung im Lager: Statt 24/7 Video-Streams in die Cloud zu schicken, analysiert eine lokale NPU die Bilder auf Einbruch oder Brandrauch. Nur bei einem Alarm sendet das System eine Benachrichtigung. Das reduziert die monatlichen Datenübertragungskosten von mehreren hundert Euro auf nahe null.

3. Sprachsteuerung im Büro: Ein KI-Assistent, der Termine bucht oder E-Mails diktiert, läuft komplett auf einem lokalen Gerät mit NPU (z. B. einem aktuellen Laptop). Die Sprachdaten verlassen nie das Unternehmen. Das ist besonders wichtig, wenn Sie mit vertraulichen Kundeninformationen arbeiten.

Das größte Risiko: NPUs sind für spezifische Modellarchitekturen optimiert. Nicht jedes KI-Modell läuft auf jeder NPU effizient. Prüfen Sie vor dem Kauf, ob Ihr gewünschtes Modell (z. B. YOLO für Objekterkennung oder Whisper für Spracherkennung) von der Hardware unterstützt wird. Die Einrichtung erfordert oft spezielle Software-Bibliotheken (SDKs) der Chip-Hersteller, was initialen Entwicklungsaufwand bedeutet. Der Vorteil: Einmal konfiguriert, arbeiten NPU-basierte Systeme wartungsarm und ohne laufende Cloud-Gebühren.

Verwandte Begriffe

TPU (Tensor Processing Unit) – Googles spezialisierte KI-Hardware für Rechenzentren

Quantisierung – Verfahren, um KI-Modelle zu verkleinern und auf NPUs lauffähig zu machen

On-Device-KI – KI-Berechnungen direkt auf dem Endgerät statt in der Cloud

Neuronales Netz – Die grundlegende Architektur, die NPUs beschleunigen

Edge-Computing – Datenverarbeitung nahe der Datenquelle, oft mit NPUs realisiert