En NPU kan rätt mycket jämföras med Nvidias Tensor-kärnor. Den tekniskt relevanta skillnaden är primärt att NPUer har ett smalare scope och kan därmed optimeras än mer för just sitt specifika fall.
En NPU behöver egentligen bara stödja exakt det TensorFlow, PyTorch och liknande ramverk behöver. Poängen med applikationsspecifikt kisel är att man kan nå väldigt mycket högre effektivitet (flera heltalsfaktorer och ibland även tiopotenser). Uppenbara nackdelen är att de bara fungerar för specifika uppgifter, men då tillgänglig transistorbudget ökar snabbare än effektiviteten per transistor ökar kan man idag ändå inte ha fall där alla transistorer jobbar samtidigt -> fixed-funktionskisel blir allt vettigare för varje krympning.
Förutsätter att även Apples kommande ARM64 baserade Mac:ar ha NPUer och liknande. Om så är fallet lär vi få se i benchmarks av bl.a. videoredigering just hur snabba dessa system är ställd mot om man gör motsvara på GPU, eller än värre på CPU!