Under föregående veckas evenemang Intel Architecture Day visade bolaget upp olika varianter av bolagets kommande grafikkort baserade på nya arkitekturen Xe. Bland dessa var den datacenter-fokuserade produktfamiljen Xe-HP, som utformats för stor skalbarhet i kapacitet beroende på tillämpning. Då visade Intel upp en grafikkrets som tillämpar en beräkningsenhet eller tile.

Intel-4_21.jpg

Blott några dagar senare är det nu dags för teknikmässan Hot Chips, där Intels grafikchef Raja Koduri visar upp toppkonfigurationen av Xe-HP. Här kombineras fyra tiles på en och samma grafikkrets. De fyra tile-enheterna sammankopplas via Intels teknik EMIB som gör det möjligt för olika kretsar på samma yta att kommunicera med varandra. Denna teknik används sannolikt även för att låta tile-enheternas HBM-minne kommunicera och dela data sinsemellan, men detta framkommer inte i Intels presentation.

Raja Koduri går inte in på djupare tekniska detaljer i sin presentation, men passar däremot på att avslöja spännande detaljer om hur grafikkorten kommer kunna skala prestandamässigt. Med blott en tile-enhet nås flyttalsprestanda i formatet FP32 om 10,6 TFLOPS. När steget tas till två tile-enheter växer resultatet till 21,2 TFLOPS, en ökning som är snubblande nära en dubblering. För flyttalsberäkningar med enkelprecision blir resultatet 42,3 TFLOPS.

Xe-HP_Perf.png

Med fyra tile-enheter nås galna 41,9 TFLOPS, vilket i sin tur är snubblande nära fyra gånger snabbare än grundkonfigurationen. Med det demonstrerar Intel att bolagets grafikkort i Xe-HP-familjen är linjärt skalbara, och prestandavinster ska därmed öka linjärt med antalet tile-enheter grafikkorten bestyckas med. Detta kan jämföras med konkurrenten Nvidia, som med datacenter-produkten A100 istället kombinerar flera grafikkort i serverprodukten HGX A100 för att skala prestanda.

Nvidias A100 bygger på nya grafikarkitekturen Ampere och når enligt bolagets uppgifter FP32-prestanda om 19,5 TFLOPS per grafikkort. Ställt mot detta ser Intels utlovade prestanda om över 41 FLOPS på ett grafikkort med fyra Xe-HP-tiles onekligen lovande ut. Raja Koduri nämner också att Xe-HP har kapacitet att nå petaflop-prestanda, det vill säga över 1 000 TFLOPS för specifikt AI-beräkningar. De specifikationer som visas i Intels presentation talar dock om ett betydligt lägre resultat.

Presentationen nämner att Xe-HP med fyra tile-enheter bestyckas med totalt 2 048 beräkningsenheter (EU) som körs i klockfrekvensen 1,3 GHz. EU-enheterna är kapabla att agera som tensorkärnor och utföra 128 beräkningar och två FMA-adderingar per klockcykel. En summering av 2 048 × 128 × 2 ger resultatet 524,3 TFLOPS för AI-beräkningar. Detta antyder att planen är att Xe-HP ska kunna köras i klockfrekvenser som överstiger 2 GHz, vilket skulle ge beräkningskraft i petaflops-klass.

Intel har dock ännu inte avslöjat när grafikkorten med denna toppkonfiguration kan tänkas nå marknaden. Om det sker inom det kommande året lär bolaget stå sig väl mot konkurrenterna. Dröjer det längre än så kan vågskålen istället väga över till konkurrenternas favör. Xe-HP representerar Intels näst högsta prestandanivå, där Xe-HPC är den högsta nivån med superdatorer och beräkningar i exaskala i åtanke.

Läs mer om Intel Xe: