Skrivet av Yoshman:
Allt är ju bara rykten i detta läge då Nvidia sagt väldigt lite konkret så här långt.
Precis som du skriver var NVLink var initialt tänkt för HPC ihop med POWER8, gissar att det fortfarande är fallet (fast undrar hur det går för OpenPOWER, hört att Google droppar detta för att satsa på ARMv8 som alternativ till x86), på senare tid har NVLink oftare nämnts ihop med någon ARMv8 design vilket inte känns så "HPC". D.v.s. väldigt oklart vad man siktar på med NVLink, är HPC spåret kvar lär det finnas någon form av GPU med fokus på GPGPU lite mer oklart exakt vad man ska ha NVLink till ihop med ARMv8 (machine learning verkar i.o.f.s. "hett", vet för lite om det för att säga om NVLink tillför något där).
IBM kommer oavsett att gå vidare med Power8/9 med NVLink, så även om Google väljer ARM så har IBM kunder...
Skrivet av Yoshman:
Vad jag sett rykten om är att man eventuellt helt ska droppa 64-bitars flyttalsstöd i konsumentversionerna, tycker det låter lite osannolikt att man helt skippar det (även om det i praktiken är meningslöst för spel) och mer rimligt är då att man eventuellt gör än större diff mellan 32-bitars och 64-bitars prestanda.
Det är ju ändå samma kretsar för både konsument och server, traditionellt så har det ju ställt med hårdvaru-mjukvaruswitchar. "Mixed precision" är ju i stort (förenklat) samma sak förutom att det är möjligt att göra det under körning.
Så att dom skulle skippa 64 bitars stödet och då lämna den professionella sidan är rätt osannolikt, däremot stänga av det för konsument. Något som ju redan görs.
Skrivet av Yoshman:
Får intrycket att mixed precession tillägget i Pascal bl.a. kan användas till att dynamiskt välja 16/24 bitars beräkningar i lägen där man ändå inte kommer se någon skillnad. Det ökar ju teoretisk kapacitet och kan vara användbart för spel, knappast något man vill använda i GPGPU då resultatet eventuellt inte är helt reproducerbart.
"Mixed precision" har ingen stöd i DirectX, men tycker nog att det borde bli stöd då det kan öka prestandan. Precis som du skriver
Det är endast den professionella sidan som kan ha nytta av "Mixed precision" idag, men kan nog inte riktigt förstå vad du menar med " inte är helt reproducerbart.". Att det sker och blir avrundningsfel händer i allt från FP16 till FP64, ja felen blir större i FP16. Men nog är dom reproducerbara, för om det inte skulle vara reproducerbart så finns där en bugg i antingen kretsen eller mjukvaran.
Skrivet av Yoshman:
Med tanke på hur framgångsrik man varit med Maxwell känns det konstigt om man inte gör "more of same", d.v.s. 100% fokus på saker som gör nytta i spel även om det försämrar GPGPU. Lite därför jag kan tro att det ligger något i ryktena.
Det kan dom ju förbättra i andra delar av designen utan att för den delen påverka flyttals prestandan, visst det kan ta mer silikon och påverka från det hållet.
Skrivet av Yoshman:
Angående rykten så finns det sådana som säger att 950/960 nivån kommer fortsätta vara Maxwell, men att det handlar om 16 nmFF+ Maxwell så ersättarna för 950/960 i stort sätt blir 970/980. Ingen aning hur sannolikt detta rykte är, men inte helt orimligt då FinFET borde kunna ge ungefär den ökning i energieffektivitet så att 16 nmFF++ 970/980 hamnar på 28 nm 950/960 nivå i absolut effekt.
Lite Tick/Tock då... Inget som jag tidigare sett med GPU, men helt klart ett sätt att i så fall få ut "nya" kretsar med gammal design, bättre än endast omdöpta
Skrivet av Yoshman:
Kan i.o.f.s vara så att Nvida släpper HPC men ändå satsar på GPGPU i form av just machine learning, senaste generationen Tesla (Nvidias beräkningskort) har ju faktiskt sämre 64-bitars prestanda än tidigare och bara marginellt bättre 32-bitars. Man lär knappast ha något att sätta emot Xeon Phi (Knights Landing som borde komma när som helst), redan första generationen Xeon Phi tog rätt snabbt ungefär halva HPC marknaden från Nvidia.
Det kan nog stämma, och är ju som jag sett dig skriva tidigare att GPGPU inte fått något större genomslag.
Är nog mycket beroende på att där är en tid till acceptans/kunskap ihop med lämpliga verktyg för att kunna använda den massiva parallella beräkningskraften effektivt, något som även borde gälla för Knights landing.
Kanske i ännu större grad på Knights landing då där är 72 kärnor med 288 trådar där enkla instruktioner kan få vänta på att en komplex instruktion blir klar. Obs, förutsätter att det är som på övrig flertrådig x86 arkitektur.
En effekt som man inte får med GPGPU, förutom då på AMD's VLIW5..
Oavsett så är det intressant läsning att Atom fått ett derivat som hanterar 4 trådar per kärna
Skrivet av Yoshman:
Men som sagt, allt är rykten och spekulation. Vad som inte är spekulation är att GPGPU fortfarande knappt används utanför HPC samt att många av de områden man tidigare pekade ut som vettiga för GPGPU på konsumentmarknaden allt mer täcks in av fixed-function kretsar.
Troligen (som tidigare) att det inte funnits lätthanterliga verktyg för att dra nytta av GPGPU, en annan orsak har ju varit minnesmodellen som krånglat till det, något som AMD och även Nvidia (i viss grad) försökt att adressera med HSA.
Sen kan man ju nästan även fråga, vad finns där idag på konsumentsidan som skulle ha nytta av GPGPU? Mer än i så fall "Folding" och liknande där man välvilligt lånar ut beräkningskraften till olika professionella projekt, vilket ju är ett special fall och inget som användaren normalt har nytta av.
"Fixed function" är som jag ser det slöseri av silikon, det är ju endast för speciella fall som då hanteras mycket snabbt.
I övrigt så är den silikonytan endast ett bihang som följer med...
Däremot så ser jag helt klart fördelen med "Fixed function" i specifika periferier (i/o) som möss, fingeravtrycksläsare m.m.
Man kan ju undra hur något ska kunna komma till konsumentsidan när inte ens professionella applikationer än idag klarar av att dra fördel av/hantera mer än en tråd.
Arbetar själv med konstruktion och kör med CAD/CAM, där ingen som jag vet om än idag drar nytta av mer än "en" tråd.