Behöver dator för snabb AI-användning och lite spelande. (Under 50k)

Permalänk
Medlem

Behöver dator för snabb AI-användning och lite spelande. (Under 50k)

Hej!

Det börjar bli snart 20 år sen jag byggde dator senast och ja, det har ju onekligen hänt en del sedan dess. Nu börjar det dock bli dags att lämna laptop-träsket igen och därför vänder jag mig till expertisen här.

Så, anledningen till att jag känner att jag behöver en desktop är att jag ser ett behov av att kunna köra AI (SD+ControlNet och Whisper) lokalt. Främst behöver jag Whisper för mitt arbete och kan/får inte skicka mina data till externa servrar för behandling. Visst spelar jag en del också, men inte till den grad att det kräver något monster till dator.

Så, nu till min fundering, hur får jag mest "bang for the buck"? Jag håller mig helst under 50 och gärna närmare 45. Jag har förstått att det absolut viktigaste är VRAM och CUDA cores, därför har jag kikat på 4090, men det känns oskäligt kostsamt, men det kanske är det som gäller ändå? Är jag i behov av en i9 14900? Eller kan jag lika gärna köra på någon Ryzenvariant? Vad är för respektive nackdelarna?

Finns det någon guru som kan hjälpa en åldrande nörd?
Så här ser mina tankar ut just nu, men har ingen aning om det är varken lämpligt eller rimligt: https://www.inet.se/datorbygge/b1434531/dator-for-ai

Allt gott!

Permalänk
Medlem

Vad gäller grafikkort, kanske kan detta hjälpa?
https://www.tomshardware.com/news/whisper-audio-transcription...

4090 må vara bäst, men kan kanske inte motivera prislappen...

Permalänk
Medlem

Utifrån SD: pga. VRAM har du 3090 och 4090 att välja på. Beg. 3090 ligger bra i kurs här på sweclockers. Huruvida 4090 är värt det beror väl på hur ditt arbetsflöde ser ut och hur du värderar din tid. Steget från mitt 3080 (inte alltför långt efter 3090 i prestanda) till samma 4090 som du kollar på går ju inte motivera utifrån pris/prestanda-ratio (fast det är nära om man kollar på rena FLOPS, 4090 har brutal prestanda), men 4090 är klart bekvämare att utforska nya idéer med.
Största nackdelen med 4090, iaf för mig som är ljudkänslig, är att man med modell väljer mellan högljudda fläktar och coilwhine, och coilwhine från MSI-kortet gör det till den klart högljuddaste komponenten i min dator. Tur nog är det inte det skrikande oljudet som vid gaming i hög fps, utan ett knattrande läte i stil med hur hårddiskarna kunde låta då du byggde dator sist. Följer hur många iterationer/sekund som SD levererar för stunden. Rätt överkomligt ljud, men jag hade hemskt gärna sluppit det. Det ger med sig en del vid större batches också.

Permalänk
Medlem

Skulle även tipsa om att fundera på en M1 Ultra typ denna: https://www.netonnet.se/art/dator-surfplatta/stationara-dator...

VRAM oftast det som begränsar mest, men 4090 är ju ruskigt snabb ifall modellen du använder ryms i dens begränsade minne.

Visa signatur

Samsung 77" S90C QD-OLED || LG OLED 42C2 || Sony 77" A80J OLED || Macbook Pro 16" M1 Max 1TB 32GB || Asus ROG Azoth med Black Ink V2s (205g0) + Asus ROG Harpe ACE

Permalänk
Medlem
Skrivet av Toss3:

Skulle även tipsa om att fundera på en M1 Ultra typ denna: https://www.netonnet.se/art/dator-surfplatta/stationara-dator...

VRAM oftast det som begränsar mest, men 4090 är ju ruskigt snabb ifall modellen du använder ryms i dens begränsade minne.

M2 Max/Ultra har betydligt bättre prestanda på GPUn rent generellt än M1, vet inte säkert om det gäller AI-tillämpningar också. De lyckades inte få M1 att skala särskilt bra med fler GPU-kärnor men det är löst i M2.

Med en M1/M2 Ultra med mycket RAM kanske man minskar risken något att vara begränsad i modellstorlek, men istället blir man begränsad av mjukvara då Nvidia/CUDA är "the gold standard". Vad gäller bang-for-the-buck utan att vara onödigt begränsad av VRAM är det nog en dator med en begagnad 3090 som är bäst i 99 % av fallen. Men har man 50k att bränna borde man väl kunna få in en 4090 i budgeten...

Dock är jag ingen expert på det här, rätta mig gärna om jag har fel.

Permalänk
Medlem
Skrivet av HWarc:

Vad gäller grafikkort, kanske kan detta hjälpa?
https://www.tomshardware.com/news/whisper-audio-transcription...

4090 må vara bäst, men kan kanske inte motivera prislappen...

Tack! Det där var bra läsning, det känns då som att så länge jag prioriterar SD så åker Whisper med på en räkmacka.

Skrivet av thu:

Utifrån SD: pga. VRAM har du 3090 och 4090 att välja på. Beg. 3090 ligger bra i kurs här på sweclockers. Huruvida 4090 är värt det beror väl på hur ditt arbetsflöde ser ut och hur du värderar din tid. Steget från mitt 3080 (inte alltför långt efter 3090 i prestanda) till samma 4090 som du kollar på går ju inte motivera utifrån pris/prestanda-ratio (fast det är nära om man kollar på rena FLOPS, 4090 har brutal prestanda), men 4090 är klart bekvämare att utforska nya idéer med.
Största nackdelen med 4090, iaf för mig som är ljudkänslig, är att man med modell väljer mellan högljudda fläktar och coilwhine, och coilwhine från MSI-kortet gör det till den klart högljuddaste komponenten i min dator. Tur nog är det inte det skrikande oljudet som vid gaming i hög fps, utan ett knattrande läte i stil med hur hårddiskarna kunde låta då du byggde dator sist. Följer hur många iterationer/sekund som SD levererar för stunden. Rätt överkomligt ljud, men jag hade hemskt gärna sluppit det. Det ger med sig en del vid större batches också.

Tack! Jag förstår att det finns ett annat "motstånd" om man redan har någonting som är dugligt. Jag kan kan inte ens ladda SDXL core + refiner som det är nu, så har alltså någonting som i sammanhanget är odugligt. Jag ska titta på det där med ljudet. Hårddiskknorrande i all ära, men det blir ju störigt i längden.

Skrivet av Toss3:

Skulle även tipsa om att fundera på en M1 Ultra typ denna: https://www.netonnet.se/art/dator-surfplatta/stationara-dator...

VRAM oftast det som begränsar mest, men 4090 är ju ruskigt snabb ifall modellen du använder ryms i dens begränsade minne.

Tack för tipset!
Det verkar dock som att M1 är väldigt långsam 0.85 it/s? Jag erkänner dock möjligheten att det kan ha med oförmåga attsöka ordentligt att göra.

Skrivet av trudelutt:

Vad gäller bang-for-the-buck utan att vara onödigt begränsad av VRAM är det nog en dator med en begagnad 3090 som är bäst i 99 % av fallen. Men har man 50k att bränna borde man väl kunna få in en 4090 i budgeten...

Tack!
Jo, problemet är egentligen inte den ekonomiska delen (inom rimliga gränser) utan snarare att jag vill göra "rätt". Jag hade inte tänkt på att det fanns en begagnatmarknad. Ska ta mig en funderare kring det.

Permalänk
Medlem

Börjar ta lite fart nu för AMD, speciellt när de köpte upp nodai SHARK nyligen, kul!
SHARK med bl.a. StableDiffusion fungerar ganska bra på RX 6800 men har hittills bara fått det att fungera mend Vulkan utan ROCm (trots att jag har ROCm installerat, måste undersöka stödet senare).
Apropå ROCm så har Blender (med HIPRT) bättrats på på sistone kring rt rendering, så det har varit kul att bygga blender med detta stöd och då även kull att få se AMD äntligen får fart på sin CUDA variant.

Har precis börjat med SHARK så kan inte säga annat än att Nvidia ÄR klart bättre på mjukvarudelen och stödet kring det hands down, vilket är välförtjänt med tanke på hur mycket de har investerat i CUDA.

Hursom 5it/s för StableDiffusion med SHARK på en RX 6800 är inte fy skam, och då med Vulkan. Ska försöka se om jag kan få till ROCm att fungera någon dag, hade velat få ControlNet att fungera också men det ser ut att dröja då de verkar sakna stöd.
Läste tidigare lite hastigt om att whisper stöder AMD kort (samt att det finns benchmark kring det i denna tråd märkte jag ) så AMD korten är kanske inte helt och hållet uträknade för ditt användningsområde med tanke på VRAM. (Dock är CUDA stödet bättre just nu)

Gällande förslag för din plattform så ser jag ingen vinning utav att ha en biffig processor för AI, såvida du själv inte skulle utveckla egna neural nets som då har behov av CPU kärnor (genom egna algoritmer och strukturer).

Det skulle däremot istället kanske vara intressant för dig att titta på en Threadripper plattform med "bara" 8-16 kärnor.
Detta körandes med idag ett 4090 men som senare ska kunna uppgraderas genom att lägga till flera beräkningskort och då köra dem tillsammans (eller samtidigt för parallella jobb) med tanke på alla PCIe banor plattformen tillför; Samt mängden RAM den också tillför kan vara till nytta för dig eventuellt.

Beroende på vad för modeller samt vilka "färdiga paket-program" du kör (som automatic1111 shark e.t.c.) för att bl.a. köra stable diffusion, andra LLM eller t.o.m. multi model, så kan dessa eventuellt stödja multi gpu compute(?) eller bör åtminstone kunna köras parallellt tänker jag.
Har själv inte riktigt koll på den delen men värt att se över.

Inworld själva nämnde att de kör runt 35 modeller samtidigt för att få sin NPC-Chatbot att fungera efter deras kriterier Så jag tror ganska starkt på att vi framöver kommer köra flera modeller samtidigt, där människans interface till dessa modeller blir mer sannolikt ett LLM speciellt om det börjar bli allt för komplext för att pilla på flera modeller samtidigt.

Bygger du egna neural networks så kan du givetvis utnyttja flera gpu:er till det, vilket skulle ge Threadripper plattformen en klar fördel (eller om Intel tar fram en liknande plattform).

Själv kommer jag titta på Threadripper framöver och även undersöka om andra compute kort som Tenstorrent skulle fungera för just mig, men jag bygger egna neural nets och vissa är inte riktigt kompatibla med t.ex. back propagation algoritmer men det är kanske en annan diskussion för en annan dag.

Permalänk
Medlem
Skrivet av Nandish:

Tack! Jag förstår att det finns ett annat "motstånd" om man redan har någonting som är dugligt. Jag kan kan inte ens ladda SDXL core + refiner som det är nu, så har alltså någonting som i sammanhanget är odugligt. Jag ska titta på det där med ljudet. Hårddiskknorrande i all ära, men det blir ju störigt i längden.

10GB VRAM var rätt plågsamt, valet var mellan 3090 och 4090 för mig där också, menade bara som prestandajämförelse.

Jag har hört rykten om att det ska ha dykt upp nya revisioner av 4090-kort där spolar osv är bytta, dels pga. kritiken/RMA, dels pga. de korrekta grejerna nu går att få tag på efter att covidkomponentbristen lättat, men utan att de indikerar ny revision på något sätt. Ska isf gälla att köpa ett tillräckligt nyproducerat bara, men har inte kollat närmare på det eftersom jag redan har ett kort.

Permalänk
Medlem
Skrivet av Nandish:

Hej!
anledningen till att jag känner att jag behöver en desktop är att jag ser ett behov av att kunna köra AI (SD+ControlNet och Whisper) lokalt. Främst behöver jag Whisper för mitt arbete och kan/får inte skicka mina data till externa servrar för behandling.

Tycker du ska fråga din IT-chef. Verkar ju ytterst märkligt att du får bygga själv med tanke på Whisper...

(noterat är ditt reg.datum)

Permalänk
Medlem
Skrivet av HappyPie:

Det skulle däremot istället kanske vara intressant för dig att titta på en Threadripper plattform med "bara" 8-16 kärnor.
Detta körandes med idag ett 4090 men som senare ska kunna uppgraderas genom att lägga till flera beräkningskort och då köra dem tillsammans (eller samtidigt för parallella jobb) med tanke på alla PCIe banor plattformen tillför; Samt mängden RAM den också tillför kan vara till nytta för dig eventuellt.

Beroende på vad för modeller samt vilka "färdiga paket-program" du kör (som automatic1111 shark e.t.c.) för att bl.a. köra stable diffusion, andra LLM eller t.o.m. multi model, så kan dessa eventuellt stödja multi gpu compute(?) eller bör åtminstone kunna köras parallellt tänker jag.
Har själv inte riktigt koll på den delen men värt att se över.

Jag är rätt tveksam till det. 3090 i en EPYC-server då SD börjar jobba med redan använd SDXL-checkpoint + LORA:

# gpu pwr gtemp mtemp sm mem enc dec mclk pclk fb bar1 rxpci txpci # Idx W C C % % % % MHz MHz MB MB MB/s MB/s 0 22 25 - 0 0 0 0 405 0 7493 5 0 0 0 121 37 - 100 47 0 0 9501 1815 8969 5 21 7 0 318 39 - 100 48 0 0 9501 1815 8971 5 24 6

Ingen PCI-trafik. Med modellbyte:

# gpu pwr gtemp mtemp sm mem enc dec mclk pclk fb bar1 rxpci txpci # Idx W C C % % % % MHz MHz MB MB MB/s MB/s 0 116 42 - 37 1 0 0 9501 1860 6805 5 10992 1311 0 159 45 - 57 16 0 0 9501 1980 8201 5 4379 4274 0 225 47 - 59 16 0 0 9501 1920 8321 5 2075 1743 0 315 50 - 100 45 0 0 9501 1770 8969 5 24 7

17GB på ~3s. Att slå i taket på ~8GiB/s med 8x PCI-E 3 lägger nog inte till många bråkdelar av en sekund där. Att jämföra med 30sek att köra klart jobbet.

Ska VRAM över två kort användas så slår man däremot i bandbreddstaket nåt fruktansvärt, notera ~45-50% minnesbandbreddsanvändning, det blir ~400-500 GB/s. Ligger halva minnet över en 16x PCI-E3-buss som maxar ~16 GB/s så dräper det prestandan fullständigt om man inte har en last som mest jobbar lokalt. LL-modeller är ännu värre än SD, där måste man peta på hela modellen för varje iteration.
NVLINK på 3090 klarar 56GB/s, så det har varit en deltanke i att sätta ett 3090 i servern. SD är som synes mer GPU-begränsat dock, så dubbla kort i mitt fall är mer för att kunna hanka sig fram på LL-modeller som inte går in på ett kort.

För beräkningskorten i den här generationen så har de 12st "NVLINKs", cirkus 600GB/s. Då spelar det mindre roll på vilket kort datan ligger.

4090 tog de bort NVLINK, men det finns traces kvar på vissa kort, så det finns en del spekulationer om att det ska gå att återställa. Men det är en del jobb med drivrutiner osv. att fixa efter det, så tveksamt det blir klart i närtid.

Permalänk
Medlem
Skrivet av thu:

Jag är rätt tveksam till det. 3090 i en EPYC-server då SD börjar jobba med redan använd SDXL-checkpoint + LORA:

# gpu pwr gtemp mtemp sm mem enc dec mclk pclk fb bar1 rxpci txpci # Idx W C C % % % % MHz MHz MB MB MB/s MB/s 0 22 25 - 0 0 0 0 405 0 7493 5 0 0 0 121 37 - 100 47 0 0 9501 1815 8969 5 21 7 0 318 39 - 100 48 0 0 9501 1815 8971 5 24 6

Ingen PCI-trafik. Med modellbyte:

# gpu pwr gtemp mtemp sm mem enc dec mclk pclk fb bar1 rxpci txpci # Idx W C C % % % % MHz MHz MB MB MB/s MB/s 0 116 42 - 37 1 0 0 9501 1860 6805 5 10992 1311 0 159 45 - 57 16 0 0 9501 1980 8201 5 4379 4274 0 225 47 - 59 16 0 0 9501 1920 8321 5 2075 1743 0 315 50 - 100 45 0 0 9501 1770 8969 5 24 7

17GB på ~3s. Att slå i taket på ~8GiB/s med 8x PCI-E 3 lägger nog inte till många bråkdelar av en sekund där. Att jämföra med 30sek att köra klart jobbet.

Ska VRAM över två kort användas så slår man däremot i bandbreddstaket nåt fruktansvärt, notera ~45-50% minnesbandbreddsanvändning, det blir ~400-500 GB/s. Ligger halva minnet över en 16x PCI-E3-buss som maxar ~16 GB/s så dräper det prestandan fullständigt om man inte har en last som mest jobbar lokalt. LL-modeller är ännu värre än SD, där måste man peta på hela modellen för varje iteration.
NVLINK på 3090 klarar 56GB/s, så det har varit en deltanke i att sätta ett 3090 i servern. SD är som synes mer GPU-begränsat dock, så dubbla kort i mitt fall är mer för att kunna hanka sig fram på LL-modeller som inte går in på ett kort.

För beräkningskorten i den här generationen så har de 12st "NVLINKs", cirkus 600GB/s. Då spelar det mindre roll på vilket kort datan ligger.

4090 tog de bort NVLINK, men det finns traces kvar på vissa kort, så det finns en del spekulationer om att det ska gå att återställa. Men det är en del jobb med drivrutiner osv. att fixa efter det, så tveksamt det blir klart i närtid.

Det finns en kostnad att synkronisera och köra hela neural nets över flera kort; Tror heller inte att stable diffusion i sig stödjer multi gpu out of the box(?).
Finns en fördel som jag nämnde om man kör flera modeller parallellt de s.k. "multi model" tänket. Istället för en "holistisk" eller en massiv monolitisk modell, så kommer vi säkert se flera små specialiserade körandes parallellt.
Vi ser redan nu med OpenAIs ChatGPT ha Dall-e, image recognition och data analysis körandes i en och samma prompt parallellt (rullas ut stegvis nu för GPT4+ kunder/testare).
Tanken med flera små specialiserade modeller är att det inte behöver överföra själva neural nets data (över flera kort) utan enbart slutresultaten mellan modeller, som kan köras i samma kort om det får plats eller över olika kort, det är så Tenstorrent arkitektur är uppbyggt och filosofiskt uttänkt både hårdvarumässigt och mjukvarumässigt i grunden (med olika precision).
Vad man kan göra med Stable Diffusion idag är att ha en bild genererat per gpu åtminstone, har man då låga krav på överföring mellan korten så kanske man kan ta en desktop platform med flera PCIe slots körandes i 8x eller 4x.

Bygger du egna "monolitiska" neural nets och vill köra dem över flera kort behöver den ha algoritmer (och arkitektur) som fungerar med låga synkroniseringskrav (träning som inference), såvida du inte har NVLINK eller liknande dyrare lösningar.

SHARK, Automatic1111 och liknande paket kör flera modeller, där skulle det finnas goda möjligheter för att ha en LLM Prompt istället som man ger instruktioner till av vad man vill åstadkomma, som i sin tur orkestrar flera modeller under huven, likt vad OpenAI gör och går mot nu.

Permalänk
Medlem
Skrivet av HappyPie:

Finns en fördel som jag nämnde om man kör flera modeller parallellt

Hur stor uppskattar du den att är? Hur ofta tänker du att man skiftar modeller?

Skrivet av HappyPie:

har man då låga krav på överföring mellan korten så kanske man kan ta en desktop platform med flera PCIe slots körandes i 8x eller 4x.

Mer specifikt, när tänker du att merkostnaden för threadripper jämfört med ovan blir motiverbar för OP?

Permalänk
Medlem
Skrivet av thu:

Hur stor uppskattar du den att är? Hur ofta tänker du att man skiftar modeller?

Mer specifikt, när tänker du att merkostnaden för threadripper jämfört med ovan blir motiverbar för OP?

Mer specifikt, när tänker du att merkostnaden för threadripper jämfört med ovan blir motiverbar för OP?
[/quote]

Tack för dina väldigt informativa inlägg. Jag uppskattar verkligen att du tog dig tid och att du argumenterade ur mitt perspektiv. Det fick mig att läsa på mer om bus-hastigheter, pci-e lanes och annat jag inte alls hade hadt i åtanke innan. Det resulterade i alla fall i att jag slog till på en dator med ett 4090, DDR5, z790 och gen 4 M.2. Så, tack igen.