Även RTX 4090 har relativt lite vRAM, 24GiB som bäst. Så fort datan spiller över så hjälper det massor att ha NPU-stöd.
Grok modellen som släpptes nyligen är 296.38GiB ungefär lika stor som ChatGPT-3, sägs vara INGET mot hur stor ChatGPT4 är.
GPT-2 var några GB, som vi minns var den riktigt kass.
Personligen ogillar jag tanken av att alla ska köra egna AI-modeller lokalt, lite som om alla hade en egen magnetröntgenmaskin hemma, den är bra att ha när den behövs, men är mer kostnadseffektivt om folk delar.
LLM är ett pay-to-win spel, där den som har bäst hårdvara vinner. Intressant video här https://www.youtube.com/watch?v=zjkBMFhNj_g
Lokala modellerna kommer alltid vara ruskigt sämre än någon som hostas på några hundra H100.
Själv har jag provat med RTX 3090. Om man använder NVLINK, kommer man då nyttja 48GB vRAM? Inte för att det blir "billigt" men att köpa 2st beg 3090 kan vara en lösning (Usecaset jag tänker på är en mindre organisation som utvecklar mjukvara vill ha en lokal server för att säkra att inte data läcker. Annars är det svårt att motivera detta jämfört med att använda en cloudlösning som github co-pilot eller liknande).
Mvh
Anders