Under ett hackathon i San Francisco tog en grupp AI-entusiaster fram ett nytt benchmarktest för stora språkmodeller, rapporterar Tom's Hardware. Testet ställer olika AI-modeller mot varandra – i Street Fighter 3.

Eftersom Street Fighter handlar om timing och reaktionstid är testet bäst lämpat för små och snabba modeller. Vinnaren i den första turneringen med 342 matcher blev GPT 3.5 Turbo som slutade med 1 776 Elo-rankingspoäng, följt av Mistral Small med 1 586 poäng och GPT-4 (version 1106-preview) med 1 584 poäng.

Själva testet går ut på att läsa av nuvarande position för båda karaktärerna i matchen och konstruera en textprompt som ber AI:n bestämma sig för vad den ska göra härnäst. Det upprepas igen och igen tills matchen är avgjord. Än så länge är matcherna begränsade till Ken mot Ken.

LLM Colosseum, som testet kallas, är öppen källkod så vem som helst kan installera det på sin egen dator och testa. Det finns även instruktioner för att lägga till andra språkmodeller.