Stora framgångar i realistisk AI-genererad video

OpenAI har visat upp Sora som kan generera videos med hjälp av textkommandon, stillbilder som AI:n sedan blir rörliga och även fylla ut befintliga videoklipp med fler bilder. Klippen som Sora själv genererar kan som längst vara en minut.

Modellen har en djup förståelse för språk, vilket låter den tolka textkommandon noggrant och generera intressanta karaktärer som uttrycker starka känslor. Sora kan också skapa flera sekvenser inom samma genererade video, med konsekventa karaktärer och visuell stil. – OpenAI i ett blogginlägg.

Det är inte första gången som en AI-funktion används för att generera videos med hjälp av textkommandon. Tidigare har AI:n Runway visat liknande funktioner, följt av Googles Lumiere AI som visades upp tidigare i år. Men tekniken är inte helt utan brister.

Sora har fortfarande svårt att generera handlingar med konsekvenser, som att mat ser likadan ut om en karaktär tar en tugga. AI:n har svårt att skilja på höger och vänster i textkommandon och att visualisera specifika händelser som ska pågå länge. Utöver detta verkar händer vara ett fortsatt problem att visualisera.

Youtubern Marques Brownlee lyfter även hur AI:ns förmåga att skapa nästan fotorealistiska bilder kan användas för att generera stock-foton men även för att sprida desinformation.

Just nu är Sora tillgänglig för "Red Teamers" som testar funktionen för alla potentiella hot. Utvalda kreatörer ska också pröva Sora för att ge respons om AI:ns kreativa funktioner innan den släppts till allmänheten. När allmänheten får tillgång till Soras videogenerering är för tillfället okänt.