Forskare demonstrerar AI-infekterande mask

Permalänk
Medlem
Skrivet av WebbkodsLärlingen:

Rätta mig om jag misstolkat det hela: Med "infekterande AI-mask" avses egentligen instruktioner till en LLM-baserad AI vilket i sin tur då utför "skadliga handlingar" gentemot riktad mottagare? Alltså "skadliga prompts" inbakat på något vis i filer som AI kan ta del av utan att "inse" att det är "skadliga prompts"? Förvisso var detta bara en tidsfråga innan någon skulle visa hur det går att utnyttja den automatisering som LLM-baserad AI kan bidra med.

Människan må vara den svagaste länken inom IT-säkerhet (pga. t.ex. social engineering), men en tröst samtidigt är att människan också är mycket långsammare än AI och teoretiskt talat då inte skulle kunna orsaka lika mycket skada lika fort som en "kapad AI" skulle ha kunnat göra. Förhoppningsvis kanske detta får fler IT-baserade bolag att tänka en extra gång till innan de får för sig att ersätta precis allt inom IT med enbart LLM-baserade AI-lösningar.

Mvh,
WKL.

Vad jag förstod så handlar det i detta exempel konkret om lösningar där t.ex. en LLM används i flera steg med start utifrån en prompt som innehåller användarens input, och svaret sedan används som en del i nästa prompt, osv.
Och att själva grejen här är att de med väl vald input lurar LLMen att inte svara på frågan utan att svara med en illvillig prompt, som då inkluderas i prompten till nästa steg, vilken då gör någonting som inte var meningen skulle vara möjligt.

Det blir lite som en SQL injection fast med LLM.

Visa signatur

Desktop: Ryzen 5800X3D || MSI X570S Edge Max Wifi || Sapphire Pulse RX 7900 XTX || Gskill Trident Z 3600 64GB || Kingston KC3000 2TB || Samsung 970 EVO Plus 2TB || Samsung 960 Pro 1TB || Fractal Torrent || Asus PG42UQ 4K OLED
Proxmox server: Ryzen 5900X || Asrock Rack X570D4I-2T || Kingston 64GB ECC || WD Red SN700 1TB || Blandning av WD Red / Seagate Ironwolf för lagring || Fractal Node 304