Det finns flera sätt att få hög effektivitet. Det som 32-bit ARM (vilket är vad du måste mena ovan) är riktigt bra på är att göra väldigt kompakt kod. 32-bit ARM är lite udda för att vara en "RISC" då nästan varje instruktion är villkorad.
Fördelen med 32-bit ARM är att man får ut väldigt hög effektivitet hur single-issue och eventuellt även dual-issue designer. Är precis sådana som var aktuella för den tidsperiod du nämner ovan.
Sedan har 32-bit x86 en akilleshäl mot i stort sett alla RISC:ar, flyttalsdelen är ett totalt tågvrak vilket var ett problem när all rendering gjordes på CPU.
Problemet med Arm 32-bit designen, långt värre än t.ex. x86/x86_64, är att det enorma beroendet av CPU-flaggfält gör det otroligt svårt att extrahera någon större mängd parallellism ur en instruktionsström. Det är som att programmera massivt parallella program med enbart globala variabler...
ARM64/RISC-V är specifikt designad för att undvika detta. RISC-V behöver fortfarande bevisa sig själv, men både Apple ("Apple Silicon") och Arm själva (Cortex X serien) visar att det är möjligt att bygga väsentligt "bredare" designer med ARM64 jämfört med x86_64 och även Arm.
ARM64/RISC-V ISA är designad så att in/ut-register i praktiken är enda som ger beroende mellan instruktioner. Man undviker helt "globala tillstånd" i form av flaggfält som implicit uppdateras och implicit avgör resultatet av en operation (vilket var hur man konsekvent designade CPUer förra årtusendet).
Ett sett att övertyga sig själv om det är att bygga samma problem för ARM64 och 32-bit Arm. Kör det sedan på någon av de 4-issue designer som faktiskt stödjer 32-bit Arm (Apples 8-issue design stödjer bara ARM64), det kommer vara minst 30-40 % högre prestanda med ARM64 jämfört med 32-bit Arm. Det på samma CPU/mikroarkitektur.
Är inte så att AMD/Intel är oförmögna att bygga en lika "bred" mikroarkitektur som Apple, bara det att x86_64 kommer göra det långt mindre effektivt att skala prestanda på den "ledden". AMD/Intel jagar istället frekvens.
Rena 32-bit Arm var under nästa dess hela existens begränsade till 1-issue och på slutet 2-issue (Cortex A15/A17 var den enda 3-issue, men den var inte speciellt lyckad). Apple gick riktigt "på bredden" i samma sekund de droppade 32-bit Arm stödet.
TL;DR 32-bit Arm var helt rätt för de begränsningar och utmaningar man hade på 80-talet och början på 90-talet. Det är helt fel för dagens designer. Samma gäller MIPS och SPARC, de var riktigt bra för 1-issue 5-stage pipeline, men man insåg problemen när man försökte sig på superskalära designer med längre pipeline...