Artiklen har været bragt i Aktuel Elektronik nr. 10 – 2024 og kan læses herunder uden illustrationer
(læs originaludgaven her)
Af Mark Rootz, vicedirektør, marketing, Alif Semiconductor
Tilføjelsen af AI til et endpoint i et netværk kan løfte et IoT-system betydeligt. Inden for medico kan AI-komponenter i wearables flytte opdagelsen og diagnosen af alvorlige forhold – som livskritisk fibrillation – ud af klinikken og ind i patientens hverdag for monitering. Med AI-algoritmerne kan høreapparater forvandles fra simple forstærkere til at blive intelligente stemmediskriminatorer, så man får isoleret stemmen for en given interessant person, mens andre støj- og stemmekilder bliver trukket ud til lydkulissens baggrund.
Disse AI-kvaliteter vil kunne overføres til enhver type af wearable og bærbart batteridrevet produkt. Og hvis AI-funktionerne er forskellige med hensyn til forbrug, latency, fortrolighed, rækkevidde eller omkostninger, så har disse produkter brug for lokal AI-regnekraft i edgen.
Men en vellykket anvendelse af AI i disse produkter skal overkomme de ofte stramme design-constraints for plads og forbrug. Wearables som earbuds, ringe, smart glasses og patientmonitorer er små fysiske produkter, der kun kan rumme nogle få komponenter og et meget lille batteri.
Før AI-dagene var mange af disse produkter (om end med færre funktioner og fysisk større) baseret på generelle MCU’er (mikrocontrollere), der kunne indeholde kernefunktionen. Integration hjælper designeren til at nå sine mål for designet med et minimalt antal komponenter og et lille footprint.
I AI-æraen er integration af systemfunktioner i en general-purpose MCU fortsat en attraktiv måde at spare plads og effekt på, men en AI MCU skal indeholde endnu flere funktioner end en konventionel MCU og samtidig give et ultralavt forbrug, så kredsen kan køre AI med små batterier uden at miste runtime mellem opladningerne.
Det er ikke så let at koble AI-egenskaber på en eksisterende MCU-arkitektur. Alif Semiconductor blev grundlagt i 2019 med det formål at skabe en ny generation af AI-inkluderende MCU’er til edge-produkter, og udgangspunktet har fra starten været at integrere AI i MCU’en. Dette tankesæt har afsæt i hundredvis af samtaler med OEM-virksomheder, der har beskrevet faktorer, som er afgørende for deres valg af MCU som AI-systemchip (SoC) i batteridrevne edge-produkter. Her følger de fire vigtigste faktorer.
Neural processoracceleration skal være koblet tæt sammen med CPU’en
MCU-markedets tidligste svar på kunders behov for AI-funktionalitet har været udvikling af AI-software udviklings-kits (SDK’er), så AI/ML (Machine Learning) algoritmer har kunnet køre på den samme Arm Cortex-M CPU, som også udfører de konventionelle styringsfunktioner. En MCU i edgen til ML-applikationer har brug for en neural beregningsenhed (NPU), som er en processor optimeret til MAC-operationer (multiply-accumulate), der er grundlaget for de neurale netværksapplikationer. En embedded CPU alene vil kæmpe med at styre meningsfulde ML-regneopgaver, da den inferens, som stammer fra de ekstremt parallelle ML-netværk, vil blive løst på en seriel måde i CPU, og det kræver tid og brænder en masse energi af.
Figur 1 illustrerer forskellen i AI-ydelse mellem en MCU’s CPU og NPU. Alif Semiconductors Ensemble MCU-familie anvender den nutidige Cortex-M55 CPU-kerne parret med en Ethos-U55 NPU-coprocessor. Man kan se, hvordan en enkelt ML-inferens for fire trænede ML-modeller kører på en Ensemble MCU. Modellerne repræsenterer de operationer, der er nødvendige til spotting af nøgleord, objektdetektering, billedklassificering og talegenkendelse.
Den Cortex-M55, der anvendes i Alif MCU’erne er blandt de bedste embeddede CPU-arkitekturer, og den udviser en ydelse, der som udgangspunkt er en faktor 5 bedre til ML-opgaver end de tidligere generationer af Cortex-M CPU’er. Hvor god Cortex-M55 end måtte være, så er den forbedring, man opnår med en NPU og CPU to dekader højere end for en CPU alene, som tallene i de gule kolonner viser. Selv om Cortex-M55 allerede arbejder en faktor 5 bedre end tidligere anvendte Cortex-M-arkitekturer, så kan man igen løfte ydelsen med en faktor 5. For talegenkendelse vil det give en respons 800x hurtigere ved et 400x lavere energiforbrug pr. inferens sammenlignet med traditionelle Cortex-M CPU’er.
En anden vigtig faktor i sammenkoblingen af NPU’en til CPU’en er softwareudviklingsmiljøet. Der er mange muligheder for at implementere proprietære og tredjeparts NPU-kerner i SoC’er. OEM’er er dog meget klare i spyttet: De ønsker ikke at ændre hele deres designinfrastruktur til at arbejde med en ny arkitektur alene af hensyn til AI/ML, som jo nødvendiggør brug af nye værktøjssuiter og nye instruktionssæt.
Hvis OEM’erne allerede arbejder i Arm-økosystemet for embeddede styringer, ønsker de også at blive i Arm-økosystemet for AI/ML-funktionerne. Ved at kombinere en Cortex-M CPU med en Ethos-U NPU, begge fra Arm, opfyldes dette krav.
Faktisk er Ethos-U NPU i det væsentlige en co-processor, der integreres sømløst med Cortex-M CPU’en. Arm Vela-compileren vil automatisk fordele ML-arbejdsbyrden mellem de to processorer, hvor 95 procent eller mere typisk tilfalder NPU’en. En stor sidegevinst er, at Cortex-M CPU’en kan være i standby eller udføre andet arbejde, mens ML-inferensen bliver løst.
Integration skal omfatte hele systemet
Det er rimeligt at hævde, at NPU’en sandsynligvis vil være centrum for opmærksomheden i en integreret AI/ML MCU. Men hvad der er integreret omkring beregningskernerne – og specifikt hvordan integrationen er udført – er meget vigtigt. Øverst på listen er memory og periferi.
Figur 1 viser, at forbedret regnekraft er nøglen til høj ydeevne og energieffektivitet, men uden et optimeret hukommelsessystem bag sig vil resultaterne ikke leve op til forventningerne.
En forenklet visning af Ensemble MCU-hukommelsestopologien er vist i figur 2. Den øverste halvdel repræsenterer realtidssektionen med meget hurtig TCM (Tightly Coupled Memory) forbundet til CPU- og NPU-kernerne. For hurtige inferenstider skal disse TCM SRAM-hukommelser være tilstrækkeligt store til at holde ML-modellens analogækvivalente område.
Den nederste halvdel af diagrammet viser andre systemhukommelser forbundet via en fælles højhastighedsbus. En stor, delt bulk-SRAM er påkrævet for at opbevare sensordata som input fra kamera og/eller mikrofoner, og en stor non-volatil memory indeholder selve ML-modellen plus applikationskoden. Når store on-chip-hukommelser distribueres på denne måde for at minimere indbyrdes konkurrerende bustrafik, så boostes samtidige hukommelsestransaktioner, flaskehalse fjernes, hukommelsesadgangstider minimeres, og strømforbruget er kompatibelt med brugen af et lille batteri.
Det korrekte periferisæt er også kritisk for MCU’er i edge ML-applikationer, som ofte fungerer i et eller flere af de ”tre V”-domæner: vision, voice og vibration. Det betyder, at der kræves forbindelse til billedsensorer, mikrofoner, inertimåleenheder og flere andre, hvortil kommer den traditionelle MCU-periferi som high-speed seriel kommunikation, analoge grænseflader og displayforbindelser. For edge AI-enheder bør alle disse funktioner integreres i MCU’en.
Integration af hele systemet eliminerer ikke kun behovet for yderligere forsynings-rails og strømkonvertering som en ekstern PMIC (Power Management IC), men gør det også muligt at styre strømmen dynamisk på et meget mere finkornet niveau på chippen – og dette er den tredje meget eftertragtede funktion i en integreret AI MCU.
Adaptiv power-management udvider batterilevetiden
Alif erkendte tidligt, at koncentrationen af lokal ML-kapacitet ved edgen vil stige kraftigt i den nærmeste fremtid, samtidig med at den fysiske størrelse af disse produkter hurtigt vil skrumpe, især for bærbare enheder, hvilket medfører brug af mindre og mindre batterier. Alifs tilgang til at forlænge batterilevetiden for at løse dette problem har fulgt flere veje. To eksempler er:
1) Partitionering af systemet, så den del af chippen, der kun har et lavt strømforbrug, altid kan være tændt, men stadig levere en robust regnefunktion, hvilket gør det muligt selektivt at vække en del af chippen med meget højere ydeevne for at udføre tunge arbejdsbelastninger og derefter bringe chippen tilbage til dvale.
2) Strømstyringssystemet tænder dynamisk kun de dele af chippen, der er nødvendige, og slukker dem, når de ikke er nødvendige, alt sammen på et meget finkornet niveau.
For at lette denne opdeling af funktioner har mange Ensemble MCU’er to par Cortex-M55+Ethos-U55-kerner som vist i figur 3.
• Ét par er den højeffektive region af chippen baseret på transistorer med lave lækstrømme, hvor de kan arbejde med ”always-on” op til 160MHz.
• Det andet par er i den højtydende del af chippen, som arbejder ved op til 400MHz.
For at forestille sig den fordel en sådan opdeling medfører, kan man forestille sig et smart kamera til rumovervågning, der kontinuert scanner et rum ved en lav billedhastighed ved hjælp af det højeffektive par af kerner til at klassificere en gyldig hændelse (som et menneske, der falder på gulvet, eller en specifik gestus) som vækker det højtydende processorpar for at identificere en eller flere personer, tjekke for blokerede udgange, ringe efter hjælp og så videre.
I dette tilfælde kan kameraet være intelligent årvågent, producere færre falske positive alarmer og forlænge batteriets levetid. Lignende anvendelser for disse to par CPU+NPU-kerner kan anvendes til klassificering af lyde, stemmer, ord, tekst, vibrationer og sensordata i en lang række andre applikationer.
Desuden anvender alle Ensemble MCU’er Alifs aiPM-teknologi (autonom intelligent Power Management) til i realtid at manipulere op til 12 individuelle forsyningsdomæner på chippen efter behov for at matche forbruget til den bruger-case, der udføres. Kun domæner, der aktivt udfører opgaver, er tændt (som dem, der forsyner specifikke kerner til beregning, memories eller periferiudstyr), mens de andre domæner forbliver slukkede. Denne fordeling vil være transparent for softwareudvikleren.
Beskyttelse af værdifulde machine learning-modeller og anden IP
Den fjerde og sidste funktion, der skal integreres i en AI MCU i edgen er sikkerhed/beskyttelse. Det skal forhindre de allestedsnærværende cyberangreb. Men for OEM’er handler det primært om at beskytte sin egen IP, der er embedded i AI-modellerne.
OEM’er investerer enorme mængder af tid og penge i at udvikle træningsdatasæt, bygge AI-modeller samt udvikle og forfine inferensalgoritmerne. Det giver skruppelløse ”kopister” et stærkt incitament til at stjæle denne dyre IP ved at kopiere den fra utilstrækkeligt beskyttede produktionsenheder.
En ekstern sikker MCU ville gøre det muligt for OEM at etablere en root-of-trust, administrere hemmelige nøgler og certifikater, lette en sikker boot af applikationen og så videre. Brugen af en ekstern sikker MCU er en almindelig tilgang til at indbygge stærk sikkerhed til konventionelle MCU-baserede designs, men det er sjældent at finde en fuld sikker ”enklave” med disse funktioner, som ydermere typisk er indbygget i en konventionel MCU.
Alligevel nyder batteridrevne og bærbare AI-produkter især godt af plads- og strømbesparelserne og den øgede sikkerhed, når denne funktionalitet er integreret i MCU’en. Den sikre enklave (se figur 4), som er standard i alle Alif-enheder, er et dedikeret, isoleret subsystem til styring af vitale sikkerhedsfunktioner såsom sikker nøglestyring og -lagring, sikker boot med en root-of-trust, der ikke kan korrumperes, attestering i runtime ved hjælp af certifikater, hardwarekrypterede tjenester, sikker debugging, udlæsningsbeskyttelse, sikre firmwareopdateringer samt en komplet livscyklusstyring.
En AI-forberedt MCU-platform
De fire nævnte karakteristika for en AI MCU – den tætte kobling mellem NPU og CPU med et standard udviklingsøkosystem, fuld systemintegration, adaptiv power management og indbygget IP-beskyttelse – er netop, hvad markedet kræver til batteridrevne edge-applikationer – og det er netop den opgave, Alif Semiconductor har specialiseret sig i.
Designere, der evaluerer Ensemble-familien, vil kunne opdage et stort udvalg af skalérbare og indbyrdes kompatible komponenter, der spænder fra en enkelt CPU-kerne til quad-core komponenter med support af Linux-operativsystemet, så man kan tilpasse programmet til aktuelle applikationer med maksimal genbrug af software på tværs af alle løsninger.
Billedtekster:
Figur 1: Benchmark-tests viser den overlegne ydelse og effektivitet af en NPU i forhold til en CPU ved eksekvering af gængse ML-funktioner.
Figur 2: Ensemble MCU’ens interne memory-topologi.
Figur 3: Ensemble E3 MCU-blokdiagram viser de højeffektive og højtydende områder i chippen.
Figur 4: Den sikre enklave i Ensemble MCU’erne styrer sikkerhedspolitikken for hele chippen.