PSoC til touch, sprog og gestik: Demonstrator-board viser, hvordan moderne menneske-maskine interaktion kan implementeres på begrænset plads. Embedded intelligens kombineret med fleksible interfaces giver responderende og intuitive driftskoncepter
Artiklen har været bragt i Aktuel Elektronik nr. 1 – 2026 og kan læses herunder uden illustrationer
(læs originaludgaven her)
Af Jordan Rose, FAE, og Stephan Menze, head of Global Innovation Management, Rutronik
Samspillet mellem mennesker og maskiner udvikler sig i et voldsomt tempo. Hvor touchdisplays er dagens norm, så bliver de kontaktløse koncepter stadigt mere populære, især i applikationer, hvor hygiejne, miljøpåvirkninger eller fysiske begrænsninger påvirker betjeningen.
Artiklens ”demonstrator” (figur 2) viser, hvordan forskellige sensorprincipper – radar, tale og touch – kan kombineres i ét enkelt embedded system og udgøre et robust human-machine interface (HMI). Målet er at vise, hvor robust et genkendelsessystem kan designes imod eksterne påvirkninger som stærkt sollys, regn, støj fra omgivelserne eller snavsede hænder og handsker. Demonstratoren er udviklet både som et internt og som et kundeudviklingsprojekt og udgør en praktisk basis for ekspertise inden for hardware, software og algoritmer til radar gestikgenkendelse og stemmestyring.
Demonstratoren kombinerer alle elementer i et moderne multimode HMI i et kompakt design. Integrationen af gestik- og stemmestyring, motorstyring og grafisk display kræver en omhyggeligt koordineret arkitektur, der inkluderer forskellige sensor- og aktuator-interfaces med support af real-time parallel databehandling.
En væsentlig udfordring er integrationen af heterogene komponenter med forskellige elektriske interfaces lige fra hugh-speed display-forbindelser med latency-kritiske sensor-inputs – i én enkelt mikrocontroller-platform. Infineons PSOC Edge har den nødvendige regnekraft og periferi til signalbehandling og -styring, mens FreeRTOS real-time operativsystemet udfører de individuelle opgaver og styrer datastrømmen og kontrolkommandoerne via den interne AHB interconnect-bus.
Tabellen i figur 1 beskriver (på engelsk) nøglehardwarekomponenterne i demonstratoren sammen med de væsentligste egenskaber og funktioner.
Gestikgenkendelse med 60GHz-radar
Gestikstyring er en væsentlig del af kontrollen over demonstratoren. Bevægelser mod højre eller venstre styrer motoren til hurtigere eller langsommere, mens en push-bevægelse stopper motoren. Kernen ligger i en 60GHz FMCW-radarsensor til bevægelsesdetektering. Signalbehandlingen bliver udført alene på Cortex-M55-kernen i PSOC Edge-mikrocontrolleren. Da der ikke er brugt machine learning i dette tilfælde, bliver udviklingstiden reduceret og behov for træning er elimineret.
Gestikgenkendelsen i demonstratoren (figur 3) omfatter:
● Input data: Magnitude og AoA – Angle-of-Attack (kun azimuth, da der i applikationer kun skelnes mellem ”venstre” og ”højre”).
● Datafangst: En 60GHz FMCW-radarsensor med en transmitter- og tre receiver-antenner giver separate signaler for hver antenne.
● Bevægelsesdetektering: Doppler FFT for hvert antennesignal til identifikation af bevægelige mål og undertrykkelse af signaler fra statiske objekter.
● Retningsdeterminering: Beregning af azimuth-vinkel med faseforskelle fra receiver-antennerne.
● Gestikklassificering: Evaluering af den temporale progression af azimuth-vinklen til detektering af bevægelser som ”swipe til venstre”, ”swipe til højre” eller ”klik”.
Latency-perioden er rundt regnet 10 millisekunder, efter bevægelsen er stoppet. Gestik kan genkendes ved distancer mellem fem og 30 centimeter, men også fra en større afstand afhængigt af konfigurationen, selv under komplekse refleksionsforhold og typiske omgivelsesfaktorer som varierende sollys. Ved at tage hensyn til elevation (lodret vinkel) kan man potentielt tilføje genkendelse af yderligere gestik som ”op/ned”.
Stemmestyring og keyword-spotting
Gestikgenkendelse er suppleret af stemmestyring med keyword-spotting. Stemmesignaler opfanges af en MEMS-mikrofon og med forbehandling af PSOC Edge Cortex-M55 med evaluering i et trænet neuralt netværk. Netværket er med sine multiple konvolutionelle lag specifikt optimeret til at genkende klart definerede keywords som ”start” eller ”stop”.
Modellen er udviklet i Python med brug af Keras og Tensorflow-biblioteker og siden porteret til PSOC Edgen til brug sammen med Infineons ML Configurator. Inferensen sker på Cortex-M55 i et optimeret Tensorflow Lite mikro-runtime miljø.
Keyword-spotting processen (figur 4) er baseret på:
● Audiooptagelse: Digital MEMS-mikrofon (16kHz sample-rate) giver PDM-data.
● Forbehandling: Konvertering til en MEL-filterbank med brug af window slicing (varighed: ~530µs).
● Inferens: Evaluering af MEL-spektrum med CNN (multiple konvolutionelle lag).
● Resultat: Det genkendte keyword bliver transmitteret som en kontrolkommando til motorstyringen eller andre systemfunktioner.
BLDC-motorstyring med Hall-sensorer
En børsteløs DC-motor (24V, maks. 4800RPM) er styret direkte af mikrocontrolleren og giver et direkte feedback af gestik- og/eller stemmekommandoerne. Med brug af integrerede Hall-sensorer detekterer systemet den faktiske hastighed og justerer i henhold til gestik- eller stemmekommandoerne.
Et IFX007T tripelhalvbro-modul fra Infineon bruges til styring med input fra PWM-signaler (pulsbreddemodulation) og digitale kontrollinjer. Motorhastigheden reguleres med en sample-rate på 1kHz, hvilket sikrer, at ændringer i hastigheden kan implementeres hurtigt og præcist. Motorfunktionen er primært en demonstration af styringen, men motoren kan uden videre erstattes af andre aktuatorer eller displaysystemer.
Bruger-interface med touchdisplay
Et kapacitivt 7” touchdisplay (med en opløsning på 1024 × 600 pixels) visualiserer systemstatus. Displayet viser blandt andet data, hastighedsværdi, genkendt gestik og status for stemmestyringen.
Det grafiske bruger-interface bliver genereret direkte i mikrocontrolleren med brug af et open-source LVGL-bibliotek. Effektiv brug af memory- og regneressourcer gør en samtidig real-time eksekvering mulig i bruger-interfacet med gestikstyring og stemmegenkendelse. Refresh-rate er typisk 10 frames-per-sekund, hvilket rækker til status-displays og driftsmæssige feedbacks.
Specielle udfordringer og træning
En særlig funktion i demonstratoren er den direkte sammenligning mellem to tilstande: konventionel signalbehandling og machine learning (ML). ML er bevidst udeladt for 60GHz radar-gestikstyring og er ikke funktionelt nødvendig. Det sikrer en mere robust genkendelse med minimal latency og uden behov for træning. Metoden er ufølsom over for lys udefra, interferens fra støj samt variationer og håndpositionerne.
Stemmestyringen med sin keyword-spotting anvender modsat et forud trænet neuralt netværk specifikt optimeret til et begrænset sæt af klart definerede keywords som ”start” og ”stop”. Det er hér, at ML virkelig har sin styrke med specifik respons på gentagne og præcist definerede events. Algoritmerne er baseret på offentligt tilgængelige datasæt, der er anvendt for at forbedre stabiliteten i genkendelsen.
Den hybride tilgang ved at tilføje konventionel signalbehandling, hvor det understøtter hastighed og robusthed – eller machine learning, hvor det giver en bedre genkendelse – viser, hvordan forskellige metoder optimalt kan optimeres for at give en alsidig og praktisk HMI-løsning.
Det var også et mål at demonstrere, at alle funktioner som gestikstyring, stemmestyring, motorstyring og grafisk display ville kunne implementeres helt og aldeles i én enkelt mikrocontroller. Der er en sømløs integration af hardware- og softwarekomponenter samt real-time databehandling af multiple sensordatastrømme inden for de begrænsede ressourcer på en embedded platform. Det har krævet en koordination af forskellige interfaces med en minimering af latency og en tildeling af prioriteter på en fornuftig måde. Den modulære arkitektur og strenge separation af funktionelle enheder tillader en fleksibel adaptering til diverse applikationer, så designere har adgang til et funktionsklart fundament til andre kundespecifikke projekter.
Mulighed for overførsel til real-world applikationer
Kombinationen af radar, audio og motorstyring i ét enkelt system fungerer ikke alene som et teknisk bæredygtigt ”stilstudie”, men udgør også en praktisk platform til videndeling. Slutbrugere kan få fordel af anvendelsesklare software-eksempler, så brugerne kan udføre deres egne tests og hurtigt udvikle egne miljøer baseret på den samme demonstratorplatform. Det sparer betydelige mængder af tid under en projektimplementering.
Demonstratoren er en fin referenceplatform, der kan tilpasses kundeprojekter efter behov. Den kan også bruges i specielle laboratoriemiljøer som renrum eller handskerum. Hardware- og softwarebasis kan sammen med yderligere ressourcer inklusive sample-kode, kredsløbsdiagrammer, applikationsnoter og instruktioner leveres på forespørgsel. Justeringer til individuelle behov kan også implementeres med ekstra funktioner, ændringer i stemmegenkendelse eller forbedringer af gestikgenkendelsen.
Et eksempel på mulighed for portering er anvendelse af et neuralt netværk på en RDK2-platform i samspil med en RAB3-radar. Når først principperne i dataopsamling, træning og brug af neuralt netværk er forstået, kan disse metoder overføres til andre platforme. Infineons værktøjssæt supporterer denne proces og forenkler porteringen.
Yderligere udvikling af radarteknologi er planlagt for yderligere applikationseksempler og flere funktioner. Den viste demonstrator er derfor ikke kun en faktisk teknologikomponent, men også en platform for udvikling af smarte, sensorbaserede HMI-løsninger i embeddede miljøer.
Reference (applikationsnote ”Signal Processing” fra Rutronik System Solutions, August 2024): https://github.com/RutronikSystemSolutions/RAB3-Radar_Documents/blob/main/RAB3-Radar_AppNote_Signal_Processing.pdf.
Billedtekster:
Figur 1: Tabellen viser nøglehardwarekomponenter i demonstratoren med deres respektive egenskaber og funktioner.
Figur 2: Samlet overblik over demonstratoren med display, radarmodul, mikrocontroller board, display og motor.
Figur 3: Gestikgenkendelse med BGT60TR13C-radaren fra Infineon.
Figur 4: Keyword-spotting processen.

