När roboten räcker dig lådan – fysisk AI tar steget från mässgolv till fabriksgolv

Dom Rugg-Gunn (till höger), robotikingenjör på Cambridge Consultants, vid bolagets monter på MWC 2026. Den humanoida roboten mellan teammedlemmarna är den som under mässan demonstrerade hur AI kan tolka mänskliga gester och plocka upp objekt. Foto: Nicholas Christiansen.
Dom Rugg-Gunn (till höger), robotikingenjör på Cambridge Consultants, vid bolagets monter på MWC 2026. Den humanoida roboten mellan teammedlemmarna är den som under mässan demonstrerade hur AI kan tolka mänskliga gester och plocka upp objekt. Foto: Nicholas Christiansen.

På Mobile World Congress i Barcelona förra veckan demonstrerade Cambridge Consultants en humanoid robot som tolkade mänskliga gester och plockade upp objekt med hjälp av AI, med minimal datorkraft ombord. Samtidigt visade nya AI-modeller att hela den fysiska världens sensordata kunde bli lika användbara som text och bild. För svensk tillverkningsindustri kan det vara nyckeln till nästa generations automatisering.

Av Nicolas Christiansen

Det var något kusligt vardagligt över scenen. En humanoid robot stod vid ett bord i en mässmonter i Barcelona. En man pekade åt vänster. Roboten böjde sig ner ovh grep en låda med båda händerna, lyftde den kontrollerat och placerade den på bordets vänstra sida. Det som hände var resultatet av ett års intensivt utvecklingsarbete inom fysisk AI, och det kan förändra förutsättningarna för industriell automatisering.

Cambridge Consultants, som ägs av Capgemini, har byggt en fysisk AI-plattform för humanoida robotar som kombinerar tre förmågor: finmotorik med utbytbara händer, intelligent kroppskontroll och interaktion mellan människa och robot där maskinen tolkar gester och pekningar i realtid.

En halv timmes data räckte

Dom Rugg-Gunn är robotikingenjör på Cambridge Consultants och en av teammedlemmarna som utvecklat plattformen. Han förklarade på mässan att roboten var byggd på Nvidias Groot-grundmodell, en så kallad vision-language-action-modell med 2,5 miljarder parametrar som kunde ta emot kamerabilder och språkliga instruktioner och omvandla dem till rörelsesekvenser.

Det anmärkningsvärda är hur lite data som krävdes. Modellen finjusterades med bara 60 episoder à 30 sekunder där en operatör fjärrstyrde roboten. Den halvtimmen räckte för att roboten skulle kunna generalisera och plocka upp lådan i nästan vilken orientering som helst, enligt Rugg-Gunn.

Den var baserad på en standardrobot där Cambridge Consultants hade bytt ut både händer och huvud. Händerna var specialdesignade och utbytbara. Huvudet hade uppgraderats med högupplösta kameror som gav överblick över hela rummet, vilket är en förutsättning för att tolka mänskliga gester via djupkameror som spårar människans skelett och på så vis beräknar riktningsvektorer från axlar till händer.

Bildtext: Cambridge Consultants humanoida robot tar emot en låda efter en mänsklig gest. Robotens specialdesignade händer och uppgraderade kamerahuvud syns tydligt. Beräkningskraften sitter inte i roboten själv utan i en extern grafikprocessor via nätverket. Foto: Cambridge Consultants

Hjärnan i nätverket, inte i roboten

Det som gjorde demonstrationen extra intressant för industrin var hur roboten tänker. Den hade en enkel beräkningsmodul för balans och motorik, men där den tunga AI-beräkningen skedde på en extern grafikprocessor utanför roboten själv.

– Beräkningskraften behöver inte ens finnas i samma rum. Det gör varje enskild robot billigare och lättare, och batteriet räcker längre, sa Rugg-Gunn.

I praktiken innebär det att en fabrikägare kan ha en privat 5G-basstation och lokal beräkningskraft som delas av ett hundratal robotar. Men tidskraven är hårda. Rugg-Gunn talade om 25 millisekunder som en kritisk gräns. Om signalen inte hinner fram hamnar roboten i vad han beskriver som ryckig rörelse. Därför krävs garanterad servicenivå, något som privata 5G-nät kan erbjuda till skillnad från publika Wi-Fi.

Fysisk AI är inte bara robotar

Cambridge Consultants demonstration visade en sida av fysisk AI: rörelse, grepp och interaktion. Men på MWC:s Manufacturing Summit samma vecka presenterar Brandon Varbello, medgrundare och vd för amerikanska Archetype AI, en bredare vision. 

Hans bolag, grundat 2023 av ett team från Google med över 50 miljoner dollar i finansiering från Amazon, Hitachi och Samsung, hade byggt Newton, en grundmodell tränad på sensordata som vibrationer, tryck och temperaturer snarare än text och bild.

Bildtext: Brandon Varbello, medgrundare och vd för Archetype AI, presenterade grundmodellen Newton på GSMA:s Manufacturing Summit under MWC 2026. På skärmen syntes jämförelser av modellens prestanda mot specialbyggda AI-modeller. Foto: Nicholas Christiansen

Brandon Varbello beskrev från scenen hur den fysiska världen talade ett annat språk än webben. Vibrationer, temperatur och tryck. Den typen av data finns inte på internet, och därför behövs en helt ny modell.

Newton kan generalisera till maskiner den aldrig sett förut och presterade i tester bättre än specialbyggda modeller. I vindkraftverk hittade den nio tidigare okända avvikelser som traditionell övervakning missat. I ventilationssystem visade den 20 procent högre träffsäkerhet vid feldetektering direkt från start, utan anpassning. Kopplingen till Cambridge Consultants arbete var tydlig: båda pekar på lokal beräkningskraft och privat 5G som förutsättning. Medan Cambridge Consultants byggde intelligensen bygger Archetype AI något som liknade nervsystemet.

”Intelligenskris 2028”

Hur snabbt utvecklingen går, och vad den innebär för arbetsmarknaden, är en öppnare fråga. Dr. Lei Fang från kinesiska DataCanvas, en leverantör av AI-infrastruktur, målade på samma scen upp det han kallade ”2028 intelligence crisis”, ett scenario där agentbaserade AI-system blir så kapabla att de kan ersätta stora delar av det kvalificerade kunskapsarbetet.

– För allt som bara kräver en dator och normala kunskaper kommer AI troligen att ta över. Men för tillverkning och produktion ser jag en annan framtid, sa Fang.

Dr. Lei Fang från kinesiska DataCanvas beskrev vad han kallade "2028 intelligence crisis" på MWC:s Manufacturing Summit. Presentationen visade hur AI-jättarnas värde ökar medan mjukvaru-, finans- och tillverkningssektorn riskerar att tappa värde, och hur arbetslösheten bland nyexaminerade kan femdubblas. Foto: Nicholas Christiansen

Han tillade att han oroade sig för vilka jobb som finns kvar för sin egen son när denne tar examen från University of California. Hans tes var att tillverkningsindustrin hade ett naturligt skydd: att den krävde fysiskt arbete och domänkunskap som inte kunde hämtas från internet.

Lösningen menade han var att industriföretag bygger egna AI-agentsystem där företagets unika kunskap komprimeras i specialiserade moduler. Som konkret exempel visade han en kinesisk elbilstillverkare som tränade en AI-agent med data från erfarna ingenjörer och automatiserade 90 procent av kvalitetsverifieringen av konstruerade delar.

Vad det innebär för svensk industri

För den svenska tillverkningsindustrin, med sin höga automatiseringsgrad och växande rekryteringsutmaningar, pekar alla tre spåren åt samma håll. Humanoida robotar som styrs via nätverket kräver inte ny fabrikslayout. Grundmodeller som Newton kan ge omedelbart värde åt fabriker som redan har sensorer men saknar AI-kompetens. Och agentbaserade system där företagets domänkunskap komprimeras i AI-moduler passar väl för svenska nischade industriföretag med djup specialistkunskap.

Än så länge var mycket av detta bara demonstrationer. Men när en robot kan lära sig plocka upp en låda på en halvtimme, en AI-modell förstår maskiner den aldrig sett, och en kinesisk elbilstillverkare redan automatiserat 90 procent av sin kvalitetskontroll. Då är steget till det svenska fabriksgolvet kortare än många tror.

FAKTA: FYSISK AI PÅ MWC 2026

Cambridge Consultants

Del av Capgemini. Människa–robot-interaktion med Nvidia Groot (2,5 miljarder parametrar). Finjustering: 30 minuters data.

Archetype AI

Grundat 2023 (tidigare Google). Grundmodell Newton för fysisk sensordata. Över 50 miljoner dollar från Amazon, Hitachi, Samsung med flera.

DataCanvas

Kinesiskt AI-infrastrukturföretag. Dr. Lei Fang om agentbaserad AI och ”2028 intelligence crisis”.

Latenskrav

25 millisekunder för realtidsstyrning via nätverk

Nätverkslösning

Privat 5G och lokal beräkningskraft

Tillämpningar

Tillverkning, logistik, energi, sjukvård, smarta städer