Apple ha pubblicato una ricerca che esplora l’uso dei large language model (LLM) per migliorare il riconoscimento delle attività umane combinando informazioni provenienti da audio e sensori di movimento. Il lavoro suggerisce che, anche in assenza di grandi quantità di dati allineati o di addestramento specifico, un approccio basato su LLM in late fusion possa dare buoni risultati nell’identificare ciò che una persona sta facendo.
Nel paper intitolato “Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition” il team descrive un flusso in cui i modelli sensoriali generano brevi descrizioni testuali dell’audio e predizioni da dati IMU (accelerometro e giroscopio). I risultati vengono poi forniti a diversi LLM per effettuare la classificazione delle attività.
I ricercatori riassumono così il lavoro:
“I flussi di dati provenienti dai sensori forniscono informazioni preziose sulle attività e sul contesto per le applicazioni a valle, ma integrare informazioni complementari può essere impegnativo. Dimostriamo che i large language model (LLM) possono essere impiegati nella late fusion per la classificazione delle attività a partire da serie temporali audio e di movimento. Abbiamo curato un sottoinsieme di dati per il riconoscimento di diverse attività in vari contesti (ad esempio, attività domestiche e sportive) dal dataset Ego4D. I LLM valutati hanno ottenuto un F1-score per la classificazione a 12 classi in modalità zero-shot e one-shot significativamente superiore rispetto al caso senza addestramento specifico per il compito. La classificazione zero-shot tramite la fusione basata su LLM di modelli specifici per modalità può abilitare applicazioni multimodali temporali in cui i dati allineati sono limitati e non è possibile apprendere uno spazio di embedding condiviso. Inoltre, la fusione basata su LLM può consentire il dispiegamento di modelli senza richiedere memoria e calcolo aggiuntivi per i modelli multimodali mirati a specifiche applicazioni.”

Per gli esperimenti gli autori hanno usato Ego4D, un ricco dataset di riprese in prima persona che copre molte attività della vita reale. Nel paper i ricercatori spiegano come hanno costruito il sottoinsieme usato nei test :
“Abbiamo creato un dataset di attività quotidiane a partire dal dataset Ego4D, cercando le attività della vita quotidiana all’interno delle descrizioni narrative fornite. Il dataset curato include campioni di 20 secondi di 12 attività di alto livello: passare l’aspirapolvere, cucinare, fare il bucato, mangiare, giocare a basket, giocare a calcio, giocare con gli animali domestici, leggere un libro, usare il computer, lavare i piatti, guardare la TV e fare esercizio fisico/sollevare pesi. Queste attività sono state selezionate per coprire una gamma di compiti domestici e di fitness e sulla base della loro prevalenza nel dataset più ampio.”

I ricercatori hanno eseguito un flusso in cui l’audio e i dati IMU passano attraverso modelli specializzati che generano etichette o brevi caption testuali; questi output vengono combinati e forniti a LLM come Gemini-2.5-pro e Qwen-32B per la classificazione. La valutazione ha incluso scenari closed-set (con le 12 possibili attività fornite) e open-ended (senza opzioni fornite), e modalità zero-shot e one-shot. I risultati mostrano che la fusione tramite LLM supera il caso casuale e migliora quando viene fornito anche un singolo esempio one-shot.
Questo studio apre la strada a un approccio modulare: invece di creare un unico grande modello multimodale addestrato a monte, è possibile combinare modelli leggeri per ogni modalità e lasciare al LLM il compito di integrare le informazioni. Questo approccio è interessante in scenari con dati allineati scarsi o per implementazioni con vincoli di memoria e calcolo. Per Apple, le implicazioni riguardano le applicazioni nel campo della salute, del fitness e in tutti quei contesti d’uso in cui capire l’attività dell’utente è cruciale.
Apple ha reso disponibili materiali supplementari insieme al paper, inclusi gli ID dei segmenti Ego4D, i timestamp, i prompt e gli esempi one-shot utilizzati negli esperimenti, così da permettere ad altri ricercatori di riprodurre e approfondire i risultati.
- Filtra:
- Tutte
- Apple
- Minimo Storico
- Alimentari e cura della casa
- Auto e moto
- Bellezza
- Cancelleria e prodotti per ufficio
- Casa e cucina
- Dispositivi amazon
- Elettronica
- Fai da te
- Giardino e giardinaggio
- Giochi e giocattoli
- Grandi elettrodomestici
- Igiene dentale
- Illuminazione
- Informatica
- Moda
- Prima infanzia
- Prodotti per animali domestici
- Salute e cura della persona
- Sport e tempo libero
- Strumenti musicali






















































































































































































































Leggi o Aggiungi Commenti