Apple aveva presentato FastVLM alcuni mesi fa, un modello visivo-linguistico in grado di elaborare immagini ad alta risoluzione quasi in tempo reale. Ora, chiunque possieda un Mac con chip Apple Silicon può provarlo e testarlo direttamente.
Quando FastVLM è stato annunciato, è stato sottolineato che il modello sfrutta MLX, il framework open source di Apple sviluppato appositamente per Apple Silicon, per ottenere prestazioni fino a 85 volte più veloci nella generazione di didascalie video rispetto ad altri modelli simili, con dimensioni ridotte di oltre tre volte.
Oggi il progetto non è più disponibile solo su GitHub. È disponibile anche su Hugging Face, dove è possibile caricare e provare la versione light FastVLM-0.5B direttamente dal browser. Durante i test, su un MacBook Pro con chip M2 Pro e 16 GB di RAM, il caricamento ha richiesto un paio di minuti, ma una volta avviato, il modello ha iniziato subito a descrivere con precisione l’ambiente, le espressioni, gli oggetti e persino il colore dei vestiti.
L’interfaccia consente di modificare il prompt in tempo reale o di scegliere tra alcuni suggerimenti già pronti, come ad esempio: “Descrivi ciò che vedi in una frase”, “Qual è il colore della mia maglietta?”, “Individua eventuali testi visibili” o “Quali emozioni o azioni vengono mostrate?”. Per chi vuole spingersi oltre, è possibile utilizzare una virtual camera per alimentare il modello con diversi flussi video e osservare le descrizioni dettagliate restituite scena dopo scena.
Il dettaglio più interessante è che tutto ciò avviene in locale, direttamente nel browser, senza inviare dati a server esterni. Il modello può funzionare anche offline, caratteristica che lo rende particolarmente adatto agli scenari legati ai dispositivi indossabili e alle tecnologie assistive, in cui leggerezza e bassa latenza possono fare la differenza.
Va ricordato che la demo utilizza la versione più piccola, con 0,5 miliardi di parametri, mentre la famiglia FastVLM comprende anche varianti più grandi e potenti con 1,5 miliardi e 7 miliardi di parametri. Versioni di questo tipo potrebbero migliorare ulteriormente le prestazioni e l’accuratezza, anche se sarebbe quasi impossibile farle girare direttamente sui browser.
- Filtra:
- Tutte
- Apple
- Minimo Storico
- Alimentari e cura della casa
- Bellezza
- Cancelleria e prodotti per ufficio
- Casa e cucina
- Elettronica
- Fai da te
- Giardino e giardinaggio
- Giochi e giocattoli
- Grandi elettrodomestici
- Igiene dentale
- Illuminazione
- Informatica
- Moda
- Prodotti per animali domestici
- Salute e cura della persona
- Sport e tempo libero
- Videogiochi
Leggi o Aggiungi Commenti