Apple continua a lavorare su un’idea di intelligenza artificiale profondamente integrata e coerente, e l’ultima ricerca pubblicata dai suoi ingegneri va esattamente in questa direzione. Con UniGen 1.5, l’azienda mostra come sia possibile riunire comprensione visiva, generazione di immagini e modifica avanzata all’interno di un unico modello, senza dover ricorrere a sistemi separati per ciascun compito.
Il lavoro si basa su una precedente ricerca pubblicata nel maggio scorso, intitolata “UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation”. In quello studio, il team di Apple aveva introdotto un modello multimodale unificato capace di interpretare immagini e generarne di nuove all’interno della stessa architettura, superando l’approccio tradizionale basato su modelli distinti.
Con il nuovo paper, “UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning“, Apple compie un passo ulteriore, aggiungendo anche l’editing delle immagini, sempre mantenendo un framework unico.

Un modello unico per capire e creare immagini
Il punto centrale della ricerca è l’idea che comprensione e generazione visiva non debbano essere trattate come capacità separate. Secondo i ricercatori, un modello che “capisce” meglio ciò che vede può anche generare immagini più coerenti e fedeli alle istruzioni ricevute.
Il problema, spiegano, emerge soprattutto nel campo dell’editing, dove le richieste possono essere sottili, ambigue o molto specifiche. Dopo il normale addestramento supervisionato, i modelli faticano spesso a interpretare correttamente cosa dovrebbe cambiare nell’immagine finale.
Nel paper si legge:
“Osserviamo che il modello rimane inadeguato nella gestione di scenari di editing diversificati dopo il fine-tuning supervisionato, a causa di una comprensione insufficiente delle istruzioni di modifica. Per questo proponiamo l’Edit Instruction Alignment come una fase leggera di post-addestramento, pensata per migliorare l’allineamento tra le istruzioni di editing e la semantica dell’immagine di destinazione”.
In pratica, prima di passare all’ottimizzazione tramite reinforcement learning, UniGen 1.5 viene addestrato a produrre una descrizione testuale dettagliata dell’immagine finale attesa, partendo dall’immagine originale e dalle istruzioni di modifica. Questo passaggio intermedio aiuta il modello a “metabolizzare” l’editing richiesto prima di generare l’immagine definitiva.

Un sistema di ricompense unificato
L’altro elemento chiave della ricerca riguarda l’uso del reinforcement learning. Tradizionalmente, generazione ed editing richiedono metriche di valutazione diverse, perché una modifica può andare da un piccolo ritocco fino a una trasformazione radicale.
Apple ha scelto invece di utilizzare un unico sistema di ricompense sia per la generazione sia per l’editing, semplificando l’addestramento e rendendo il modello più coerente nel comportamento complessivo. Secondo i risultati pubblicati, questa scelta porta benefici concreti.
Nel paper gli autori scrivono:
“Grazie a questi interventi, UniGen-1.5 fornisce una base più solida per far avanzare la ricerca sui modelli multimodali unificati e stabilisce prestazioni competitive nei benchmark di comprensione, generazione ed editing delle immagini”.
Nei test standard di settore, UniGen 1.5 eguaglia o supera diversi modelli open source e proprietari. In particolare, ottiene risultati superiori a sistemi come BAGEL e BLIP3o nella generazione di immagini e si dimostra competitivo anche rispetto a modelli chiusi come GPT-Image-1 nel campo dell’editing.

Limiti ancora presenti
Apple non nasconde però i limiti attuali del modello. UniGen 1.5 fatica nella generazione accurata di testo all’interno delle immagini e mostra problemi di coerenza dell’identità in alcuni scenari, come variazioni indesiderate nei tratti di un volto o nel piumaggio di un animale.
Gli stessi ricercatori ammettono:
“UniGen-1.5 necessita di ulteriori miglioramenti per affrontare questi limiti, in particolare nella resa del testo e nella consistenza dell’identità visiva”.
⏰ Le offerte di oggi non sono ancora disponibili.
Di seguito ti proponiamo le migliori offerte pubblicate ieri (ed ancora valide):
- Filtra:
- Tutte
- Apple
- Minimo Storico
- Accessori e parti di ricambio
- Alimentari e cura della casa
- Amazon
- Amazon haul
- Auto e moto
- Bellezza
- Cancelleria e prodotti per ufficio
- Casa e cucina
- Dispositivi amazon
- Dispositivi amazon & accessori
- Elettronica
- Fai da te
- Giardino e giardinaggio
- Giochi e giocattoli
- Grandi elettrodomestici
- Illuminazione
- Informatica
- Kindle store
- Moda
- Prima infanzia
- Prodotti per animali domestici
- Salute e cura della persona
- Sport e tempo libero
- Strumenti musicali
- Videogiochi













































































































































































































































































































Leggi o Aggiungi Commenti