Apple ha sviluppato SimpleFold, un modello di intelligenza artificiale leggero per la previsione della struttura tridimensionale delle proteine che rappresenta un’alternativa valida e meno costosa in termini di risorse rispetto a modelli come AlphaFold di Google DeepMind.
I modelli tradizionali di ripiegamento proteico, come AlphaFold2 e RoseTTAFold, si basano su architetture complesse e specifiche per il dominio che integrano allineamenti multipli di sequenze di amminoacidi (MSA), rappresentazioni a coppie e aggiornamenti triangolari. Come spiegano i ricercatori di Apple:
“I modelli consolidati per il ripiegamento proteico, come AlphaFold2 e RoseTTAFold, hanno ottenuto risultati rivoluzionari grazie a un’attenta progettazione delle architetture che integrano componenti computazionalmente intensivi, come gli allineamenti multipli di sequenze, le rappresentazioni a coppie e gli aggiornamenti triangolari. Queste scelte progettuali mirano a codificare la nostra attuale comprensione del processo di generazione della struttura nei modelli, piuttosto che lasciare che i modelli apprendano tale processo direttamente dai dati, cosa che potrebbe rivelarsi vantaggiosa per diversi motivi.”
SimpleFold si discosta da questo approccio adottando i modelli basati sul flow matching, introdotti nel 2023 e ampiamente utilizzati negli ambiti della generazione di testo e immagini e di testo e 3D. In sintesi, i modelli di flow matching rappresentano un’evoluzione dei modelli di diffusione che, invece di rimuovere iterativamente il rumore da un’immagine iniziale, imparano un percorso più fluido che trasforma direttamente il rumore casuale in un’immagine finale in un solo passaggio.
Questo metodo riduce il numero di passaggi necessari per la rimozione del rumore, risultando così meno costoso in termini computazionali e più veloce.
I ricercatori Apple hanno addestrato SimpleFold con diverse dimensioni, da 100 milioni a 3 miliardi di parametri, e l’hanno valutato su due ampie basi di dati utilizzate per la predizione della struttura delle proteine: CAMEO22 e CASP14. Queste basi di dati sono state impiegate per testare la generalizzazione, la robustezza e la precisione atomica del modello.
I risultati sono stati molto promettenti:
“Nonostante la sua semplicità, SimpleFold raggiunge prestazioni competitive rispetto ai modelli di riferimento. In entrambi i benchmark, SimpleFold ha mostrato una performance costantemente migliore di ESMFold, un altro modello basato sul flow matching e con incorporamenti ESM. Su CAMEO22, SimpleFold ha dimostrato risultati paragonabili ai migliori modelli di ripiegamento, come ESMFold, RoseTTAFold2 e AlphaFold2. In particolare, SimpleFold raggiunge oltre il 95% delle prestazioni di RoseTTAFold2/AlphaFold2 sulla maggior parte delle metriche, senza applicare il costoso e euristico sistema di attenzione triangolare e MSA.
Inoltre:
“Per completezza, riportiamo i risultati di SimpleFold con varie dimensioni del modello. Il modello più piccolo, SimpleFold-100M, mostra prestazioni competitive, considerando la sua efficienza sia nella fase di addestramento che in quella di inferenza. In particolare, SimpleFold supera il 90% delle prestazioni di ESMFold su CAMEO22, dimostrando l’efficacia di costruire un modello di ripiegamento utilizzando blocchi architetturali generici.”
Si è inoltre osservato che, con l’aumentare della scala del modello e della quantità di dati di addestramento, la qualità del ripiegamento migliora, in particolare sui benchmark più complessi.
Infine, i ricercatori sottolineano che SimpleFold rappresenta solo un primo passo e auspicano che possa fungere da stimolo per la comunità scientifica nella costruzione di modelli generativi proteici efficienti e potenti.
Lo studio completo è disponibile su arXiv, insieme al codice e ai checkpoint sul repository GitHub ufficiale di Apple.
- Filtra:
- Tutte
- Apple
- Minimo Storico
- Alimentari e cura della casa
- Amazon
- Bellezza
- Cancelleria e prodotti per ufficio
- Casa e cucina
- Elettronica
- Fai da te
- Giochi e giocattoli
- Grandi elettrodomestici
- Illuminazione
- Informatica
- Moda
- Prima infanzia
- Prodotti per animali domestici
- Salute e cura della persona
- Sport e tempo libero
- Utensili elettrici e a mano
Leggi o Aggiungi Commenti