Negli ultimi mesi è diventato sempre più chiaro che OpenAI non intende limitarsi al software. Le nuove indiscrezioni indicano che l’azienda sta lavorando in modo strutturato al suo primo dispositivo fisico, un prodotto che sarà fortemente, se non esclusivamente, basato sull’audio e che rappresenterà un nuovo modo di interagire con ChatGPT.
Secondo quanto emerso, OpenAI sta potenziando in modo significativo i suoi modelli audio in vista del lancio di questo dispositivo. L’obiettivo è costruire un’esperienza che metta la voce al centro, superando i limiti attuali delle interfacce vocali e rendendo l’interazione più naturale, fluida e continua.
Chi è a conoscenza del progetto afferma che il dispositivo sarà “in gran parte basato sull’audio”. Questo implica una rottura netta con l’attuale paradigma dominato dagli schermi e suggerisce una nuova categoria di prodotto pensata per accompagnare l’utente in modo più discreto e costante.
Alla base di questa strategia ci sono nuovi modelli audio di ChatGPT, costruiti su un’architettura aggiornata. Secondo le informazioni disponibili, questi modelli sono in grado di produrre risposte che suonano più naturali ed espressive, oltre a fornire risposte più accurate e approfondite. Un elemento chiave è la capacità di parlare contemporaneamente all’utente umano, una funzione che i modelli attuali non supportano, e di gestire meglio le interruzioni durante una conversazione.
L’obiettivo dichiarato è il rilascio di questo nuovo modello audio nel primo trimestre del 2026. Si tratta di una tappa intenzionale e intermedia, progettata non come un semplice aggiornamento di ChatGPT, ma come una base tecnologica per l’arrivo dell’hardware.
Il dispositivo fisico, però, non è imminente. Le stime attuali indicano che il primo prodotto potrebbe arrivare sul mercato non prima di circa un anno. E non sarà un caso isolato. OpenAI starebbe lavorando a un’intera famiglia di dispositivi, tutti costruiti attorno allo stesso principio: l’audio come interfaccia primaria.
Tra le idee discusse internamente figurano occhiali intelligenti e uno smart speaker privo di display. L’assenza di uno schermo non è un dettaglio secondario, ma una scelta strategica che definisce l’intera visione del progetto. L’interazione dovrebbe avvenire attraverso la voce, riducendo la dipendenza visiva e ridefinendo il rapporto quotidiano con l’intelligenza artificiale.

Per sostenere questo cambiamento, OpenAI ha avviato una riorganizzazione interna. Diverse squadre che operavano separatamente nell’ambito dell’ingegneria, del prodotto e della ricerca sono state accorpate sotto un’unica iniziativa focalizzata sul miglioramento dei modelli audio. All’interno dell’azienda, molti ricercatori ritengono che le capacità vocali siano rimaste indietro rispetto ai modelli testuali, sia in termini di accuratezza sia di velocità.
I dati di utilizzo sembrano confermare questa percezione. Relativamente pochi utenti di ChatGPT scelgono oggi l’interfaccia vocale, preferendo l’input testuale. Migliorare in modo sostanziale i modelli audio potrebbe cambiare questo comportamento, aprendo la strada a casi d’uso più ampi e a contesti in cui lo schermo non è pratico, come l’automobile.
OpenAI non si muove in un vuoto competitivo. Altre grandi aziende tecnologiche, tra cui Google, Meta e Amazon, stanno investendo sempre di più in prodotti e tecnologie basate sulla voce. Un esempio evidente è la spinta di Meta verso gli smart glasses, che puntano su comandi vocali e assistenza continua.

Non è la prima volta che il settore tenta questa strada. Negli anni passati, dispositivi come Alexa, Google Assistant e, in misura minore, Siri hanno portato gli assistenti vocali nelle case di milioni di persone. Questi prodotti hanno trovato una certa diffusione, soprattutto tra utenti meno tecnici, ma hanno mostrato limiti evidenti in termini di comprensione, flessibilità e capacità conversazionale.
L’arrivo dei modelli linguistici di grandi dimensioni potrebbe cambiare le regole del gioco. Le stesse tecnologie che hanno reso ChatGPT utile e sorprendentemente versatile in forma testuale potrebbero aprire nuove possibilità, ma anche nuovi rischi, quando applicate a dispositivi sempre in ascolto.
Alcuni protagonisti del settore, tra cui l’ex responsabile del design di Apple Jony Ive, hanno sostenuto che i prodotti controllati dalla voce potrebbero risultare meno “assuefacenti” rispetto a quelli basati su schermi. Questa idea viene spesso citata come una motivazione etica per puntare sull’audio, anche se finora non sono state presentate prove solide a supporto di questa tesi.





























































































































Leggi o Aggiungi Commenti