video suggerito
video suggerito
Intelligenza artificiale (IA)

Ora puoi parlare con ChatGPT: come funziona la nuova modalità vocale avanzata di OpenAI

OpenAI ha annunciato la “Advanced Voice Mode”, la nuova funzionalità audio che permetterà agli utenti di parlare con ChatGPT. La versione alpha è stata integrata per un numero limitato di utenti, potrebbe essere disponibile per tutti gli abbonati a ChatGPT Plus in autunno.
A cura di Elisabetta Rosso
0 CONDIVISIONI
Immagine
Attiva le notifiche per ricevere gli aggiornamenti su

Il team di OpenAI è seduto attorno a un tavolo. "Come stai ChatGPT?", chiedono allo smartphone. "Sto benissimo, grazie per avermelo chiesto", la voce sembra umana, ma non lo è. Il 30 luglio l'azienda ha presentato la Advanced Voice Mode. La nuova funzionalità audio permetterà agli utenti di parlare con ChatGPT e ricevere risposte in tempo reale, sarà anche possibile interrompere il chatbot e chiedergli di cambiare intonazione.  L'obiettivo è permettere conversazioni naturali. E infatti, secondo OpenAI, grazie ad Advanced Voice Mode, ChatGPT sarà anche in grado di percepire le emozioni degli utenti. La modalità, in versione alpha, è già disponibile per alcuni abbonati Plus.

La portavoce di OpenAI, Taya Christianson, ha spiegato che la nuova modalità di ChatGPT per conversare con gli utenti, utilizza voci preimpostate, realizzate grazie a un team di doppiatori. "Abbiamo fatto in modo che ChatGPT non possa impersonare le voci di altre persone, sia individui che personaggi pubblici, e bloccherà gli output che differiscono da una di queste voci preimpostate".

L'azienda ha posticipato il lancio da fine giugno a luglio, "abbiamo avuto bisogno di tempo per raggiungere lo standard di lancio". Advanced Voice Mode sarà limitata alle quattro voci preimpostate di ChatGPT, Juniper, Breeze, Cove ed Ember, "l'utente può selezionare quella che preferisce per interagire con il chatbot". Secondo Christianson, la modalità vocale potrebbe essere disponibile per tutti gli utenti ChatGPT Plus in autunno.

Cos’è e come funziona la Advanced Voice Mode di ChatGPT

Abbiamo già sentito la "voce" di ChatGPT, ma, come spiega OpenAI, la modalità vocale avanzata sarà diversa. Prima infatti il chatbot utilizzava tre modelli diversi per convertire la voce in testo, GPT-4o è invece è multimodale e in grado di elaborare gli input senza l'ausilio di modelli ausiliari. Non solo, il chatbot sarà in grado di percepire le intonazioni emotive nella voce.

La modalità vocale avanzata è stata lanciata martedì 30 luglio, l'azienda ha distribuito infatti la prima versione ad alcuni utenti paganti abbonati alla modalità "Plus" dell'app. L'obiettivo è renderla disponibile a tutti gli utenti Plus in autunno.

I miglioramenti di OpenAI dopo il caso di Scarlett Johansson

Non è andato tutto secondo i piani. Inizialmente, infatti, il lancio della modalità vocale avanzata era previsto per giugno, poi l'azienda ha dichiarato: "abbiamo bisogno di un altro mese per raggiungere il nostro obiettivo di lancio per testare la sicurezza dello strumento e garantire che possa essere utilizzato da milioni di persone mantenendo comunque risposte in tempo reale".

Parte del ritardo è dovuto al caso Scarlett Johansson. Quando OpenAI ha presentato la nuova voce di ChatGPT, quasi tutti hanno avuto l'impressione di conoscere quel timbro, e quando Johansson ha sentito parlare il chatbot, battezzato Sky, è rimasta scioccata. "La voce era così simile alla mia che i miei amici più stretti non riuscivano a trovare alcuna differenza", ha spiegato al Washington Post. Non solo, l'attrice ha anche rivelato di essere stata contattata mesi fa da Sam Altman, Ceo di OpenAI, "mi aveva chiesto di prestare la mia voce per il chatbot, ma io avevo rifiutato per motivi personali".

OpenAI non ha menzionato il caso Johansson per giustificare il ritardo del lancio. Christianson, ha solo sottolineato che l'azienda ha recentemente dovuto affrontare molti controlli sulle sue politiche di sicurezza. OpenAI ha anche "aggiunto nuovi filtri che riconosceranno e bloccheranno determinate richieste di generare musica o altri audio protetti da copyright", ha spiegato Christianson.

0 CONDIVISIONI
486 contenuti su questa storia
autopromo immagine
Più che un giornale
Il media che racconta il tempo in cui viviamo con occhi moderni
api url views