L’intelligenza artificiale assomiglierà sempre di più alle persone reali, agli umani in carne ed ossa. Dopo l’algoritmo ChatGPT, che dialoga in modo fluido e credibile con gli utenti, dopo Dall-E che da un semplice testo realizza un’immagine come viene descritta, Microsoft annuncia ora il nuovo bot Vall-Eche, in soli 3 secondi, è in grado di replicare timbro e modo di parlare di una persona ascoltandone la voce.
Vall-E, l’AI vuole diventare sempre più umana
Microsoft chiama questa nuova tecnologia basata sull’intelligenza artificiale ed è un “modello di linguaggio codec neurale“. Vall-e, infatti deriva da EnCodec, un codec audio sviluppato da Meta nel 2022 che si basa sull’apprendimento automatico. La vera differenza di Vall-E rispetto ad altri metodi di sintesi vocali è che questo è in grado di generare audio da piccoli campioni di voce.
In un documento rilasciato da Microsoft, gli sviluppatori di Vall-E descrivono in dettaglio il notevole processo di addestramento dell’algoritmo utilizzato. Gli stessi hanno potuto attingere a 60.000 ore di parlato in inglese da più di 7.000 diverse persone che sono presenti nella libreria audio LibriLight di Meta.
Per fare in modo che Vall-E possa imitare con successo la voce desiderata che gli viene fornita, questa deve comunque essere simile a una di quelle presenti nel database utilizzato per il suo addestramento. Se questa viene trovata, allora l’algoritmo è in grado di imitare il timbro di voce e il modo in cui parlerebbe qualcuno con le stesse caratteristiche vocali che legge un testo. E come detto, il tutto in soli 3 secondi.
Vall -E non solo preserva il timbro vocale e il tono emotivo di chi parla, ma può anche riprodurre l'”ambiente uditivo” del campione audio. In poche parole, se qualcuno riproduce un’imitazione di una telefonata realizzata con questa tecnologia, il risultato è molto simile ad una vera conversazione telefonica.
I rischi di Vall-E
Se le applicazioni di Vall-E in ambito ludico o di intrattenimento sono sicuramente interessanti, Microsoft sa bene che a livello etico questa rivoluzione potrebbe creare gravi problemi. L’azienda di Redmond ha infatti deciso di mantenere segreto il codice, a causa dei rischi legati alla tecnologia AI e alla sua capacità di imitare le voci.
Non ci stupiremmo infatti che se questo codice fosse a disposizione di tutti qualcuno lo utilizzerebbe per fingere di essere qualcun altro per scopi illeciti: attribuire false dichiarazioni a un politico, rendere ancora più realistici i video deep fake, mascherare la voce di un truffatore al telefono e molto altro.
A dire il vero, anticipando il rischio di questi problemi, gli sviluppatori del progetto menzionano la possibilità di sviluppare un sistema di rilevamento con lo scopo di indicare se un audio è stato generato da Vall-E o arrivi direttamente dalla persona e dalla sua effettiva voce.