L’AI fa parlare

di Vincenzo Rampolla

Sì. L’Artificial Intelligence ti ridona la parola, traduce in voce le tue onde cerebrali. Che sono le onde cerebrali? Ogni cervello le emette, basta intercettarle, ci pensano neurochirurghi e specialisti; se per incidente o malattia hai alterato o perso la capacità di parlare, sono loro che sanno tradurre in parole comprensibili l’immensa varietà di impulsi elettrici prodotti dal tuo cervello: ti danno una voce artificiale grazie a dispositivi, apparecchiature e ai programmi di AI.

La tua voce. Condizione è che tu sia in grado di pensare e che intervengano sulla tua corteccia uditiva. E la corteccia, cos’è? È la massa grigia esterna all’encefalo che governa intelligenza e linguaggio. Riveste gli emisferi cerebrali, è piena di solchi, giri e fenditure, tra cui il lobo dell’udito; contiene un’articolata serie di reti di neuroni, più di 100 miliardi di cellule che singolarmente scambiano segnali con le cellule vicine, ognuna attraverso almeno 10 mila collegamenti. Fantascienza. No … e c’è dell’altro.

Puoi spingerti fino a controllare quegli impulsi elettrici e comunicare con gli altri senza aprire bocca, mimando con le labbra, simulando la parola che ti manca. Basta il semplice atto di pensare. Non ci credo. Impossibile. Fantascienza … magia? Che segnali vengono emessi quando tu solo immagini di parlare oppure ascolti le parole di un altro? Pensaci.

Riprodurre quei segnali, migliorare le formule alla base dell’AI, perfezionare la ricerca e andare avanti, è questo il segreto: vedere se parole e frasi, insomma un discorso compiuto sia poi interpretato, una volta catturato nella zona dell’udito della corteccia. E come?

Muovendosi in profondità tra le pieghe del cervello con delle sonde (elettrodi), con un neurostimolatore (DBS, Deep Brain Stimulation). E dopo?

Dopo si interpretano quei dati uditivi e si arriva alla parola: si deve costruire un sintetizzatore, così lo chiamano i tecnici, e ridurre in parole l'atto di pensare, fare una protesi neurale, un congegno neuroprotesico di traduzione. Paroloni. Chi ci capisce è bravo. Guarda i fatti.

Prove concrete hanno stabilito la possibilità di ricostruire la parola dai dati registrati nelle reti di neuroni della corteccia uditiva. Ti basta? Ci siamo dunque.

Nasce la tecnica che fa da ponte vocale tra cervello e computer (BCI, Speech brain computer interface) per ricostruire la parola per il paziente. Per te.

Com’è possibile … è difficile? No, è complesso. Richiede un controllo estremamente preciso del moto delle posizioni di un atto vocale, parlo di millisecondi, sapendo che la maggior parte dei pazienti con ridotte capacità di parlare trasmettono a mala pena 10 parole al minuto, rispetto alla media delle 150 nel linguaggio naturale. E come si arriva alla fine?

Tutto dipende dal numero di sonde inserite nel cervello del paziente, dalla precisione delle aree sollecitate e dalla durata della taratura del neurostimolatore.

In questo scenario – dicono i neurochirurghi - se chi lo porta pensa: ho bisogno di mangiare, il sistema può prendere i segnali cerebrali generati da quel pensiero e trasformarli in una serie di parole. Sono le parole che il sistema dirà per te e gli altri ti capiranno.

È la fase finale, manca solo un vocoder (da vocal encoder), il congegno adatto a produrre la voce, da tempo in uso nel mondo della musica. Da pochi giorni sono pubblici i risultati di esperimenti su cui da anni nei Centri di ricerca mondiali si è lavorato con tecniche e metodi diversi.

Attorno al tavolo a colloquio con il paziente siede un’equipe con psicologo, neurochirurgo e psicanalista e preparano l’intervento. È un lavoro difficile? Sì.

Si selezionano con cura soggetti disposti a collaborare mentre operano e che sono sotto anestesia totale per la pratica di un piccolo foro nella scatola ossea e restano svegli sotto anestesia locale durante la stimolazione del lobo uditivo e l’inserimento di congegni nel cervello e sotto la pelle. L’equipe dispone di un neurostimolatore, lo strumento per praticare la DBS, la stimolazione profonda della corteccia insieme a molte altre apparecchiature: la CT (Tomografia Computerizzata), per l’analisi delle diverse sezioni del cervello), la ECoG (Elettrocorticografia), per la cattura dei segnali emessi dalla zona uditiva sollecitata, la NMR (Risonanza Magnetica Nucleare) per la visione completa 3D del cervello e un vocoder (Sintetizzatore di voce) per trasformare in parole gli impulsi elettrici registrati sulla corteccia. La sala operatoria è riempita di ogni immaginabile veduta a colori del tuo cervello, su almeno cinque schermi.

In ciascuno opera l’AI con algoritmi matematici, elaborazioni in linguaggi informatici e test programmati dagli specialisti. L’obiettivo è dare vita a un linguaggio artificiale fatto di parole fabbricate traducendo i segnali cerebrali. L’equipe ha terminato il lavoro.

La stimolazione profonda del cervello (DBS)

Dall’analisi degli studi nei diversi Centri di ricerca, almeno cinque architetture di AI per reti neurali artificiali sono state ideate e costruite per produrre il migliore segnale acustico a partire dai segnali prodotti dalle stimolazioni della corteccia.

Il lavoro è basato sulla raccolta dei dati di pazienti epilettici durante un intervento simile nella tecnica a quello richiesto per patologie della voce e del linguaggio, ma su una zona ben diversa, specifica per terapie a epilettici; le aree di stimolazione variano secondo l’intervento, per epilessia, parkinson, udito o altro.

Il sistema DBS prevede: un sottilissimo cavo con elettrodi all'estremità da inserire attraverso il foro nel cranio nell'area del cervello selezionata; un filo che va dal cranio alla zona superiore del torace e collega il cavo al neurostimolatore; un neurostimolatore, dispositivo con batteria simile a un pacemaker. È sterile continuare a parlare tecnicamente di AI.

Per penetrare a fondo nell’Artificial Intelligence bisogna viverla su un caso concreto. Passo, passo seguiamo il chirurgo. Egli inizia fissando alla testa del paziente un casco dotato di un anello graduato cui è applicato un arco metallico che collega le varie apparecchiature.

Con il casco localizza dall’esterno esattamente una qualsiasi area all’interno della scatola cranica. Esegue un taglio sulla cute, pratica un piccolo foro nella scatola ossea, infila i sottolissimi cavi all’interno dell’encefalo, con precisione micrometrica fa avanzare gli elettrodi fino alla zona da stimolare e riduce al minimo le lesioni al tessuto cerebrale.

Inizia la fase attiva: registrazione dell’attività cerebrale, mappatura dell’area scelta, controllo delle stimolazioni e individuazione del punto in cui lo stimolo dà l’effetto migliore (gioca sui quattro contatti disponibili su ogni elettrodo e può variare il volume stimolato).

Ultimate le prove di stimolazione con gli elettrodi collegati al computer e i con i cavi di estensione extracranici, rimuove i cavi ormai inutili e a livello sottocutaneo posiziona sul petto o sotto la clavicola il neurostimolatore con la sua batteria.

Il decodificatore

Inizia il lavoro: realizzare una protesi per linguaggio neurale, traducendo i segnali cerebrali in una sequenza di parole sintetizzate intelligibili al ritmo di una persona che parli normalmente. Gli studiosi si sono concentrati sul vocoder (WORLD), decodificatore di elevate prestazioi con la massima qualità di voce sintetica generata.

Lo scopo è stato raggiunto con vari test in Canada e Giappone su due gruppi di tre pazienti, entrambi sotto anestesia locale, il primo con soggetti epilettici senza disturbi alla parola e il secondo con soggetti malati di disturbi specifici di linguaggio.

I soggetti del primo gruppo (2 femmine di 30 e 31 anni e un maschio di 34 anni) hanno letto liberamente ad alta voce una completa serie di frasi e brani tratti da libri per ragazzi, per testare l'efficacia dell'algoritmo di AI basato su un’architettura di rete neurale artificiale. Si sono calibrate le prestazioni del vocoder partendo da articolazioni fonetiche: respiri, pause, moti del dorso della lingua, orizzontali e verticali, del palato, della forma e delle dinamiche del viso e della bocca, della mascella, del labbro superiore e inferiore, con vocali aperte e chiuse e consonanti nasali, laterali, tremule, esplosive e relative ai vari suoni, per un totale di 32 posizioni specifiche tipiche per generare una parlata comprensibile.

Allo scopo si sono registrati segnali di elettrocorticografia ad alta densità.

La scelta, la precisione e la varietà del numero di frasi lette e ripeture è stata la base fondamentale per lo sviluppo degli algoritmi di AI.

In particolare voci maschili e femminili hanno alternato l’udibile e il silenzioso, mimando la verbalità e eseguendo con la bocca i movimenti richiesti.

Oltre al discorso udibile, sono stati installati elettrodi nel cervello di ogni individuo con un programma AI di registrazione preoperatoria e con una scansione postoperatoria su sezioni del cervello senza variare le posizioni degli elettrodi.

Il vocoder di rete neurale è stato addestrato, allenato e tarato per raggiungere la perfetta riproduzione delle articolazioni umane registrate, per tradurre le relative caratteristiche fonologiche e acustiche e in definitiva per rendere in suono la rappresentazione completa delle articolazioni del parlato. Ovviamente non c’è stato alcun segnale acustico da confrontare con il discorso silenzioso decodificato.

Massima l’attenzione per l’ampiezza della gamma alta delle frequenze e le fasce di bassa frequenza. I parametri acustici sono stati scrupolosamente progettati per massimizzare la qualità della ricostruzione audio finale. Da queste caratteristiche si è ricostruito un accurato spettrogramma vocale e il preciso livello delle proprietà fonetiche. Come previsto, le prestazioni sul linguaggio mimato sono state inferiori al parlato-parlato; in linea con il lavoro sulla sintesi da silenzioso le prestazioni di decodifica sono state di bassa qualità quando i soggetti hanno mimato in silenzio senza un’uscita udibile. Il divario di prestazioni è dipeso sia all'assenza di voce che dalla mancata attivazione della laringe.

Il lavoro sui soggetti del secondo gruppo è stato eseguito con altri tre pazienti sotto anestesia locale, questa volta con patologie della parola e con elettrodi inseriti nell’emisfero sinistro del cervello, zona temporale del linguaggio.

Le complete registrazioni delle misurazioni elettrocorticografiche sono avvenute per 40 secondi e a precisi intervalli, mentre i pazienti ascoltavano frasi di brevi storie tratte dai medesimi racconti per ragazzi usati nel primo gruppo, ripetute a caso più volte da 4 oratori diversi (2 maschi e 2 femmine). Poichè era possibile raccogliere i dati soltanto mentre i pazienti erano sottoposti all’intervento di stimolazione, per ciascun soggetto è stato raccolto un totale di circa 30 minuti di registrazioni neurali, lettura con pause inserite a caso e ripetizione dell’ultima frase.

Sono state analizzate basse e alte frequenze, da 0 a 150 Hertz con gli accorgimenti per ridurre i disturbi sonori di fondo. L’efficacia del test è dipesa dalla corretta scelta delle bande di frequenza, dalla rigorosa messa a punto del vocoder (25 minuti di taratura) e dalla precisione e ampiezza delle zone cerebrali coinvolte.

Per completezza, gli effetti collaterali osservati sui pazienti durante e dopo l’intervento sono stati: sforzo di parlata sotto tono, difficoltà di articolazione degli arti, lampi visivi, deviazione oculare, crampi locali, chiusura delle palpebre, sudorazione, vampate, nausea e capogiri.

Terminato il test, un gruppo di 11 tecnici ha messo alla prova il vocoder, ascoltandolo con massima attenzione per capire quello che diceva. Ogni frase è stata risentita da altri 50 uditori. In totale, 166 ascoltatori hanno preso parte alle valutazioni del test.

Le persone hanno compreso e anche ripetuto i suoni in circa 75% dei casi, oltre ogni esperienza precedente: un vocoder molto sensibile e le efficaci reti neurali costruite in AI hanno riprodotto con sorprendente accuratezza le parole originariamente ascoltate dai pazienti. La decodifica vocale è stata inefficace per il 25% dei casi non solo quando la voce era prodotta in modo udibile, ma anche quando i soggetti hanno mimato il parlato.

Risultato positivo, non perfetto, ma si è capito quello che ha detto! È andata. Ci credi? Io sì.

Ultimo aggiornamento:18/02/2019 18:08:57