Dopo aver testato ciò che l’IA del Samsung Galaxy S24 Ultra è in grado di fare in tema di elaborazione grafica delle immagini, abbiamo effettuato medesimo test sulla funzione di trascrizione dei file audio. Lo scopo non era tanto verificare la qualità della trascrizione in sé, quanto l’utilità effettiva che l’IA può avere su questo fronte.
Galaxy S24 Ultra: l’IA trascrive, l’IA riepiloga
Anzitutto occorre segnalare come il Galaxy S24 Ultra abbia un registratore incorporato in grado di fornire i file vocali che fungono da base per le funzioni di trascrizione. Scegliendo il file, il trascrittore in pochi secondi trasla tutto il forma testuale, distinguendo e riconoscendo anche i singoli oratori per mettere così meglio in ordine il parlato delle rispettive persone (elementi fondamentali per comprendere lo sviluppo della discussione). Al termine il sistema consente di effettuare inoltre un riepilogo, lasciando all’IA la possibilità di analizzare il testo per estrapolarne gli aspetti essenziali e comporne così una sorta di riassunto.
Trascrizione e riepilogo
Un lavoro in due fasi, insomma: la semplice trascrizione prima, la gestione intelligente del testo poi. Per comprendere meglio cosa l’IA fosse in grado di capire, trascrivere ed elaborare, abbiamo fatto tre prove differenti:
- Dialogo a tre persone
- Registrazione di una telecronaca calcistica
- Registrazione di una videocall
Nel primo caso il risultato è stato egregio. Si trattava di una discussione senza reali finalità, una semplice chiacchierata a poca distanza dallo smartphone, dove le voci erano ben scandite e nessuno sovrapponeva la voce di altri. Il risultato è stato ottimale: ottima la trascrizione, ottima la formattazione.
Nel secondo caso il risultato il risultato è arrivato soltanto a metà. La registrazione ha evidenziato anzitutto una buona capacità di comprensione di quanto il telecronista ed il commento tecnico si sono rimpallati per 46 minuti consecutivi. Mancando una conoscenza contestuale, tuttavia, i nomi sono stati generalmente confusi per altre parole ed il testo risulta pertanto inquinato da un buon numero di inesattezze dovute proprio al fatto che l’IA ascolta l’audio senza conoscerne il contesto, le finalità, l’utilità. Per effettuare una trascrizione di circa 46 minuti l’elaborazione è durata approssimativamente 4 minuti. Il problema è insorto nel momento in cui si è richiesto all’IA il riepilogo: dopo pochi secondi l’app va in crash e non viene restituito alcun risultato. Non conosciamo la causa del problema, ma probabilmente un eccesso di dati da elaborare e la relativa difficoltà di trarre indicazioni da un testo che è più che altro un elenco di informazioni prive di peso specifico.
Nel terzo caso si è trascritta una videocall professionale di circa 20 minuti. In questo caso la trascrizione è stata migliore rispetto al caso precedente e anche il riepilogo ha evidenziato una certa utilità, poiché in grado di catturare gli elementi cardinali della discussione avuta tra azienda e committente.
IA, un lavoro parziale
Il lavoro dell’IA sul fronte audio ci è parso insomma decisamente buono, purché la registrazione avvenga in un contesto “controllato”. Laddove le voci si sovrappongono o non siano sufficientemente scandite, il rischio di errori è chiaramente maggiore. Inoltre non bisogna attendersi una vera e propria traslitterazione dei significati, poiché quel che si scrive e quel che si dice seguono solitamente forme linguistiche molto differenti. Le distonie tra l’oralità e la scrittura si noteranno quindi tutte quando si parla a braccio e senza la piena consapevolezza del fatto che si è registrati (elemento che tende a far meglio elaborare le frasi, avvicinando inconsapevolmente l’oralità alla sintassi della scrittura).
Ma l’elemento che più può penalizzare il lavoro dell’IA è il peso del contesto nella discussione. Si immagini ad esempio due architetti che commentano un disegno, indicando “qui” e “là”, guardando la medesima planimetria o il medesimo cantiere: l’IA estrapola l’audio senza poter sapere in alcun modo ciò che il contesto sta riversando nella discussione, il che fa perdere di significato la registrazione e di utilità la trascrizione successiva. Esempio lampante è la registrazione della telecronaca della partita precedentemente citata: non conoscere la posizione della palla in campo o i nomi dei giocatori impedisce di comprendere quanto riferito dai parlanti. Il problema non è dell’IA, chiaramente, la quale non può avere tali informazioni per il semplice fatto che tali informazioni non sono disponibili (opera, infatti, esclusivamente sul file audio). Occorre pertanto avere piena coscienza dei giusti contesti entro cui traduzione e riepilogo del Samsung Galaxy S24 Ultra possono essere realmente utili. L’utilità potrebbe essere alta per una intervista, ad esempio, dove intervistatore e intervistato si alternano e dove entrambi cercano solitamente di usare termini chiari sviluppando un discorso logico. Molto meno utile è la registrazione di discussioni casuali, dove ci si sovrappone spesso e dove prossemia e mani gesticolanti tolgono significato alle parole per spostarlo sul linguaggio del corpo.
La trascrizione è utile?
Il servizio di trascrizione e riepilogo può quindi essere realmente utile nella vita reale? Vale la pena possedere un Galaxy S24 Ultra anche per questo motivo? Si tratta di un “plus” reale? La risposta è SI: può esserlo in molti casi. Può esserlo a livello professionale per registrare l’ordine di un cliente, per prendere appunti vocali propri, per registrare un intervento da sbobinare, per interviste e molte altre cose ancora. Non va semmai considerata come un’arma valida in ogni contesto, perché in certi casi può essere ben più utile prendere appunti a mano (ci penserà sempre l’IA a trasformare la grafia in testo) lasciando che siano le proprie orecchie e la propria esperienza a riepilogare i contenuti. Ma sapere di avere un’IA sempre a portata di mano, con la quale velocizzare e migliorare il proprio lavoro, è qualcosa che si paga da sé e che vale sicuramente la pena provare.