01 aprile 2009

Speech to text e indicizzazione audio

tecnologia speech-to-textNel futuro degli algoritmi di Google ci sarà posto per la tecnologia speech-to-text o è solo uno scenario di fantascienza?
Si parla molto spesso di text-to-speech (da non confondere) in quanto si tratta di qualcosa che si è già affermato nel tempo, anche al di fuori di Internet, soprattutto perché riguarda problemi di interazione e accessibilità di cui soffrono ad esempio persone affette da mutismo, ma che non hanno nulla a che vedere con tematiche SEO.
Se invece si affronta la tecnologia speech-to-text, detta anche speech recognition (riconoscimento del parlato) o computer speech recognition, le implicazioni sono più complesse e rilevanti.

Lo speech-to-text può essere inteso come una conversione automatica di una fonte audio, estrapolata da un video, da una chiamata, o da qualsiasi prodotto di registrazioni sonore, in una forma scritta, con tutte le possibili conseguenze.
Ma quali sarebbero queste conseguenze?
Escludendo il tema popolare delle intercettazioni che con questo sistema accrescono in parte la loro efficacia permettendo di individuare subito i contenuti sensibili, le potenzialità sono più evidenti in relazione al futuro degli algoritmi di google.

Sappiamo che per quanto riguarda il linguaggio flash le soluzioni per il riconoscimento dei contenuti da parte dei motori di ricerca sono piuttosto al ribasso quando non assenti; sappiamo che lo stesso problema esiste per le immagini che possono sfruttare solo il tag alt eliminando la possibilità di creare una scala di valore se non attraverso la valutazione della pagina all'interno della quale l'immagine è inserita; siamo anche a conoscenza di problemi particolari quale quello dell'utilizzo di font più ricercati non supportati da tutti i computer, usati per questo ad immagine, che però possono sfruttare soluzioni tipo typeface.
Soluzioni di sopravvivenza nella maggior parte dei casi.

Paradossalmente il materiale video potrebbe essere un vaso di Pandora in prospettiva e così le soluzioni speech-to-text. Google sta affrontando il tema sotto il progetto Google Audio Indexing, utilizzato in fase sperimentale alle ultime elezioni presidenziali americane.
Con la crescita costante delle capacità di calcolo e di archiviazione degli strumenti informatici non è in fondo impensabile che nel giro di pochi anni i geni smanettatori di Mountain View implementino o integrino un sistema per il riconoscimento automatico dei contenuti audio del video, potendo convertire il tutto in testi e adattando quindi le stesse regole per il contenuto testuale a questo tipo di materiali.

Nessun commento: