| Perché stare fermi quando si può stare immobili? |
| A dire la verità basterebbe carta e penna | |||||||
| Scritto da remote | |||||||
| Venerdì 16 Aprile 2010 09:51 | |||||||
|
Avrei dovuto parlarvi di Office, OpenOffice etc... L'idea è molto più vecchia di quanto si possa pensare, ma è solo da qualche anno (un paio a dire la verità), che i programmi di riconoscimento vocale hanno raggiunto una maturità tale da essere veramente produttivi.
La prima a pensarci ai tempi di Windows 98, fu IBM con il suo Voice Type che permetteva di dettare semplici comandi al PC, tipo apri finestra, chiudi file, spegni, e, a patto che le parole venissero pronunciate una alla volta, anche la dettatura di un testo. Un modo assolutamente innaturale di approcciarsi alla dettatura. E fu questa innaturalezza a decretarne l'insuccesso.
Sullo scenario software, Dragon, una software house minuscola rispetto al colosso IBM, smosse le acque con l'uscita del suo Naturally Speaking, in grado di permettere una dettatura fluida, e surclassando Voice Type. IBM non restò con le mani in mano e se ne uscì con Via Voice, che ebbe un notevole successo specialmente in ambito medico.
In effetti la "furbata" adottata allora dagli sviluppatori IBM, fu quella di dotare il software in questione di un sistema di riconoscimento basato fondamentalmente su vocabolari ristretti e molto specialistici, rivolgendosi, come sempre, ad una utenza business based.
Se ne avvantaggiarono le radiologie e le cardiologie di molti reparti retti da primari illuminati.
Schiere di professionisti abituati più ad usare gli occhi che le mani, al posto di una tastiera si ritrovarono un PC e un microfono, a cui dettare referti il più delle volte stereotipati, e quindi statisticamente e computazionalmente prevedibili.
La cosa si ripeté in studi notarili, studi legali, insomma in tutti quei posti dove esistesse una sorta di slang, e in cui la maggior parte della produzione scritta fosse in definitiva una continua iterazione delle stesse parole.
Lo scoglio maggiore era dovuto alla potenza di calcolo delle macchine di allora (parlo degli ultimi anni del secolo scorso), e veniva naturale ridurre al minimo le possibilità di errore restringendo il campo delle frasi utilizzate.
Anche Philips entrò nella singolar tenzone con FreeSpeech che ebbe un successo tale da indurla ad abbandonarne lo sviluppo nel 2000.
Per farla breve nel 2004 IBM capitolò e vendette il suo codice a Dragon che detiene attualmente la leadership del mercato consumer, senza per questo aver dimenticato quello business oriented.
Ci sono altri attori su questa scena (pensate ai risponditori automatici dei gestori telefonici che vi chiedono di dire ad alta voce le vostre scelte, nei loro oscuri e labirintici menù), ad esempio Loquendo ASR di Telecom (sì proprio la Telecom), ma parliamo di cifre inavvicinabili a noi mortali.
In ambiente Mac esiste MacSpeech Dictate, ultimamente acquisito anch'esso da Nuance la società che ora sviluppa e distribuisce Dragon Naturally Speaking.
Ma come cavolo funziona il riconoscimento vocale? E soprattutto come cacchio fa a riconoscere il parlato di persone diverse.
Io ho la erre moscia, come fa a capire "il caro ramarro sul carro raramente scarrozza rane tamarre" e a non sbagliare?
Wikipedia spiega che il riconoscimento vocale funziona così:
"Questi programmi funzionano con algoritmi adattativi di tipo statistico inferenziale, che ricostruiscono il linguaggio in base alla frequenza delle associazioni fra parole. Possiedono anche un vocabolario fonetico con le pronunce base di numerose parole nella lingua selezionata.
L'altra grande famiglia di sistemi per l'analisi del linguaggio utilizza un vocabolario costruito dai programmatori e dall'utente, non dal software, ad esempio tramite ontologie.
Il programma di riconoscimento vocale propriamente non deve "capire", ma trascrivere quanto detto.
Tuttavia, il possesso di un vocabolario non solo di singole parole, ma di loro associazioni tipiche, inserito dall'uomo o ricostruito con mezzi statistici, è di notevole aiuto a migliorare la qualità del riconoscimento. "
Capito? Io non molto, ma è normale, io sono un umanista. Comunque, il discorso è molto più semplice di quanto sembri.
Gli esseri umani riconoscono il parlato indipendentemente da chi sta parlando.
In presenza dell'uso di una stessa lingua, non abbiamo bisogno di imparare a capire ogni singola persona.
E il motivo è semplice, la capacità di elaborazione di un cervello umano non è minimamente paragonabile anche al più veloce dei processori; il che vuol dire che tutte le robe che spiega Wikipedia noi le facciamo miliardi di volte più velocemente, e a livello inconscio.
E inoltre noi usiamo "il contesto"; ossìa siamo in grado di anticipare le parole che verranno, a seconda del discorso che uno sta facendo.
Ed è l'uso statistico del contesto che permette a questi programmi di riconoscere il parlato.
Tanto che è più semplice per loro riconoscere una frase, anche complessa, piuttosto che una singola parola, anche se tra la pronuncia della frase e il suo apparire nella finestra di Word o di OpenOffice o di quello che volete, un po' di tempo ci passa (poco).
Naturalmente un computer deve "conoscere" un po' di cose prima di fare il suo sporco lavoro.
1) Deve capire se il vostro PC ha un entrata audio abbastanza pulita da non interferire
con le funzioni di riconoscimento.
2) Deve capire il vostro modo di parlare.
Il primo obiettivo lo stabilisce da solo e se non avete una entrata audio di buona qualità bisogna o dotarsi di una scheda audio esterna USB o cambiare computer, ma ai giorni nostri la grande maggioranza dei PC questa fase la supera senza problemi.
Per raggiungere il secondo obiettivo vi proporrà una serie di letture preliminari che poi elaborerà in un "modello" fonetico applicato al testo, in pratica una impronta vocale da sovrapporre a una serie di parole conosciute.
Più "allenerete" il programma, più il riconoscimento sarà accurato.
Infine vi chiederà di poter legger la vostra posta in uscita e i vostri documenti facendosi un'idea di come scrivete, di quali parole usate più spesso, di come costruite le frasi.
Avrete la possibilità di aggiungere parole al vocabolario base delle parole riconosciute, comandi per eseguire task particolari al vostro PC, insomma, entro un tempo ragionevole userete sempre di più la voce e sempre di meno la tastiera.
Chiaro, non è un programma gratuito, e non esiste per linux (non gira sotto Wine mi spiace), ma la versione entry level è abbordabile ai più (ad oggi 49 euro).
Pensate che dalla versione Prreferred, Dragon Naturally Speaking permette di elaborare files provenienti da registratori vocali digitali.
E questo vuol dire che ve ne andate in giro col registratore vocale, dettate il vostro capolavoro, poi a casa scaricate il tutto sul PC e Dragon, da buon segretario, ve lo sbobina.
Maggiori informazioni sui costi ed altro li trovate qui:
Dragon : Info: tinyurl.com/y7tamhp
Shop: tinyurl.com/y6aopzr
MacSpeech : Info - Shop: tinyurl.com/m6squ2
Questo testo è stato dettato su Dragon Naturally Speaking 10 Standard, con un headset Sennheiser da 30 euro attaccato alle uscite standard di un portatile di vecchia generazione con Windows XP.
Avevo un po' il naso chiuso.
La percentuale di errore è stata risibile, nonostante l'uso di parole non proprie di un vocabolario italiano.
Nel frattempo, giravo i pollici.
Alla prossima! CONDIVIDI QUESTA PAGINA!
Powered by !JoomlaComment 3.26
3.26 Copyright (C) 2008 Compojoom.com / Copyright (C) 2007 Alain Georgette / Copyright (C) 2006 Frantisek Hliva. All rights reserved." |
Open office è molto valido. Funzio...
OpenOffice non puoi usarlo anche su a...
Io sono di quelli che sta per passare...
Io...sempre in mezzo alle finestre so...
Eheh. Per me ho scelto i "pinguin...