604 Shares 9936 views

Sintetizzatori di discorso con voci russe. Il miglior sintetizzatore vocale. Come utilizzare un sintetizzatore vocale?

Oggi i sintetizzatori vocali, utilizzati in sistemi informatici stazionari o dispositivi mobili, non sembrano più insoliti. Le tecnologie hanno fatto un passo avanti e hanno permesso di riprodurre la voce umana. Come funziona, dove viene applicato, quale è il miglior sintetizzatore vocale e quali potenziali problemi che un utente può incontrare, vedi sotto.

Quali sono i sintetizzatori vocali e dove vengono utilizzati?

I sintetizzatori vocali sono programmi speciali costituiti da diversi moduli, che consentono di tradurre digitati sul testo della tastiera in un discorso umano comune sotto forma di colonna sonora.

Sarebbe ingenuo supporre che le biblioteche di accompagnamento contengano assolutamente tutte le parole o le possibili frasi registrate negli studi di persone reali. È solo fisicamente impossibile. Inoltre, le librerie di frasi sarebbero così grandi che non sarebbe semplicemente possibile installarle anche su dischi rigidi moderni ad alta capacità, per non parlare dei dispositivi mobili.

Per questo è stata sviluppata una tecnologia chiamata Text-to-Speech.

I sintetizzatori vocali più diffusi sono in diverse aree, attribuibili allo studio indipendente delle lingue straniere (i programmi hanno spesso supporto in 50 lingue o più), il codice deve ascoltare la pronuncia della parola, ascoltare i testi dei libri anziché leggere, creare parti vocali e vocali in musica , Il loro utilizzo da parte delle persone con disabilità, l'emissione di query di ricerca in forma di parole e frasi espresse, ecc.

Varietà di programmi

A seconda del campo di applicazione, tutti i programmi possono essere suddivisi in due tipi principali: standard, conversione diretta tra testo e discorso e moduli vocali o vocali utilizzati nelle applicazioni musicali.

Per una comprensione più completa dell'immagine, esaminiamo entrambe le classi, ma maggiore enfasi sarà posta sui sintetizzatori del linguaggio nel loro uso immediato.

Pro e contro delle più semplici applicazioni vocali

Per quanto riguarda i vantaggi e gli svantaggi di programmi di questo tipo, in primo luogo considerare tutti gli stessi svantaggi.

Innanzitutto, è necessario capire chiaramente che il computer – è un computer, che in questa fase di sviluppo il discorso umano può sintetizzarsi molto approssimativamente. Nei programmi più semplici, spesso ci sono problemi con lo stress di parole, la qualità del suono ridotto e nei dispositivi mobili – un aumento del consumo energetico e talvolta un caricamento non autorizzato di moduli vocali.

Ma ci sono anche molti vantaggi, perché molte informazioni audio sono percepite molto meglio di quelle visive. La comodità è evidente.

Come utilizzare un sintetizzatore vocale?

Ora poche parole sui principi fondamentali di usare programmi di questo tipo. È possibile installare qualsiasi tipo di sintetizzatore vocale senza alcun problema. Nei sistemi fissi, viene utilizzato un programma di installazione standard, dove l'attività principale sarà quella di selezionare i moduli di lingua supportati. Per i dispositivi mobili, il file di installazione può essere scaricato da un archivio ufficiale o un repository come Google Play o AppStore, dopo di che l'applicazione viene installata automaticamente.

In linea di principio, quando si avvia per la prima volta, non è necessario eseguire altre impostazioni diverse dall'impostazione della lingua predefinita. È vero, a volte il programma può offrire la scelta della qualità del suono (nella versione standard, applicata ovunque, la frequenza di campionamento è 4410 Hz, la profondità è 16 bit e il bitrate è 128 kbps). Nei dispositivi mobili, queste cifre sono più basse. Tuttavia, una certa voce è presa come base. Utilizzando un modello di pronuncia standard applicando filtri e equalizzatori si ottiene il suono di un solo timbro.

In uso, è possibile scegliere diverse opzioni per tradurre il testo: inserire manualmente il testo, segnando già testo dal file, integrandosi in altre applicazioni (ad esempio, browser web) con l'attivazione dell'output dei risultati di ricerca o la lettura del contenuto di testo nelle pagine online. Basta scegliere la variante necessaria di azioni, lingua e voce, con la quale tutto questo sarà pronunciato. Molti programmi hanno diverse varietà di voci: sia maschili che femminili. Per attivare il processo di riproduzione, viene normalmente utilizzato il pulsante di avvio.

Se si parla di come disattivare il sintetizzatore vocale, ci possono essere diverse opzioni. Nel caso più semplice, il pulsante di arresto viene utilizzato nel programma stesso. In caso di integrazione nel browser, la disattivazione viene eseguita nelle impostazioni di estensione o dalla rimozione completa del plug-in. Ma con i dispositivi mobili, nonostante un arresto diretto, potrebbero esserci problemi che verranno discussi separatamente.

Nei programmi musicali, le impostazioni e l'input di testo sono molto più difficili. Ad esempio, FL Studio dispone di un proprio modulo vocale in cui è possibile selezionare diversi tipi di voci, modificare le impostazioni dei toni, la velocità di riproduzione, ecc. Per sottolineare le sollecitazioni prima della sillaba, utilizzare il simbolo "_". Ma un tale sintetizzatore è adatto solo per la creazione di voci robotiche.

Ma il pacchetto Yamaha Vocaloid si riferisce a programmi di tipo professionale. La tecnologia Text-to-Speech è realizzata qui nella misura più completa. Nelle impostazioni, oltre ai parametri standard, è possibile impostare l'articolazione, glissando, utilizzare librerie con voci di esecutori professionali, comporre parole e frasi, adattarle alle note e un sacco di altri. Non sorprende che il pacchetto con un solo vocale richiede circa 4 GB o più nella distribuzione dell'installazione e dopo aver disimballato è due o tre volte più grande.

Sintetizzatori di discorso con voci russi: una breve panoramica dei più popolari

Ma torniamo alle applicazioni più semplici e consideriamo quelle più popolari.

RHVoice – secondo la maggior parte degli esperti, il miglior sintetizzatore vocale, che è lo sviluppo russo della paternità di Olga Yakovleva. Nella versione standard sono disponibili tre voci (Alexander, Irina, Elena). Le impostazioni sono semplici. E l'applicazione stessa può essere utilizzata come un programma autonomo compatibile con SAPI5 e come modulo di schermo.

Acapela è un'applicazione molto interessante, la cui caratteristica principale è la voce quasi perfetta che agisce in più di 30 lingue del mondo. Nella versione regolare, tuttavia, è disponibile solo una voce (Alain).

Vocalizer è una potente applicazione con la voce femminile di Milena. Molto spesso questo programma viene utilizzato nei call center. Ci sono molte impostazioni per impostare l'accento, il volume, la velocità di lettura e l'installazione di dizionari aggiuntivi. La differenza principale è che il motore vocale può essere integrato in programmi come Cool Reader, Moon + Reader Pro o Full Screen Caller ID.

Festival è una potente utility di sintesi vocale e riconoscimento per Linux e Mac OS X. L'applicazione viene fornita con open source e, oltre ai pacchetti linguistici standard, supporta anche finlandesi e hindi.

ESpeak è un'applicazione vocale che supporta più di 50 lingue. Lo svantaggio principale è la conservazione di file con sintesi vocale esclusivamente in formato WAV, che richiede molto spazio. Ma il programma è cross-platform e può essere utilizzato anche nei sistemi mobili.

Problemi con il sintetizzatore vocale in Android di Google

Quando si installa il sintetizzatore vocale "nativo" da Google, gli utenti si lamentano costantemente di includere spontaneamente il caricamento di moduli di linguaggio aggiuntivi, che non solo richiedono un tempo sufficiente, ma consuma anche il traffico.

Sbarazzarsi di questo in sistemi Android può essere molto semplice. Per effettuare questa operazione, utilizzare il menu delle impostazioni, quindi andare alla sezione Lingua e voce, selezionare la ricerca vocale e fare clic sulla croce (disconnettere) sull'opzione di riconoscimento vocale offline. Inoltre, si consiglia di pulire la cache dell'applicazione e riavviare il dispositivo. A volte può essere necessario disabilitare le notifiche nell'applicazione stessa.

Cosa alla fine?

Riassumendo, possiamo dire che nella maggior parte dei casi gli utenti ordinari verranno avvicinati dai programmi più semplici. In tutte le valutazioni, RHVoice è in testa. Ma per i musicisti che vogliono raggiungere una voce naturale, in modo che la differenza tra la sintesi live e la sintesi del computer non sia sentita per orecchio, è meglio preferire programmi come Vocaloid, specialmente perché hanno molte librerie vocali aggiuntive e le impostazioni hanno tante possibilità che le primitive Le applicazioni, come dicono, e non si trovano fianco a fianco.