La síntesis de fala ye la producción artificial del fala. El sistema computarizado que ye usáu con esti propósitu ye llamáu ordenador de fala o sintetizador de voz y puede ser implementáu en productos software o hardware. Un sistema text-to-speech (TTS) convierte'l llinguaxe de testu normal en fala; otros sistemes recreen la representación simbólica llingüística como trescripciones fonétiques en fala.[1]

Stephen Hawking ye una de les persones más famoses n'emplegar un sintetizador de voz pa comunicase

La fala sintetizada pue ser creada al traviés de la concatenación de fragmentos de fala grabaos que son almacenaos nuna base de datos. Los sistemes difieren nel tamañu de les unidaes de fala almacenaes; un sistema qu'almacena fonos y difonos dexa un mayor rangu de sonido pero escarez de claridá. Pa usos específicos, el tamañu del almacenamientu de pallabres completes o oraciones dexa una mayor calidá d'audiu. De manera alternativa, un sintetizador puede incorporar un modelu de tracto vocal o otres carauterístiques de la voz humana pa recrear dafechu una voz "sintética".[2]

La calidá d'un sintetizador de voz xulgar pola semeyanza que tenga cola voz humana y la so habilidá pa ser entendíu con claridá. Un programa de conversión de testu en fala intelixible dexa que les persones con discapacidaes visuales o dificultaes pa lleer puedan escuchar testos nun ordenador. Munchos sistemes operativos tienen sintetizadores de voz integraos dende principios de los noventa.

Diagrama d'un sistema TTS típicu

Un sistema o "motor" de testu a fala (TTS) ta compuestu de dos partes:[3] un front-end y back-end. El front-end tien dos tarea principales. Primero, convertir el testu con calteres, númberos, símbolos y abreviaciones nel so equivalente en pallabres escrites. Esti procesu ye llamáu como "normalización del testu", "pre-procesamientu" o "tokenización", darréu'l front-end asigna una trescripción fonética a cada pallabra, marca y estrema el testu n'unidaes prosódiques, como frases, clauses y oraciones. El procesu d'asignar trescripciones fonétiques a les pallabres ye llamáu conversión "testu a fonema" o "grafema a fonema". La información de trescripciones fonétiques o prosódiques preparen la información de la representación simbólica llingüística que ye la resultancia del front-end. El back-end, comúnmente referíu como'l "sintetizador", convierte la representación simbólica llingüística en soníu. En dellos sistemes, esta parte inclúi'l cómputu de "intención prosódica" (tonu del perfil, duración de los fonemes),[4] el cual ye implementáu na voz de salida.

Historia

editar

Primero que el procesamiento de señal electrónicu fuera inventáu, hubo quien intentaron construyir máquines p'asonsañar la fala humana. Dalgunes de les primeres lleendes de la esistencia de los "Brazen Heads" arreyaron a Silvestre II (d. 1003 AD), Alberto Magno (1198–1280) y Roger Bacon (1214–1294).

En 1779 el científicu danés Christian Kratzenstein, mientres trabayaba en Academia de Ciencies de Rusia, construyó modelos del tracto vocal humanu que podíen reproducir los soníos de los cinco vocales (en notación el d'Alfabetu Fonéticu Internacional pal inglés, son [aː], [yː], [iː], [oː] y [oː]).[5] Esto foi siguíu pola "Wolfgang von Kempelen's Speaking Machine" operada por fuelles fecha por Wolfgang von Kempelen de Bratislava, Hungría, descrita nun testu en 1791.[6] Esta máquina integró modelos de llabios y llingua, dexando producir consonantes, según vocales. En 1837 Charles Wheatstone produció un "máquina parlante" basada nel diseñu de Von Kempelen, y en 1857, M. Faber construyó la máquina "Euphonia". El diseñu de Wheatstone foi emplegáu por Paget en 1923.[7]

Na década de los trenta, los llaboratorios Bell desenvolvieron el vocoder, que automáticamente analizaba la fala al traviés de la so nota fundamental y resonancies. Del so trabayu col vocoder, Homer Dudley desenvolvió un sintetizador operáu por un tecláu llamáu The Voder, que foi exhibíu na New York World's Fair de 1939.[8]

El "Pattern playback" foi construyíu pol Dr. Franklin S. Cooper y los sos colegues nos llaboratorios Haskins a finales de los cuarenta y rematáu nos cincuenta. Hubo delles versiones d'esti dispositivu de hardware, pero solo una esiste. La máquina convierte les imáxenes de patrones acústicos en fala de la manera en forma d'una espectrograma a soníu. Usando esti dispositivu, Alvin Liberman y los sos colegues llograron afayar indicadores acústicos pa la perceición de segmentos fonéticos (vocales y consonantes).[9]

Los sistemes dominantes nos ochentas y noventas yeren el sistema DECtalk, basáu nel trabayu de Dennis Klatt en MIT,[10] y el sistema de los llaboratorios Bell;[11] que dempués se convertiría nun de los primeros sistemes multi-llinguaxes independientes, faciendo un usu estensivu de los métodos de procesamientu de llinguaxes naturales.

Los primeres sintetizadores de fala teníen un soníu robóticu y teníen poca inteligibilidad. La calidá de la fala sintetizada foi ameyorada, pero l'audiu de salida de la síntesis de fala contemporánea entá ye estremable de la fala humana.

Por cuenta de la proporción de costu-rendimientu, los sintetizadores de fala convirtiéronse cada vez más baratos y accesibles pa les persones, más xente va ser beneficiada pol usu de programes texto-fala.[12]

Dispositivos electrónicos

editar
 
L'ordenador y el sintetizador de voz usáu por Stephen Hawking en 1999

Los primeros sistemes d'ordenador basaos na síntesis de voz fueron creaos nos cincuenta. El primer sistema xeneral d'inglés de testu-fala foi desenvueltu por Noriko Umeda et al. en 1968 en Llaboratoriu Electrotecnico en Xapón.[13] En 1961, el físicu John Larry Kelly, Jr y el so colega Louis Gerstman[14] usaron un ordenador IBM 704 pa sintetizar la voz, un eventu importante na historia de los llaboratorios Bell. El sintetizador de voz de Kelly (vocoder) reprodució'l cantar "Daisy Bell" col acompañamientu musical de Max Mathews. De casualidá, Arthur C. Clarke taba visitando al so amigu y colega John Pierce nos llaboratorios Bell en Murray Hill. Clarke taba tan impresionáu pola demostración que la usó na escena clímax pa la so novela 2001: A Space Odyssey,[15] onde l'ordenador HAL 9000 canta'l mesmu cantar cuando pon a dormir al astronauta David Bowman.[16] Pese al ésitu de la síntesis de voz electrónica pura, entá se continua investigando sobre los sintetizadores de voz mecánicos.[17]

Dispositivos móviles electrónicos incluyendo síntesis de voz empezaron a apaecer nos setentas. Unos de los primeres foi la calculadora pa ciegos Speech+ de Telesensory Systems Inc. (TSI) en 1976.[18][19] Otros dispositivos fueron producíos con fines educativos como'l "Speak & Spell", creáu por Texas Instruments en 1978.[20] Fidelity llanzó una versión parlante del so axedrez electrónicu en 1979.[21] El primer videoxuegu n'incluyir la síntesis de voz foi l'arcade shoot 'em up, Stratovox, de Sunsoft.[22] Otru de los primeros exemplos ye la versión arcade de Berzerk del mesmu añu. El primer xuegu electrónicu multixugador n'usar la síntesis de voz foi "Milton" de Milton Bradley Company,[23] la cual produció'l dispositivu en 1980.

Teunoloxíes del sintetizador

editar

Les cualidaes más importantes de los sistemes de síntesis de voz son la "naturalidá" y la "inteligibilidad". La naturalidá describe qué tan cerca l'audiu de salida esta de la voz humana, ente que la inteligibilidad ye'l grau d'entendimientu que tien l'audiu. El sintetizador de voz ideal ye tanto natural como intelixible. Los sistemes de síntesis de voz usualmente traten de maximizar estes carauterístiques.[24]

Los dos teunoloxíes primaries que xeneren formes d'ondes sintétiques de voz son la "síntesis concatenativa" y la "síntesis de formates". Cada teunoloxía tien les sos fortaleces y debilidaes, dependiendo del so usu podrá determinase qu'acercamientu va ser usáu.[25]

Síntesis concatenativa

editar

La síntesis concatenativa ta basada na concatenación (o unión) de segmentos d'una voz grabada. Xeneralmente, la síntesis concatenativa produz el soníu más natural d'una voz sintetizada. Sicasí, les diferencies ente les variaciones naturales na fala y la naturaleza de les téuniques automatizadas pa segmentación de formes d'onda delles vegaes resulta en glitches oyibles nel audiu de salida. Esisten trés sub-tipos de síntesis concatenaitva.

Síntesis de seleición d'unidaes

editar

La síntesis de seleición d'unidaes emplega bases de datos de voces grabaes. Mientres la creación de la base de datos, cada enunciáu grabáu ye sementado en: fonos, difonos, medios fonos, sílabes, morfemes, pallabres, frases y oraciones. De normal la división en segmentos ye fecha con ayuda d'un sistema de reconocencia de la fala modificáu, usando representaciones visuales como la forma d'onda y un espectrograma.[26] Un índiz de les unidaes de voz na base de datos ye creáu basáu na segmentación y en parámetros acústicos como la frecuencia fundamental (tonu), duración, posición de la sílaba y fonemes cercanos. Mientres el tiempu d'execución, l'enunciáu deseyáu ye creáu determinando la mayor cadena posible d'unidaes (seleición d'unidaes). Esti procesu ye lleváu a cabu usando un árbol de decisión.

La seleición d'unidaes dexa una naturalidá mayor por cuenta de qu'emplega un menor procesamientu dixital de señales (DSP) na fala grabada. El procesamientu dixital de señales usualmente causa que'l soníu de la voz nun sía tan natural, anque dellos sistemes empleguen una pequeña cantidá de procesamientu de la señal nel puntu de la concatenación p'afaer la forma d'onda. L'audiu de salida de la meyor seleición d'unidaes usualmente ye indistinguible de les voces humanes reales, especialmente en contestos con sistemes TTS. Sicasí, un mayor naturalidá rique de bases de datos de seleición d'unidaes bien grandes, en dellos sistemes aportando a de gigabytes de datos grabaos, representando docenes d'hores de voz.[27] Tamién los algoritmos de seleición d'unidaes son conocíos por escoyer segmentos d'un llugar menos ideal (ej. les pallabres pequeñes nun son clares) entá cuando una meyor opción esiste na base de datos.[28] Apocayá, los investigadores han propuestos dellos métodos automatizados pa detectar segmentos non naturales nos sistemes de síntesis de seleición d'unidaes.[29]

Síntesis de difonos

editar

La síntesis de difonos usa una base de datos de voz mínima que contién tolos difonos (transiciones ente soníos) qu'asoceden nel llinguaxe. El númberu de difonos depende de la fonotáctica del llinguaxe: por casu, nel idioma español esisten alredor de 800 difonos y nel alemán 2500. Na síntesis de difonos, solo un exemplu de cada difono ye almacenáu na base de datos de voces. Nel tiempu d'execución, la prosodia oxetivos d'una oración ye superpuesta nestes unidaes mínimes al traviés de téuniques de procesamiento dixital de señal como la codificación predictiva llinial, PSOLA[30] o MBROLA[31] o téuniques más recién como la codificación del tonu nel dominiu de la fonte emplegáu la tresformada de cosenu discreta.[32] La síntesis de difonos sufre de glitches soníos de la síntesis concatenativa y el soníu de naturaleza robótica de la síntesis de formantes y tien poques ventayes sobre cualesquier otru acercamientu más que'l so tamañu. El so usu n'aplicaciones comerciales menguó, anque sigue siendo investigada debíu'l so númberu d'aplicaciones en software gratuitu.

Síntesis de dominiu específicu

editar

La síntesis de dominiu específicu concatena pallabres y frases pre-grabaes pa crear enunciaos completos. Ye usada n'aplicaciones onde la variedá de los testos del sistemes esta llindada a una salida d'audiu nun dominiu particular, como los anuncios nun calendariu de tránsitu o reportes del clima.[33] La teunolóxica ye bien simple d'implementar y foi emplegada de manera comercial per dellos años en dispositivos como calculadores o relós parlantes. El nivel de naturalidá d'estos sistemes puede ser bien alto por cuenta de que la variedá los tipos d'oraciones esta llindada y llogren tar mui cerca de la prosodia y entonación de les grabaciones orixinales.

Por cuenta de que estos sistemes tán llindaos poles pallabres y frases nes sos bases de datos, nun son emplegaos pa propósitos xenerales y solo pueden sintetizar combinaciones de pallabres y frases a los que fueron programaos. L'adherencia de les pallabres cola naturalidá del llinguaxe puede causar problemes, nun siendo que les variaciones sían tomada en cuenta. Por casu nos dialeutos non róticos del inglés les pallabres "r" como "clear" /ˈklɪə/ usualmente son pronunciaes cuando la siguiente pallabra tien un vocal na so primer lletra (ej. "clear out" pronúnciase como /ˌklɪəɾˈʌʊt/). Como nel idioma francés, delles de les postreres consonantes nun son silencioses si son siguíes por una pallabra qu'empiece con una vocal, l'efectu ye llamáu Liaison. Esta alternación nun puede ser reproducida por sistema simple de concatenación, que rique una complexa gramática sensible al contestu adicional.

Síntesis de formantes

editar

La síntesis de formates nun utiliza muestres de voz humana mientres el tiempu d'execución. Nel so llugar, l'audiu de salida ye creáu a partir de la síntesis aditiva y un modelu acústicu (síntesis por aciu modeláu físicu).[34] Parámetros como la frecuencia fundamental, fonación y niveles de ruiu son variaos al traviés del tiempu pa crear una forma d'onda d'una voz artificial. Esti metíu dalguna vegaes ye llamáu síntesis basa en regles; sicasí, esisten sistemes de concatenación que tamién tienen componentes basaos en regles.

Dellos sistemes basaos na teunoloxía de síntesis de formantes xeneren una voz artificial con soníu robóticu que nun podría ser confundida cola voz humana. Sicasí, la naturalidá máxima nun ye l'oxetivu de los sistemes de síntesis de voz, los sistemes de síntesis de formantes tienen ventayes sobre otros sistemes de concatenación. La fala al traviés de la síntesis de formantes pue ser intelixible, inclusive a grandes velocidaes, evitando glitches acústicos comunes nos sistemes de concatenación. La fala sintetizada a grandes velocidaes ye usada por persones con dificultaes visuales pa navegar de manera más fluyida n'ordenadores usando un llector de pantalla. Los sintetizadores de formantes son programes pequeños en comparanza a los sistemes de concatenación por cuenta de que nun tienen una base de datos de muestres de voz. Pueden ser emplegaos en sistemes embedidos onde la memoria y el poder del microprocesador son llindaos. Por cuenta de que los sistemes basaos en formantes tienen completu control sobre tolos aspeutos del audiu de salida, una amplia variedá de prosodies y entonaciones pueden ser xeneraes, pa tresmitir non solo entrugues o declaraciones, sinón una variedá d'emociones y entonaciones na voz.

Dellos exemplos de síntesis de formantes, non en tiempu real pero con gran precisión nel control de la entonación, atópase en trabayos de finales de los setenta por Texas Instruments col xuguete "Speak & Spell" y a finales de los ochentas en arcades de la compañía SEGA[35] y otros xuegos d'arcade d'Atari[36] usando chips TMS5220 LPC de Texas Instrument. Crear la entonación apropiada yera difícil y los resultaos teníen que ser empataos en tiempu real cola interfaces texto-voz.[37]

Síntesis articulatoria

editar

La síntesis articulatoria referir a les téuniques computacionales pa síntesis de la fala basaes nos modelos del tracto vocal humanu y los procesos d'articulación qu'asoceden. El primer sintetizador articulatoriu frecuentemente usáu n'esperimentos de llaboratoriu foi desenvueltu nos llaboratorios Haskins a mediaos de los setenta por Philip Rubin, Tom Baer y Paul Mermelstein. Esti sintetizador, conocíu como ASY, taba basáu en modelos del tracto vocal desenvueltu nos llaboratorios Bell nos sesentas y setentas por Paul Mermelstein, Cecil Coker y los sos colegues.

Apocayá, los modelos de síntesis articulatoria nun fueren incorporaos en sistemes de síntesis de voz comerciales. Una esceición notable ye'l sistema basáu en NeXT, orixinalmente desenvueltu y puestu a la venta por Trillium Sound Research, una división de la compañía de la Universidá de Calgary, onde enforma de la investigación foi llevada a cabu. Siguiente a la desapaición de NeXT (empecipiada por Steve Jobs a finales de la década de los ochenta y fundiera con Apple Computer en 1997), el software Trillium foi publicáu baxu GNU General Public License, col so trabayu siguiendo como gnuspeech. El sistema, puestu a la venta en 1994, dexa una conversión de testu-fala basada nuna completa articulación usando una guía d'ondes o una llinia de tresmisión análoga de la voz humana y conductos nasales controlaos pol "modelu distintivu de rexón" de Carré.

Síntesis basada en modelos HMM

editar

La síntesis basada en HMM ye un métodu de síntesis basáu en modelos ocultos de Márkov, tamién llamada síntesis estadística paramédica. Nesti sistema, l'espectru de frecuencies (tracto vocal), la frecuencia fundamental (fonte de la voz) y la duración (prosodia) de la fala son modelaos de manera simultánea por HMM. Les formes d'onda de la fala son xenerada polos HMM basaos nun criteriu máxima verosimilitud.[38]

Síntesis d'ondes sinusoidales

editar

La síntesis d'ondes sinusoidales ye una téunica pa síntesis de voz al traviés del remplazo de formates (principales bandes d'enerxía) con tonos puros.[39]

Desafíos

editar

Desafíos de la normalización de testos

editar

El procesu de normalización de testos escasamente ye direutu. Los testos tán llenos de heteronomías, númberos y abreviaciones que riquen d'una espansión nuna representación fonética. Hai munches pallabres n'inglés que son pronunciaes de manera distinta basaes nel so contestu. Por casu, "My latest project is to learn how to better project my voice" n'inglés la pallabra "project" contién dos pronunciaciones.

La mayoría de los sistemes de testu-fala (TTS) nun xeneren representaciones semántiques de los testos d'entrada, polo que los sos procesos pueden resultar erróneos, con poco entendimientu y computacionalmente inefectivos. Como resultáu delles téuniques heurístiques son usaes pa predicir la manera apropiada de desambiguar homografíes como esaminar les pallabres cercanes usando estadístiques alrodiu de la frecuencia d'usu.

Apocayá los sistemes TTS empezaron a usar HMM pa xenerar "etiquetaos gramaticales" p'ayudar a desambiguar les homografíes. Esta téunica ye hasta ciertu puntu efectiva pa dellos casos sobre como "read" tien de ser pronunciáu como "rede" dando a entender una conxugación en pasáu. Les tases d'errores típicos usando HMM d'esta manera tán per debaxo del cinco per cientu. Estes téuniques tamién funcionen pa la mayoría de los llinguaxes europeos, anque l'entrenamientu nel corpus llingüísticu ye frecuentemente difícil nestos llinguaxes.

Decidir como convertir númberos ye otru problema que los sistemes TTS enfrenten. Ye un desafíu simple de programación convertir un númberu a pallabres (a lo menos nel idioma inglés), como "1325" convertir en "mil trescientos venticincos". Sicasí, los númberu asoceden en distintos contestos; "1325" puede lleese como "unu trés dos cincos", "trelce venticinco" o "unu trescientos venticincos". Un sistema TTS usualmente puede inferir como espandir un númberu basáu nes pallabres cercanos, númberu y la puntuación, delles vegaes el sistema dexa una manera d'especificar el contestu si ye ambiguu.[40] Los númberos romanos pueden ser lleíos de distintes maneres dependiendo'l contestu.

De manera similar, les abreviaciones pueden resultar ambigues. Por casu, la abreviación "in" de "pulgues" puede ser estremada pola pallabra "in" (en) o na direición n'inglés "12 St John St." usa la mesma abreviación para "street" (cai) y "saint" (San). Los sistemes TTS con front ends intelixentes pueden realizar predicciones correutes alrodiu de l'ambigüedá de les abreviaciones, ente qu'otros ufierten el mesmu resultáu en tolos casos, dando resultaos ensin sentíu (y dacuando risibles) como "co-operation" interpretáu como "company operation".

Desafíos de testu a fonemes

editar

Los sistemes de síntesis de voz empleguen dos acercamientos básicos pa determinar la pronunciación d'una pallabra basaos na so escritura, un procesu'l cual ye comúnmente llamáu testu-fonema o conversión de grafema a fonema (fonema ye'l términu usáu na llingüística pa describir los soníos distintivos nel llinguaxe). L'acercamientu más simple de la conversión testu-fonema ye al traviés de diccionarios, onde un diccionariu ampliu que contién toles pallabres d'un llinguaxe y la so correuta pronunciación almacenada pol programa. Determinar la correuta pronunciación de cada pallabra ye cuestión de verificar cada pallabra nel diccionariu y remplazarla pola pronunciación especificáu pol diccionariu. Otru acercamientu ye al traviés de les regles, onde les regles de pronunciación son aplicaes a les pallabres pa determinar la correuta pronunciación basándose na so escritura.

Cada acercamientu tien les sos ventayes y desventaxes. L'acercamientu basáu nun diccionariu ye rápidu y precisu, pero falla dafechu cuando una pallabra nun s'atopa n'este. De manera que el diccionariu crez, tamién lo fai'l tamañu memoria que rique la síntesis del sistema. Per otra parte, l'acercamientu basáu en regles trabaya con cualquier tipu de testu d'entrada, pero la complexidá de les regles crez de manera sustancial cuando'l sistema detecta pronunciaciones o escritures irregulares. (Considere la pallabra n'inglés "of", que ye la única onde se pronuncia la "f"). Como resultancia, casi tolos sistemes de síntesis de voz usen una combinación d'estos acercamientos.

Llinguaxes con ortografía fonética tienen un sistema d'escritura regular y la predicción de la pronunciación de les pallabres basada na so ortografía ye esitosa. Los sistemes de síntesis pa llinguaxes onde ye común l'usu del métodu de regles de manera estensiva, recurriendo a diccionarios pa delles pallabres, como nomes estranxeros y préstamos llingüísticos, que les sos traducciones nun son obvies a partir de la so escritura. Per otra parte, los sistemes de síntesis de voz pa llinguaxes como l'idioma inglés, que tien sistemes d'escritura desaxeradamente irregular, tienden a recurrir a diccionarios y usar métodos de regles solo pa pallabres inusuales o que nun tán nos sos diccionarios.

Evaluación de desafíos

editar

La consistente evaluación de los sistemes de síntesis de voz puede resultar difícil por cuenta de la falta d'aceptación un criteriu d'evaluación universal. Distintes organizaciones usen comúnmente distintos datos de voz. La calidá de los sistemes de síntesis de voz tamién depende del grau calidable na téunica de producción (que puede arreyar grabaciones dixitales o analóxiques) y la so facilidá pa reproducir la voz. La evaluación de los sistemes de síntesis de voz tuvo comprometida poles diferencies ente les téuniques de producción y reproducción.

Dende 2005, sicasí, dellos investigadores empezaron hai evaluar la síntesis de voz usando una fueya de datos de voz de mancomún.[41]

Prosodia y conteníu emocional

editar

Un estudiu na revista Speech Communication por Amy Drahota y los sos colegues na Universidá de Portsmouth en Reinu Xuníu, reporta que les persones qu'escuchen les grabaciones de voz pueden determinar, en distintos niveles, si l'emisor taba sonriendo o non.[42][43][44] Suxirióse que la identificación de les carauterístiques vocales qu'amuesen un conteníu emocional pueden ayudar a faer el soníu de la síntesis de voz más natural. Una de les cuestiones rellacionaes ye'l tonu de les oraciones, dependiendo de cuando ye afirmativu, interrogativu o una oración de exclamación. Una de les téuniques pal cambéu de tonu[45] usa la tresformada de cosenu discreta nel dominiu de la fonte (residuu de predicción llinial). Tales téuniques pal cambéu sincronizáu de tonu riquen una señalización previa de los tonos na base de datos de la síntesis de voz usando téuniques como la estracción de dómines usando un índiz de consonantes oclusives aplicáu a la predicción llinial integrada residual de les rexones de voz.[46]

Hardware dedicáu

editar

Primeres teunoloxíes (non disponibles)

  • Icofono
  • Votrax
    • SC-01A **

SC-02 / SSI-263 / "Artic 263"

TMS5200

    • MSP50C6XX - Vendíu a Sensory, Inc. en 2001[47]

Actuales (en 2013)

  • Magnevation SpeakJet (www.speechchips.com) TTS256 Hobby and experimenter.
  • Epson S1V30120F01A100 (www.epson.com) IC DECTalk Based voice, Robotic, Inglés y español.
  • Textspeak TTS-EM (www.textspeak.com)

Mattel

editar

La consola de videoxuegos Intellivision de Mattel, que ye un ordenador qu'escarez de tecláu, dexaba un módulos de síntesis de voz llamáu Intellivoice en 1982. Incluyía'l chip de síntesis de voz SP0256 Narrator nun cartuchu. El Narrator tenía 2KB de Read-Only Memory (ROM) y yera utilizáu pa guardar una base de datos de pallabres xenériques que podíen ser combinaes pa faer frases nos xuegos de Intellivision. Desque'l chip Orator puede aceptar datos d'una memoria esterna, cualquier pallabra adicional o frase riquida pue ser almacenada dientro del cartuchu. Los datos consisten en cadenes de testu de coeficiente de filtros analóxicos pa modificar el comportamientu del modelu de tracto vocal del chip, en llugar de muestres dixitales.

Tamién llanzáu en 1982, Software Automatic Mouth foi'l primer software sintetizador de voz comercial. Darréu foi usáu pa la base del Macintalk. El programa nun s'atopaba disponible pa ordenadores Macintosh Apple (incluyendo Apple II y Lisa), sinón pa modelos de Atari y Commodore 64. La versión d'Apple riquía de hardware adicional pa la conversión dixital analóxicu, anque yera posible utilizar la salida d'audiu del ordenador (con distorsión) si la tarxeta nun taba presente. El Atari fixo usu d'un chip d'audiu POKEY. La reproducción de voz nel Atari de normal deshabitaba los pidimientos d'interrupción y apagaba el chip ANTIC mientres la salida d'audiu. La salida atopábase por demás aburuyada cuando la pantalla taba prendida. El Commodore 64 usaba'l chip d'audiu SID.

El primer sistema de síntesis de voz integráu nun sistema operativu foi pa los ordenadores 1400XL/1450XL diseñáu por Atari usando'l chip Votrax SC01 en 1983. Los ordenadores 1400XL/1450XL usaben Finite State Machine para lleve a cabu la síntesis de voz n'inglés.[48] Sicasí, los ordenadores 1400XL/1450XL yeren rares.

Los ordenadores Atari ST yeren vendíes col "stspeech.tos" nun disquete.

El primer sintetizador de voz integráu nun sistema operativu foi'l MacInTalk d'Apple. El software taba llicenciáu por desarrolladores terceros como Joseph Katz y Mark Barton (darréu, SoftVoice, Inc.) y la primer versión foi presentada mientres la introducción del ordenador Macintosh en 1984. El demo presentáu en xineru, que emplegaba de síntesis de voz basada nel software SAM, riquía de 512KB de memoria RAM. Como resultancia, nun podía correr nuna memoria RAM de 128KB, presente nes primeres Mac.[49] El demo foi lleváu a cabu con un prototipu de 512KB, anque esto nun foi reveláu a l'audiencia lo que creo mayores mires pa la Macintosh. A principios de los noventa, Apple espandió les sos capacidaes ufiertando un sistema con un ampliu soporte pa la función testu-fala cola introducción d'ordenadores más rápidos basaes en PowerPC, incluyó una mayor calidá de la voz reproducida. Apple tamién introdució'l reconocencia de la fala nos sos sistemes los cualos dexaben un set de comandos fluyíos. Más apocayá, Apple incorporó muestres de voces. Empezando como un interés, el sistema de voz Macintosh d'Apple evolucionó a un programa completu, PlainTalk, pa persones con problemes rellacionaos cola vista. VoiceOver foi introducíu en Mac OS X Tiger (10.4). Mientres 10.4 (Tiger) y los primeros llanzamientos de 10.5 (Leopard) solo esistía una voz nes Mac OS X. Dende 10.6 (Snow Leopard), l'usuariu puede escoyer ente un ampliu rangu de múltiples voces. VoiceOver tien carauterístiques como soníos d'inhalación ente oración, según claridá en velocidaes mayores en comparanza al PlainTalk. Mac OS X tamién inclúi'l software "say", una aplicación de llinia de comandos que convierte'l testu en voz. Amestar estándar d'AppleScript inclúin el software say que dexa qu'un script utilice les voces instalaes y controle el tonu, la velocidá y modulación del testu faláu.

El sistema operativu iOS d'Apple, usáu nel iPhone, iPad y iPod Touch usa la síntesis de voz de VoiceOver p'accesibilidá.[50] Delles aplicaciones tamién empleguen síntesis de voz pa facilitar la navegación, lleer páxina web o traducir testu.

AMIGÁIVOS

editar

El segundu sistema operativu n'incluyir una capacidaes avanzaes de síntesis de voz foi AMIGÁIVOS, introducíu en 1985. La síntesis de voz foi llicenciada por Commodore International dende SoftVoice, Inc., quien tamién desenvolvió'l sistema texto-voz MacinTalk. Incluyía un sistema completu de emulación de voz americana pal idioma inglés, con voces femenines y masculines y marcadores de "estrés", foi posible al traviés del chipset d'Amiga.[51] El sistema de síntesis foi estremáu nun dispositivu de narración, que yera responsable de modular y concatenar fonemes, y una llibrería de traducción la cual traducción el testu n'inglés a fonemes al traviés d'un conxuntu de regles. AMIGÁIVOS tamién incluyía procesador de fala d'altu nivel que dexaba a los usuariu reproducir testu al traviés de llinies de comandos. La síntesis de voz dacuando yera usada por programes de terceros, particularmente procesadores de testu y software educativu. El software de síntesis caltúvose intactu dende'l primer llanzamientu d'AMIGÁIVOS y Commodore eventualmente removería la síntesis de voz a partir d'AMIGÁIVOS 2.1.

Magar la llimitación de los fonemes d'inglés americanu, una versión non oficial con síntesis de voz de dellos idiomes foi desenvuelta. Esto faía usu d'una versión estendida de llibrar del traductor la cual podía traducir a un númberu de llinguaxes, a partir de les regles de cada llinguaxe.[52]

Microsoft Windows

editar

Sistemes modernos d'escritoriu de Windows pueden implementar componentes SAPI 1-4 y SAPI 5 pa sofitar la síntesis de voz y el reconocencia de la fala. SAPI 4.0 tuvo disponible como una opción adicional para Windows 95 y Windows 98. Windows 2000 amestó'l Microsoft Narrator, una utilidá pa texto-voz pa les persones que tuvieren dalguna discapacidá visual. Programes de tercera como CoolSpeech, Textaloud y Ultra Hal pueden realizar delles xeres de texto-voz como lleer testu dende un sitiu web específicu, corréu electrónicu, documentu de testu, testu introducíu pol usuariu, etc. Non tolos programes pueden usar la síntesis de voz de manera direuta.[53] Dellos programes pueden emplegar estensiones pa lleer testu.

Microsoft Speech Server ye un paquete de voces pa síntesis y reconocencia basada nun servidor. Ta diseñáu pal so usu en rede con aplicaciones web y centros de llamaes.

Text-to-Speech (TTS) referir a l'habilidá de los ordenadores pa lleer testu. Un Motor TTS convierte'l testu escritu nuna representación fonética, darréu convierte la representación n'ondes de soníu que pueden ser escuchaes. Motores TTS con distintos llinguaxes, dialeutos y vocabularios especializaos tán disponibles al traviés de terceros.[54]

Android

editar

La versión 1.6 d'Android amestó soporte pa los sintetizadores de voz (TTS).[55]

Internet

editar

Na actualidá, esisten un númberu d'aplicaciones, plug-ins y gadgets que pueden lleer mensaxes direutamente dende un veceru de corréu electrónicu y páxina web dende un navegador web o Google Toolbar como Text to Voice que ye un complementu de Firefox. Dellos software especializaos pueden narrar RSS. Per otra parte, los narradores RRS simplifiquen la información unviada dexando a los usuarios escuchar les sos fontes de noticies favorites y convertiles en podcasts. Esisten llectores RSS en casi cualesquier PC coneutada a internet. Los usuarios pueden descargar archivos d'audiu xeneraos a dispositivos portátiles, ej. cola ayuda d'un receptor de podcast y escuchalos mientres camines, cuerres, etc.

Un creciente campu nel internet basada en TTS son les teunoloxíes de sofitu como 'Browsealoud' d'una compañía de Reinu Xuníu y Readspeaker. Dexen la funcionalidad TTS a cualesquier (por cuestiones d'accesibilidá, convencía, entretenimientu o información) con accesu a un navegador d'internet. El proyeutu Pediaphon foi creáu en 2006 pa permiter un navegación web similar a la basada en interface TTS en Wikipedia.[56]

Otros trabayos tán en desenvolvimientu nel contestu de W3C al traviés de W3C Audiu Incubator Group (enllaz rotu disponible n'Internet Archive; ver l'historial y la última versión). col sofitu de BBC y Google Inc.

  • Siguíu del fracasu comercial del hardware Intellivoice, los desarrolladores de videoxuegos emplegaron el software de síntesis de voz con moderación pa futuros xuegos. Un famosu exemplu ye la narración introductoria del videoxuegu Super Metroid de Nintendo pal Super Nintendo Entertainment System. Otros de los primeros sistemes n'utilizar la síntesis de software en videoxuegos son Atari 5200 (Baseball) y Atari 2600 (Quadrun y Open Sesame).
  • Dalgunos llectores de y-books, como Amazon Kindle, Samsung Y6, PocketBook eReader Pro, enTourage eDGe y Bebook Neo.
  • El BBC Micro incorporó'l chip de síntesis de voz TMS5220 de Texas Instruments.
  • Dellos modelos d'ordenadores Texas Instruments producíes en 1979 y 1981 (Texas Instruments TI-99/4 y TI-99/4A) yeren capaces de la síntesis de testu-fonema o recitar pallabres completes y frases (testu-diccionariu), usando'l popular periféricu Speech Synthesizer. TI usó un codec propiu pa completar les frases xeneraes n'aplicaciones, principalmente xuegos.[57]
  • OS/2 Warp 4 d'IBM incluyía'l VoiceType, un precursor del IBM ViaVoice.
  • Sistemes qu'operen con software gratuitu y open source incluyendo Linux son variaos ya inclúin programes open-source como Festival Speech Synthesis System, que usa la síntesis basada en difonos (puede usar un númberu llindáu de voces MBROLA) y gnuspeech el cual emplega la síntesis articulatoria[58] de Free Software Foundation.
  • Les unidaes GPS producíes por Garmin, Magellan, TomTom y otros empleguen la síntesis de voz pa la navegación d'automóviles.
  • Yamaha produjó un sintetizador en 1999, el Yamaha FS1R el cual incluyía capacidaes de síntesis de formantes. Secuencies hasta de 512 formantes de vocales individuales y consonantes podía ser almacenaes y reproducíes, dexando frases curties sintetizaes.

Llinguaxes de marcáu de síntesis de voz

editar

Un númberu de llinguaxes de marcáu fueron establecíos pa la interpretación de testu como voz nun formatu de compilación XML. El más recién ye'l Speech Synthesis Markup Language (SSML), que convirtióse nun encamientu W3C en 2004. Sistemes de llinguaxe de marcáu de síntesis de voz antiguos inclúin el Java Speech Markup Language (JSML) y SABLE. Anque cada unu d'estos foi propuestu como un estándar, nengunu d'ellos foi adoptáu llargamente.

Los llinguaxes de marcáu de síntesis de voz son estremaos de los llinguaxes de marcáu de diálogu. VoiceXML, por casu, inclúi tags rellacionaos al reconociendo de voz, manexu de diálogu y marcáu, amás de marcáu de síntesis de voz.

Aplicaciones

editar

La síntesis de voz foi una de les ferramientes vitales de teunoloxíes de sofitu y la so aplicación nesta área ye significante y de gran usu. Dexa que les barreas ambientales sían removíes pa persones con distintes discapacidaes. L'aplicación con mayor usu fueron los llector de pantalla llectores de pantalla pa persones con discapacidaes visuales, pero los sistemes de texto-voz agora son comúnmente usaos por persones con dislexa y otres dificultaes pa la llectura, según pa los neños. Tamién son frecuentemente emplegaos p'ayudar a aquellos con discapacidaes comunicatives usualmente al traviés d'una voz d'ayuda.

Les téuniques de síntesis de voz son usaes en productos d'entretenimientu como xuegos o animaciones. En 2007, Animo Limited anunció'l desenvolvimientu d'una aplicación de software basada na síntesis de voz de FineSpeech, explícitamente enfocada a consumidores na industria del entretenimientu, dexando xenerar narraciones y llinies de diablu desalcuerdu a les especificaciones del usuariu.[59] L'aplicación maureció en 2008 cuando NEC Biglobe anunció un serviciu web que dexaba a los usuarios crear frases estremar de voces de los personaxes de Code Geass: Lelouch of the Rebellion R2,[60]

El testu-voz atopó nueves aplicaciones fora del mercáu de l'ayuda a los discapacitaos. Por casu, la síntesis de voz , combinada col reconocencia de voz, dexa la interacción con dispositivos móviles al traviés de interfaces de procesamientu de llinguaxes naturales. Tamién foi usáu como un segundu llinguaxe d'alquisición. Voki, por casu, ye una ferramienta educativo creada por Oddcast que dexa a los usuarios escoyer el so propiu avatar, usando distintos acentos. Pueden ser unviaos al traviés de mail o ser asitiaos en sitio web o redes sociales.

Múltiples compañíes ufierten APIs TTS a los consumidores p'acelerar el desenvolvimientu de nueves aplicaciones usando la teunoloxía TTS. Les compañíes qu'ufierten APIs TTS inclúin a AT&T, IVONA, Neospeech, Readspeaker y YAKiToMe!. Pal desenvolvimientu d'aplicación pa móviles, el sistema operativu Android ufiertó una API TTS por un llargu tiempu. De manera recién, con iOS7, Apple empezó a ufiertar d'igual manera una API TTS.

Ver tamién

editar

Referencies

editar
  1. Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987) From Text to Speech: The MITalk system. ISBN 0-521-30641-8.
  2. «An articulatory synthesizer for perceptual research». Journal of the Acoustical Society of America 70 (2):  páxs. 321–328. 1981. doi:10.1121/1.386780. 
  3. van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997) Progress in Speech Synthesis. ISBN 0-387-94701-9.
  4. «Assignment of segmental duration in text-to-speech synthesis». Computer Speech & Language 8 (2):  páxs. 95–128. April 1994. doi:10.1006/csla.1994.1005. 
  5. History and Development of Speech Synthesis, Helsinki University of Technology, Retrieved on November 4, 2006
  6. Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Mechanism of the human speech with description of its speaking machine," J. B. Degen, Wien). (n'alemán)
  7. Mattingly, Ignatius G. (1974). «Speech synthesis for phonetic and phonological models». Current Trends in Linguistics (Mouton, The Hague) 12:  páxs. 2451–2487. Archivado del original el 2013-05-12. https://web.archive.org/web/20130512085755/http://www.haskins.yale.edu/Reprints/HL0173.pdf. Consultáu'l 2018-02-10. 
  8. Lawrence, J. (2007). «2», Speech Science Primer: Physiology, Acoustics, and Perception of Speech (n'inglés), páx. 24.
  9. «The Pattern Playback» (inglés). Consultáu'l 3 de xunetu de 2015.
  10. «How Klattalk became DECtalk: An Academic's Experiences in the Business World», The official proceedings of Speech Tech '87 (New York), April 1987, http://searchworks.stanford.edu/view/6824203 
  11. Sproat, Richard W. (1997) Multilingual Text-to-Speech Synthesis: The Bell Labs Approach. ISBN 0-7923-8027-4.
  12. Kurzweil, Raymond (2005). The Singularity is Near. ISBN 0-14-303788-9.
  13. Klatt, D. (1987) "Review of Text-to-Speech Conversion for English" Journal of the Acoustical Society of America 82(3):737-93
  14. Lambert, Bruce (21 de marzu de 1992). «Louis Gerstman, 61, a Specialist In Speech Disorders and Processes». New York Times. http://www.nytimes.com/1992/03/21/nyregion/louis-gerstman-61-a-specialist-in-speech-disorders-and-processes.html. 
  15. «Arthur C. Clarke Biography». Archiváu dende l'orixinal, el 11 d'avientu de 1997. Consultáu'l 11 d'avientu de 1997.
  16. «Where "HAL" First Spoke (Bell Labs Speech Synthesis website)». Bell Labs. Archiváu dende l'orixinal, el 29 d'abril de 2011. Consultáu'l 17 de febreru de 2010.
  17. Anthropomorphic Talking Robot Waseda-Talker Series
  18. TSI Speech+ & other speaking calculators
  19. Gevaryahu, Jonathan, "TSI S14001A Speech Synthesizer LSI Integrated Circuit Guide"Usu incorreutu de la plantía enllaz rotu (enllaz rotu disponible n'Internet Archive; ver l'historial y la última versión).
  20. Breslow, et al. United States Patent 4326710: "Talking electronic game" April 27, 1982
  21. Voice Chess Challenger
  22. Gaming's Most Important Evolutions, GamesRadar
  23. "Far-out phonemes." Popular Mechanics (Tech Front Lines). Jun 1981
  24. Gahlawata, M., Malika, A., Bansalb, P. Natural Speech Synthesizer for Blind Persons Using Hybrid Approach’’. Procedia Computer Science, 2014, p. 86
  25. Schröder, M., Emotional Speech Synthesis: A Review’’. University of the Saarland, 2001, p.1
  26. Alan W. Black, Perfect synthesis for all of the people all of the time. IEEE TTS Workshop 2002.
  27. John Kominek and Alan W. Black. (2003). CMU ARCTIC databases for speech synthesis. CMU-LTI-03-177. Language Technologies Institute, School of Computer Science, Carnegie Mellon University.
  28. Julia Zhang. Language Generation and Speech Synthesis in Dialogues for Language Learning, masters thesis, Section 5.6 on page 54.
  29. William Yang Wang and Kallirroi Georgila (2011). Automatic Detection of Unnatural Word-Level Segments in Unit-Selection Speech Synthesis, IEEE ASRU 2011.
  30. «Pitch-Synchronous Overlap and Add (PSOLA) Synthesis». Archiváu dende l'orixinal, el 22 de febreru de 2007. Consultáu'l 28 de mayu de 2008.
  31. T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken. The MBROLA Project: Towards a set of high quality speech synthesizers of use for non commercial purposes. ICSLP Proceedings, 1996.
  32. R Muralishankar, A.G.Ramakrishnan and P Prathibha. Modification of Pitch using DCT in the Source Domain. "Speech Communication", 2004, Vol. 42/2, páxs. 143-154.
  33. L.F. Lamel, J.L. Gauvain, B. Prouts, C. Bouhier, R. Boesch. Generation and Synthesis of Broadcast Messages, Proceedings ESCA-NATO Workshop and Applications of Speech Technology, September 1993.
  34. Dartmouth College: Music and Computers, 1993.
  35. como Astru Blaster, Space Fury y Star Trek: Strategic Operations Simulator
  36. como Star Wars, Firefox, Return of the Jedi, Road Runner, The Empire Strikes Back, Indiana Jones and the Temple of Doom, 720°, Gauntlet, Gauntlet II, A.P.B., Paperboy, RoadBlasters, Vindicators Part II, Escape from the Planet of the Robot Monsters
  37. John Holmes and Wendy Holmes (2001). Speech Synthesis and Recognition. ISBN 0-7484-0856-8.
  38. «The HMM-based Speech Synthesis System». Hts.sp.nitech.ac.j. Archiváu dende l'orixinal, el 2012-02-13. Consultáu'l 22 de febreru de 2012.
  39. «Speech perception without traditional speech cues». Science 212 (4497):  páxs. 947–949. 22 de mayu de 1981. doi:10.1126/science.7233191. PMID 7233191. http://www.bsos.umd.edu/hesp/mwinn/Remez_et_al_1981.pdf. 
  40. «Speech synthesis». World Wide Web Organization.
  41. «Blizzard Challenge». Festvox.org. Consultáu'l 22 de febreru de 2012.
  42. «Smile -and the world can hear you». University of Portsmouth. 9 de xineru de 2008. Archivado del original el 2008-05-17. https://web.archive.org/web/20080517102201/http://www.port.ac.uk/aboutus/newsandevents/news/title%2C74220%2Cen.html. Consultáu'l 2018-02-10. 
  43. «Smile - And The World Can Hear You, Even If You Hide». Science Daily. January 2008. http://www.sciencedaily.com/releases/2008/01/080111224745.htm. 
  44. «The vocal communication of different kinds of smile». Speech Communication 50 (4):  páxs. 278–287. 2008. doi:10.1016/j.specom.2007.10.001. Archivado del original el 2013-07-03. https://web.archive.org/web/20130703062330/https://peer.ccsd.cnrs.fr/docs/00/49/91/97/PDF/PEER_stage2_10.1016/j.specom.2007.10.001.pdf. Consultáu'l 2018-02-10. 
  45. «Modification of pitch using DCT in the source domain». Speech Communication 42 (2):  páxs. 143–154. February 2004. doi:10.1016/j.specom.2003.05.001. http://www.sciencedirect.com/science/article/pii/S0167639303001080. Consultáu'l 7 d'avientu de 2014. 
  46. «Epoch extraction based on integrated linear prediction residual using plosion index». IEEE Trans. Audiu Speech Language Processing 21 (12):  páxs. 2471–2480. December 2013. doi:10.1109/TASL.2013.2273717. http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6562799. Consultáu'l 19 d'avientu de 2014. 
  47. EE Times. "TI will exit dedicated speech-synthesis chips, transfer products to Sensory." June 14, 2001.
  48. «1400XL/1450XL Speech Handler External Reference Specification» (PDF). Consultáu'l 22 de febreru de 2012.
  49. «It Sure Is Great To Get Out Of That Bag!». folclor.org. Consultáu'l 24 de marzu de 2013.
  50. «iPhone: Configuring accessibility features (Including VoiceOver and Zoom)». Apple. Consultáu'l 29 de xineru de 2011.
  51. Miner, Jay et al. (1991). Amiga Hardware Reference Manual. ISBN 0-201-56776-8.
  52. «Translator Library (Multilingual-speech version)» (30 de xunu de 1995). Archiváu dende l'orixinal, el 26 de febreru de 2012. Consultáu'l 9 d'abril de 2013.
  53. «Accessibility Tutorials for Windows XP: Using Narrator». Microsoft (29 de xineru de 2011). Consultáu'l 29 de xineru de 2011.
  54. «How to configure and use Text-to-Speech in Windows XP and in Windows Vista». Microsoft (7 de mayu de 2007). Consultáu'l 17 de febreru de 2010.
  55. Jean-Michel Trivi (23 de setiembre de 2009). «An introduction to Text-To-Speech in Android». Android-developers.blogspot.com. Consultáu'l 17 de febreru de 2010.
  56. Andreas Bischoff, The Pediaphon - Speech Interface to the free Wikipedia Encyclopedia for Mobile Phones, PDA's and MP3-Players, Proceedings of the 18th International Conference on Database and Expert Systems Applications, Pages: 575-579 ISBN 0-7695-2932-1, 2007
  57. «Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002». Mindspring.com. Archiváu dende l'orixinal, el 2013-10-03. Consultáu'l 17 de febreru de 2010.
  58. «gnuspeech». Gnu.org. Consultáu'l 17 de febreru de 2010.
  59. «Speech Synthesis Software for Anime Announced». Anime News Network (2 de mayu de 2007). Consultáu'l 17 de febreru de 2010.
  60. «Code Geass Speech Synthesizer Service Offered in Japan». Animenewsnetwork.com (9 de setiembre de 2008). Consultáu'l 17 de febreru de 2010.

Enllaces esternos

editar