Saltar al contenido

Cómo Text-to-Speech puede cambiar el mundo

Hace un par de años, me compré un dispositivo realmente genial. Este dispositivo cambiaría mi vida: cómo me conectaba con la gente, cómo trabajaba y qué hacía para divertirme. ¿Curioso? Apuesto a que tú también lo tienes. Es un teléfono inteligente. Menciono esto porque me di cuenta de la conversión de texto a voz (TTS) por primera vez gracias a mi teléfono inteligente.

Una vez que probé TTS, vi todo un mundo de posibilidades que podrían cambiar la forma en que manejamos las tareas diarias. ¿Cómo preguntas? Vamos a averiguar.

El concepto de conversión de texto a voz (TTS)

Como la palabra implica, los sistemas de conversión de texto a voz simplemente convierten el texto en voz. Cuando escribe una palabra en un programa de este tipo, convierte ese texto en formas audibles, como su propio lector de libros personal. También se conoce como síntesis de voz. La síntesis del habla implica 3 procesos:

# 1 Texto a palabras: Leer puede parecer fácil, pero de hecho es un proceso muy complejo. Los seres humanos tienen una idea general de cómo pueden sonar las palabras, pero las computadoras tienen que resolver esto matemáticamente. El primer paso aquí es convertir el texto de entrada en palabras. Cuando escribe algo en el sistema TTS, tiene que juntar el texto, leer todos los espacios y la puntuación en el medio, y comprender las palabras y oraciones que deletrean.

# 2 Palabras a fonemas: La palabra fonema suena compleja pero es fácil de entender. Así como las letras del alfabeto forman palabras en el lenguaje escrito, los fonemas forman las palabras en el lenguaje hablado. Son los sonidos de las palabras. Por ejemplo, los sonidos “/ lʌ” y “ʌk /” forman la palabra “suerte”. La computadora toma las palabras que reconoce y las convierte en estos fonemas.

# 3 Fonemas para sonar: Ahora que la computadora ha entendido qué fonemas van a qué palabra, ahora puede convertirlos en sonido sintetizando los fonemas y juntándolos. Lo hace de 3 formas:

  • Concatenativo: La computadora puede usar muestras de voz humana pregrabadas.
  • Formante: Los sonidos se pueden sintetizar digitalmente, como un sintetizador de música.
  • Articulatorio: Este es un método mucho más complejo y menos utilizado en el que la computadora genera el habla imitando una voz humana mediante el uso de un dispositivo que tiene partes que se mueven o vibran, como una cuerda vocal. Una cabeza parlante robótica es un ejemplo ideal.

Aplicaciones de Text-to-Speech

TTS tiene todo un mundo de posibilidades asombrosas, especialmente porque es muy fácil de acceder mediante software de computadora, aplicaciones para teléfonos inteligentes e incluso herramientas gratuitas de texto a voz en línea.

  • Ayudar a las personas con discapacidades auditivas y del habla a comunicarse con los demás.
  • Los sistemas de navegación GPS se utilizan prácticamente todos los días mientras las personas viajan
  • Ayudar a los niños con dislexia que tienen dificultades para leer y escribir,
  • Ayudar a las personas con problemas de visión a leer textos escritos. Les ayuda a escribir mediante el uso de un software que pronuncia las palabras como si se presionan las teclas del teclado. Estos sistemas encuentran su uso en las escuelas para ciegos.

Con la investigación adicional de TTS que están realizando las empresas de tecnología, la gama de sus aplicaciones solo se ampliará en el futuro. Las posibilidades son infinitas.