Diseñan universitarios software para sintetizar voz en español de México

Académicos de la Facultad de Ingeniería (FI) de la UNAM, encabezados por José Abel Herrera Camacho, crearon un software para sintetizar voz en español de México, que permite generarla a partir de un texto, no sólo de manera neutral, pues es capaz de simular tres tonos emocionales, de acuerdo con el escrito.

Herrera Camacho, responsable del Laboratorio de Procesamiento de Voz, explicó que este programa de cómputo puede seleccionar voz de hombre o de mujer al momento de generar la salida. El objetivo es que no se distinga si se trata de una persona o de una máquina.

En su elaboración se produjeron dos conjuntos de grabaciones –hombre y mujer–, que contienen frases obtenidas al azar de diferentes textos, leídas en los estados de ánimo a generar. Hasta el momento han desarrollado tres tonos emocionales: felicidad, tristeza y enojo.

A partir de esas grabaciones, el algoritmo aprende las características lingüísticas de los fonemas insertos en las emociones y las reproduce para cualquier otra palabra.

El tono y duración de cada fonema se manejan de forma independiente, por lo que al momento de la síntesis se pueden simular de mejor manera las emociones, al modificar cada sonido para que embone lo más similar posible en su contexto, con lo que es posible mejorar la calidad del audio de salida.

En ese laboratorio ya se han realizado pruebas de interacción con voz en una laptop, sin necesidad de usar el teclado, lo que implica mayor comodidad al usuario.

El objetivo de esta tecnología es llevarla a los teléfonos celulares como una aplicación que permita a los usuarios hacer traducciones en un futuro. Si se viaja a Japón, por ejemplo, se hablaría al móvil en español y éste haría la traducción al japonés y viceversa, para facilitar una intercomunicación en países cuya lengua no sea la nuestra, indicó el universitario.

Herrera Camacho mencionó que las aplicaciones del sintetizador de voz podrían emplearse en cuestiones del hogar, como el encendido de la televisión, para indicar el volumen requerido y el canal de preferencia. También, sería útil en las lavadoras, “que nos indiquen si se requiere más detergente, por ejemplo. Ésta es una interacción hombre-máquina, que puede usarse en todos lados; de hecho, ya se aplica en autos”.

Finalmente, señaló que los algoritmos que se utilizan en pruebas son diseñados en el Laboratorio de Procesamiento de Voz.

—oOo—