CAPITULO 1 REVISADO

Posted by RM | Posted in | Posted on 12:37

Capitulo I:

Estado del Arte

1.1 Reconocimiento del habla y de locutor

El reconocimiento automático del habla tiene como finalidad permitir la comunicación entre seres humanos y computadoras, esto puede ser de utilidad en ambientes como operaciones bancarias o control de aduanas, así como también puede ser utilizado por personas con algún tipo de discapacidad.

En 1994 IBM introdujo el primer sistema de reconocimiento de voz, desde entonces el reconocimiento de locutor ha sido aplicado tecnologías de comunicación y multimedia.

El reconocimiento automático de locutor puede obtenerse mediante vario métodos, los mas comunes son:

· Dependiente de locutor.

· Independiente de locutor.

· Reconocimiento de elocuciones aisladas.

Dependencia de Locutor:

Un sistema de reconocimiento el cual es dependiente de locutor es aquel que puede ser entrenado utilizando un locutor especifico para que el sistema lo pueda reconocer con un mayor grado de exactitud, para entrenar al sistema en este método, el locutor debe grabar varias palabras o enunciados los cuales serán reconocidos por el sistema de reconocimiento.

Independencia de Locutor:

Este tipo de reconocimiento pueden ser utilizado con locutores sin ningún tipo de entrenamiento con el sistema, este método de reconocimiento es utilizado en situaciones donde no es necesario tener una sesión de entrenamiento, por ejemplo en un control de aduanas.

Reconocimiento de elocuciones aisladas:

Este método de reconocimiento requiere un menor requerimiento de software y hardware ya que cada elocución producida por el locutor contiene silencio acústico al principio y al final de la elocución, por lo tanto se conocen sus puntos de inicio y fin, esta elocución será comparada contra una base de datos de elocuciones modelo y la que se asemeje mas a la elocución producida será retenida por el sistema, este tipo de reconocimiento es aplicado comúnmente en telefonía fija[1].

Un sistema de reconocimiento de locutor básico consta de las siguientes etapas:

Figura 1.1 Diagrama a bloques de un sistema de RAL (reconocimiento automatico de locator) basico.

El reconocimiento automático de locutor permite al sistema de reconocimiento interpretar el significado de nuestras palabras y a partir de ellas tomar decisiones y ejecutar órdenes.

Dependiendo de la aplicación de RAL( Reconocimiento Automatico de Locutor) el ordenador deberá confirmar previamente que el usuario que realiza la llamada está autorizado a acceder a la información y tiene la opcion de dar órdenes, haciendo necesario abordar un segundo problema.

El reconocimiento de locutor permite al sistema conocer quién es la persona que accede al sistema (identificación de locutor), o pedir una clave al locutor (código secreto) y comprobar que realmente es quien dice ser (verificación de locutor). Sin lugar a dudas, en las aplicaciones en las que la seguridad desempeñe un papel importante, la voz es la característica biométrica, personal e intransferible, más fácil de enviar por medio telefónico, frente a otros sistemas como huellas dactilares, análisis de la retina, etc.

Entre las principales aplicaciones del reconocimiento del habla caben destacarla siguientes cuatro:

Los Servicios de audiotext, los cuales consisten en sistemas de navegación de menús mediante números, es posible extraer información de cines, transportes, procesos de renovación de documentos, etc. Por ejemplo, un sistema RAL puede preguntarnos nuestro código postal para informarnos de la oficina de policía más cercana para renovar el documento nacional de identidad. La principal ventaja respecto a un sistema de información clásico es la posibilidad de disponer del servicio las 24 horas del día todos los días del año, o disponer del servicio en varios idiomas seleccionables mediante la información de los menús.

La Trascripción automática de conversaciones, estas se desarrolan a partir de señales de voz de entrada, haciend posible la generacion de arxhivos de texto de salida, fácilmente procesable dentro de una computadora, y almacenable con un tamaño considerablemente menor.

El Dictado automático de textos en el caso de personas con algun tipo de dispacacidad resulta útil la posibilidad de dar órdenes a través de la voz y redactar textos sin necesidad de usar el teclado.

Finalmente el Control a distancia: mediante una conexión telefónica y un sistema de reconocimiento automatico de locutor con el algoritmo adecuado, pueden realizarse consultas de saldos bancarios, dar órdenes de compra y venta de acciones, controlar la calefacción de nuestros hogares, sistemas de riego, entre muchas aplicaciones posibles

Entre las principales aplicaciones del reconocimiento de locutor caben destacar al menos las siguiestes tres:

El uso para el control de acceso a recintos o informaciones: mediante la voz posibilitala el identificar a las personas y permitirles acceder o no a fábricas, hogares, informaciones bancarias privadas o de determinados grupos de trabajo, etc.

Con la utilizacion del Reconocimiento de sospechosos a partir de grabaciones policiales es posible identificar a qué individuo pertenece la voz de la grabación.

Otra utilizacion importante se refiere a la Trascripción automática de reuniones: ya que en reuniones con diversos oradores con frecuencia es importante disponer de la trascripción de las frases habladas (reconocimiento del habla), así como de las identidades de las personas que han realizado las elocuciones.

Si bien las prestaciones de los sistemas actuales son inferiores a la capacidad humana para reconocer palabras e identificar personas a partir de la voz, existen productos comerciales en el mercado que cada vez ofrecen una mayor precisión

1.2 Estado del Arte del Reconocimiento de Locutor.

En los últimos anos se ha notado un considerable avance respecto a temas relacionados con el reconocimiento de locutor, gracias a los avances en la reducción de la tasa de igual error [2], al igual que el incremento en la velocidad del reconocimiento. Esto nos permite una mayor exactitud al momento de realizar un reconocimiento de locutor de texto independiente gracias a la dispocicsion de grandes vocabularios, esto sin la necesidad de equipos de trabajo especiales.

Un cambio en el paradigma ocurre cuando varios desarrollos convergen para crear nuevas tecnicas de reconocimiento automatico de locutor, actualmente los cambios cualitativos en el estado del arte promenten acercar las capacidades del reconocimiento automatico de locutor a cualquier persona que tenga acceso a una computadora.

Para el caso del reconocimiento de locutor, surgieron dos cambios relevantes:

a) Alta exactitud para el reconocimiento de locutor continúo basándose en mejores técnicas de modelado de voz.

b) Técnicas de búsqueda de reconocimiento mas avanzadas que reducen el tiempo necesario para un reconocimiento con una mayor exactitud.

El reconocimiento de locutor se esta convirtiendo de manera rápida en una tecnología permisiva, y esta tendrá una gran influencia en la forma en la que las personas se comunican con los ordenadores y con otras personas, ya que anteriormente, el reconocimiento de locutor era una tarea propia de un laboratorio[3].

1.3 La Problemática del Reconocimiento de Locutor.

El reconocimiento Automático de locutor puede ser visto como un mapeo de una señal propia en el tiempo, seguido de, una elocución, esto a su vez, seguido a una secuencia de entidades discretas, por ejemplo fonemas, palabras o enunciados.

  • El mayor obstáculo en el reconocimiento de locutor es la gran variabilidad en las características de la elocución, esta variabilidad se conforma de tres componentes principales.

  • El primer componente se conoce como Variabilidad Lingüística, este incluye los efectos fonéticos, efectos de sintaxis, efectos semánticas .

  • El segundo componente se conoce como Variabilidad de Locutor. Este incluye variabilidad de infralocutor e interlocutor incluyendo los efectos de coarticulacion. Esto es que los efectos de sonidos vecinos en una realización acústica de un fonema en particular debido a la continuidad y a las restricciones en el aparato articulador humano.

  • El tercer componente se conoce como la Variabilidad de Canal, esto incluye los efectos del ruido del fondo acústico y el ruido proveniente del canal de transmisión, todas estas variaciones tienden a corromper la elocución producida, la cual debe ser corregida en el proceso de reconocimiento.

Diferentes tecnologías son en muchos casos apropiados para diferentes tareas, por ejemplo, cuando el vocabulario en un reconocimiento es pequeño, una sola palabra puede ser modelada como una sola unidad, pero tal aproximación no es practica al momento de utilizar vocabularios de reconocimiento grandes donde las palabras deben de ser modeladas en unidades de sub palabra.

El desempeño de los sistemas de reconocimiento de locutor se describe en términos de “tasa de palabra error” o (E), y lo definimos de manera siguiente:

Donde N es el numero total de palabras en el conjunto de prueba, S, I, y D son el numero total de substituciones, inserciones y eliminaciones [4].

En los últimos anos la tasa de palabra error ha disminuido por un factor de 2 cada dos anos, gracias a la eliminación de barreras como la independencia de locutor, elocución continua y grandes vocabularios. Esto da comienzo a la era de los Modelos Ocultos de Harkov, o HMM (por sus siglas en ingles, Hidden Harkov Models).

Un gran esfuerzo se ha puesto en el desarrollo de amplios cuerpos de voz para el desarrollo de sistemas de reconocimiento de locutor tales como entrenamiento y prueba.

Actualmente no es poco común tener miles de elocuciones disponibles para estos tipos de sistemas, esto nos permite cuantificar las claves acústicas para contrastes fonéticos, esto para determinar paramentos de reconocimiento en un sentido estadístico.

Los avances computacionales ha tenido una influencia indirecta en el progreso del reconocimiento de locutor, la disponibilidad de computadores mas veloces y con mayor capacidad de almacenamiento ha permitido ejecutar experimentos a gran escala en un periodo de tiempo reducido.

Esto significa que el tiempo transcurrido entre una idea y su implementación y evaluación es reducido en manera significativa.

Los sistemas de reconocimiento automático de locutor que poseen un desempeño razonable pueden ser utilizados en reconocimientos en tiempo real utilizando equipos de trabajo de alta tecnología, algo inimaginable anos atrás.

Actualmente existen diversas y muy variadas técnicas aplicadas a la compensación o eliminación de la variabilidad de canal; aquí se presenta un breve repaso de las técnicas más utilizadas, que mejor funcionamiento han proporcionado y que forman el estado de la ciencia hasta el momento por lo que se considera de utilidad describirlas brevemente:.

  • CMS : (cepstral mean substraction), también conocido como CMN(cepstral mean normalization) En una parametrización basada en coeficientes cepstrales [5], una locución, es dividida en cortas ventanas de tiempo ( ~=20 ms), de la cual son extraídos un cierto número de coeficientes cepstrales. CMN se basa en sustraer para cada coeficiente cepstral extraído la media de dicho coeficiente a lo largo de toda la locución. De esta forma se reduce la distorsión introducida por elementos de variación lenta, como por ejemplo ruido estacionario.[6]

  • RASTA: Su objetivo es reducir el efecto del canal de comunicaciones en el espectro y, por tanto, en la parametrización. La normalización RASTA explota las diferencias entre las propiedades temporales de la voz y las propiedades temporales de las distintas distorsiones de canal. Las características del canal varían poco con el tiempo, por lo que sus componentes espectrales son de baja frecuencia, donde no hay demasiada información de la voz. En el filtrado RASTA filtra en el tiempo los valores de energía en cada banda de frecuencias, con el objeto de eliminar dicha componente de baja frecuencia[7].

  • FEATURE WARPING: CMS modifica la distribución estadística de los parámetros modificando su media. Otras técnicas tratan de modificar otros estadísticos como la varianza (CVN..). Feature warping va más allá al modificar no sólo los parámetros estadísticos de los datos sino también la función de densidad de probabilidad de los mismos para acomodarlos a una distribución normal. De esta forma se puede compensar, en parte, la variación de canal, el ruido aditivo y hasta cierto punto, efectos no lineales debidos a los transductores. [8]

  • FEATURE MAPPING: Este enfoque parte de la hipótesis de que la distorsión producida por el canal afecta a los diferentes modos de la distribución estadística de los datos mediante un desplazamiento geométrico de los mismos. Bajo esta hipótesis es posible compensar esta distorsión del canal estudiando las diferencias de las distribuciones de datos no afectados por el canal (al menos idealmente), y aquellos afectados por un tipo concreto de canal, para aplicar después la transformación inversa ( compensar el desplazamiento) a la que produjo el canal [9].

  • CHANNEL FACTORS: Partiendo de ideas similares al caso anterior, channel factors trata de encontrar las direcciones de máxima variabilidad en el espacio de los parámetros o de los modelos, debidas al canal. La cancelación del efecto del canal se realiza mediante una proyección de los parámetros o modelos, en aquellas direcciones que no se consideran afectadas por el canal. [4][10]

REFERENCIAS:

[1] O. Deroo, “A Short introduction to speech recognition”. TCTS Lab Research Groups, Belgium

[2] R. L. Morelos G., “Detección de Puntos Inicio-Fin de Palabra y su Influencia en Reconocimiento de Locutor”. Instituto Tecnologico de Mexicali, Mexicali, Mexico (2006).

[3] J. Makhoul, R. Schwartz, “Stateof the art in continuous speech recognition”. BBN Systems and Technologies, Cambridge, Massachusetts, 1993.

[4] V. Zue, R. Colc, W. Ward., “Survey of the State of the Art in Human Language Technology”. MIT Laboratory for Computer Science, Cambridge, Massachusetts, USA .

[5] Furui Sadaoki.”Cepstral analysis technique for automatic speaker verification”.IEEE Transactions on speech and audio processing,Vol.ASSP-29,No.2 .April 1981.

[5] Furui Sadaoki.”Cepstral analysis technique for automatic speaker verification”.IEEE Transactions on speech and audio processing,Vol.ASSP-29,No.2 .April 1981.

[6] Liu F., Stern R., Huang X. and Acero A. “Efficient Cepstral

Normalization for Robust Speech Recognition”. Proceedings of ARPA Human Language Technology Workshop, March 1993.

[7] Hynek Hermansky. “RASTA Processing of Speech”.IEEE Transactions on speech and audio processing,Vol.2,No.4 October 1994

[8] J.Pelecanos,S.Sridham.”Feature Warping for robust speaker verification” in Proc. ISCA workshop on speaker Recognition -2001: A speaker Oddissey.June 2001

[9] Douglas A Reynold. “Channel robust speaker verification by feature mapping” Acoustics,Speech and Signal Processing 2003

[10] J. G. Dominguez. “Nuevas tecnicas de compensacion de canal len reconocimiento de locator e idioma” Escuela Politecnica Superior, Universidad Autonoma de Madrid, Espana.




Comments (0)