Posted by RM | Posted in Capitulo I , Capitulo II , Estado sel Arte , Tesis Mestria | Posted on 12:12
Capitulo I: Introduccion.
1.2. Reconocimiento del habla y de locutor
El reconocimiento automático del habla tiene como finalidad permitir la comunicación entre seres humanos y computadoras, esto puede ser de utilidad en ambientes como operaciones bancarias o control de aduanas, así como también puede ser utilizado por personas con algún tipo de discapacidad.
En 1994 IBM introdujo el primer sistema de reconocimiento de voz, desde entonces el reconocimiento de locutor ha sido aplicado tecnologías de comunicación y multimedia.
El reconocimiento automático de locutor puede obtenerse mediante varios métodos, los más comunes son:
1.1.1. Dependencia de Locutor:
Un sistema de reconocimiento el cual es dependiente de locutor es aquel que puede ser entrenado utilizando un locutor especifico para que el sistema lo pueda reconocer con un mayor grado de exactitud, para entrenar al sistema en este método, el locutor debe grabar varias palabras o enunciados los cuales serán reconocidos por el sistema de reconocimiento.
1.1.2. Independencia de Locutor:
Este tipo de reconocimiento pueden ser utilizado con locutores sin ningún tipo de entrenamiento con el sistema, este método de reconocimiento es utilizado en situaciones donde no es necesario tener una sesión de entrenamiento, por ejemplo en un control de aduanas.
1.1.3. Reconocimiento de elocuciones aisladas:
Este método de reconocimiento requiere un menor requerimiento de software y hardware ya que cada elocución producida por el locutor contiene silencio acústico al principio y al final de la elocución, por lo tanto se conocen sus puntos de inicio y fin, esta elocución será comparada contra una base de datos de elocuciones modelo y la que se asemeje mas a la elocución producida será retenida por el sistema, este tipo de reconocimiento es aplicado comúnmente en telefonía fija [Deroo, 1999].
1.2. Generalidades en el reconocimiento de locutor.
Un sistema de reconocimiento de locutor básico consta de las siguientes etapas:

El reconocimiento automático de locutor permite al sistema de reconocimiento interpretar el significado de nuestras palabras y a partir de ellas tomar decisiones y ejecutar órdenes.
Dependiendo de la aplicación de RAL( Reconocimiento Automático de Locutor) el ordenador deberá confirmar previamente que el usuario que realiza la llamada está autorizado a acceder a la información y tiene la opción de dar órdenes, haciendo necesario abordar un segundo problema.
El reconocimiento de locutor permite al sistema conocer quién es la persona que accede al sistema (identificación de locutor), o pedir una clave al locutor (código secreto) y comprobar que realmente es quien dice ser (verificación de locutor). Sin lugar a dudas, en las aplicaciones en las que la seguridad desempeñe un papel importante, la voz es la característica biométrica, personal e intransferible, más fácil de enviar por medio telefónico, frente a otros sistemas como huellas dactilares, análisis de la retina, etc.
Entre las principales aplicaciones del reconocimiento del habla caben destacar las siguientes cuatro:
Los Servicios de audiotext, los cuales consisten en sistemas de navegación de menús mediante números, es posible extraer información de cines, transportes, procesos de renovación de documentos, etc. Por ejemplo, un sistema RAL puede preguntarnos nuestro código postal para informarnos de la oficina de policía más cercana para renovar el documento nacional de identidad. La principal ventaja respecto a un sistema de información clásico es la posibilidad de disponer del servicio las 24 horas del día todos los días del año, o disponer del servicio en varios idiomas seleccionables mediante la información de los menús.
La Trascripción automática de conversaciones, estas se desarrollan a partir de señales de voz de entrada, haciendo posible la generación de archivos de texto de salida, fácilmente procesable dentro de una computadora, y almacenable con un tamaño considerablemente menor.
El Dictado automático de textos en el caso de personas con algún tipo de discapacidad resulta útil la posibilidad de dar órdenes a través de la voz y redactar textos sin necesidad de usar el teclado.
Finalmente el Control a distancia: mediante una conexión telefónica y un sistema de reconocimiento automático de locutor con el algoritmo adecuado, pueden realizarse consultas de saldos bancarios, dar órdenes de compra y venta de acciones, controlar la calefacción de nuestros hogares, sistemas de riego, entre muchas aplicaciones posibles
Entre las principales aplicaciones del reconocimiento de locutor caben destacar al menos las siguientes tres:
El uso para el control de acceso a recintos o informaciones: mediante la voz posibilita la identificación de personas y permitirles acceder o no a fábricas, hogares, informaciones bancarias privadas o de determinados grupos de trabajo, etc.
Con la utilización del Reconocimiento de sospechosos a partir de grabaciones policiales es posible identificar a qué individuo pertenece la voz de la grabación.
Otra utilización importante se refiere a la Trascripción automática de reuniones: ya que en reuniones con diversos oradores con frecuencia es importante disponer de la trascripción de las frases habladas (reconocimiento del habla), así como de las identidades de las personas que han realizado las elocuciones.
Si bien las prestaciones de los sistemas actuales son inferiores a la capacidad humana para reconocer palabras e identificar personas a partir de la voz, existen productos comerciales en el mercado que cada vez ofrecen una mayor precisión.
Capitulo II: Estado del Arte del Reconocimiento de locutor.
En los últimos años se ha notado un considerable avance respecto a temas relacionados con el reconocimiento de locutor, gracias a los avances en la reducción de la tasa de igual error [Morelos, 2006], al igual que el incremento en la velocidad del reconocimiento. Esto nos permite una mayor exactitud al momento de realizar un reconocimiento de locutor de texto independiente gracias a la disposición de grandes vocabularios, esto sin la necesidad de equipos de trabajo especiales.
Un cambio en el paradigma ocurre cuando varios desarrollos convergen para crear nuevas técnicas de reconocimiento automático de locutor, actualmente los cambios cualitativos en el estado del arte prometen acercar las capacidades del reconocimiento automático de locutor a cualquier persona que tenga acceso a una computadora.
Para el caso del reconocimiento de locutor, surgieron dos cambios relevantes:
a) Alta exactitud para el reconocimiento de locutor continúo basándose en mejores técnicas de modelado de voz.
b) Técnicas de búsqueda de reconocimiento mas avanzadas que reducen el tiempo necesario para un reconocimiento con una mayor exactitud.
El reconocimiento de locutor se esta convirtiendo de manera rápida en una tecnología permisiva, y esta tendrá una gran influencia en la forma en la que las personas se comunican con los ordenadores y con otras personas, ya que anteriormente, el reconocimiento de locutor era una tarea propia de un laboratorio [Makhoul and Schwartz, 1993].
1.2. Técnicas de Reconocimientos de Patrones.
El reconocimiento de patrones es la técnica más específica de todo sistema de reconocimiento. Debido a que la gran mayoría de los reconocedores utilicen esta técnica de reconocimiento de patrones que incorporan. A partir de la representación perimétrica de la voz, la cual se realiza a través de la realización de un proceso de clasificación utilizando una serie de patrones. Estos patrones se obtienen en una fase de entrenamiento del sistema y representan a un conjunto de unidades lingüísticas (palabras, sílabas, sonidos, fonemas) [Rodriguez, 2005].
La peculiaridad más característica de este proceso es la variabilidad temporal que puede presentar una misma unidad lingüística al ser producida por diferentes modos y/o velocidades de habla. Así pues, las primeras técnicas de reconocimiento de patrones utilizadas son las basadas en un Alineamiento Temporal a través de algoritmos de Programación Dinámica, técnicas DTW (Dinamic Time Warping, por sus siglas en ingles),[Rabiner, 1989].
Posteriormente se recurrió a la mayor flexibilidad que el modelado de procesos estocásticos permite para representar secuencias de duración variable. Concretamente la alternativa a las técnicas DTW fueron los Modelos Ocultos de Markov [Groin and Mammon, 1994], (HMM, Hidden Harkov Models por sus siglas en ingles), que pueden verse como una generalización de algoritmos DTW y han demostrado mejores prestaciones en multitud de sistemas de reconocimiento.
2.2.1. Modelado Dependiente del estilo del habla.
Se distinguen tres modos fundamentales de hablar frente a un sistema de reconocimiento:
a) Palabras aisladas: Supone que el usuario pronuncia una sola palabra o comando que el sistema deberá reconocer.
b) Habla conectada: El usuario pronuncia de forma fluida un mensaje utilizando un vocabulario muy restringido; el ejemplo más típico sería la pronunciación de un número telefónico.
c) Habla continua: Corresponde al modo más avanzado de funcionamiento de un reconocedor, y supone la pronunciación de frases de forma natural para un vocabulario amplio de palabras.
Además de los tres modos fundamentales anteriores, los reconocedores de voz tienen que afrontar, para un modelado robusto del habla, los tres aspectos siguientes:
1) Reconocimiento en contexto o "word spotting": Técnica especialmente utilizada en reconocimiento de palabras aisladas, encaminada a detectar la presencia de palabras del vocabulario a reconocer en el contexto de otras palabras o pronunciaciones. La mayoría de las veces el contexto es resultado de la dificultad que encuentra el usuario para ceñirse a la pronunciación de una única palabra aislada. En otras ocasiones, el reconocimiento en contexto es la solución apropiada para robustecer el reconocimiento en ambientes acústicamente hostiles; por ejemplo, cuando la palabra que pronuncia el usuario viene acompañada de ruidos telefónicos, urbanos, etc. En cualquier caso, se trata de una técnica importante para robustecer los sistemas en aplicaciones reales.
2) Rechazo: Otro efecto de la presencia de sonidos indeseados (ruidos, sonidos o palabras fuera del vocabulario), es provocar el reconocimiento de palabras que realmente no han sido pronunciadas. Los procedimientos conocidos como técnicas de rechazo tienen como objetivo permitir incluir entre los resultados de reconocimiento la identificación de esos sonidos indeseados. Nos encontramos ante un problema de gran importancia de cara a la operatividad de un sistema de reconocimiento, que aún hoy no cuenta con una clara solución.
3) Múltiples candidatos: El proceso de reconocimiento de patrones que realiza un reconocedor se basa en identificar el patrón que ofrezca la puntuación más alta para decidir cuál es la mejor palabra o secuencia de palabras reconocida. Este proceso se basa en información exclusivamente acústica, sin tener en consideración otras posibles fuentes de conocimiento que podrían utilizarse para completar las puntuaciones de las diferentes palabras o secuencias candidatas. En la mayoría de los casos, la aplicación en que se encuentra el reconocedor es la que posee la información necesaria que permitiría seleccionar entre varias hipótesis de reconocimiento. Pensemos, por ejemplo, en una aplicación basada en el reconocimiento de números telefónicos; en esa situación, ante las dos hipótesis mejores de reconocimiento, una compuesta de cinco dígitos y otra de siete, la aplicación seleccionaría esta última independientemente de quién obtuviese la mayor puntuación "acústica" en el proceso de clasificación. Los procedimientos que permiten a un reconocedor disponer de la flexibilidad que supone manejar N hipótesis de reconocimiento se denominan N-best [Rabiner and Huang, 1993].
2.2.2. La problemática del reconocimiento de locutor.
El reconocimiento Automático de locutor puede ser visto como un mapeo de una señal propia en el tiempo, seguido de, una elocución, esto a su vez, seguido a una secuencia de entidades discretas, por ejemplo fonemas, palabras o enunciados.
El mayor obstáculo en el reconocimiento de locutor es la gran variabilidad en las características de la elocución, esta variabilidad se conforma de tres componentes principales.
El primer componente se conoce como Variabilidad Lingüística, este incluye los efectos fonéticos, efectos de sintaxis, efectos semánticas.
El segundo componente se conoce como Variabilidad de Locutor. Este incluye variabilidad de infra locutor e interlocutor incluyendo los efectos de coarticulación. Esto es que los efectos de sonidos vecinos en una realización acústica de un fonema en particular debido a la continuidad y a las restricciones en el aparato articulador humano.
El tercer componente se conoce como la Variabilidad de Canal, esto incluye los efectos del ruido del fondo acústico y el ruido proveniente del canal de transmisión, todas estas variaciones tienden a corromper la elocución producida, la cual debe ser corregida en el proceso de reconocimiento.
Diferentes tecnologías son en muchos casos apropiados para diferentes tareas, por ejemplo, cuando el vocabulario en un reconocimiento es pequeño, una sola palabra puede ser modelada como una sola unidad, pero tal aproximación no es practica al momento de utilizar vocabularios de reconocimiento grandes donde las palabras deben de ser modeladas en unidades de sub palabra.
El desempeño de los sistemas de reconocimiento de locutor se describe en términos de “tasa de palabra error” o (E), y lo definimos de manera siguiente:

Donde N es el número total de palabras en el conjunto de prueba, S, I, y D son el número total de substituciones, inserciones y eliminaciones [Zue, 1996].
En los últimos anos la tasa de palabra error ha disminuido por un factor de 2 cada dos años, gracias a la eliminación de barreras como la independencia de locutor, elocución continua y grandes vocabularios. Esto da comienzo a la era de los Modelos Ocultos de Markov, o HMM (por sus siglas en ingles, Hidden Markov Models).
Un gran esfuerzo se ha puesto en el desarrollo de amplios cuerpos de voz para el desarrollo de sistemas de reconocimiento de locutor tales como entrenamiento y prueba.
Actualmente no es poco común tener miles de elocuciones disponibles para estos tipos de sistemas, esto nos permite cuantificar las claves acústicas para contrastes fonéticos, esto para determinar paramentos de reconocimiento en un sentido estadístico.
Los avances computacionales ha tenido una influencia indirecta en el progreso del reconocimiento de locutor, la disponibilidad de computadores mas veloces y con mayor capacidad de almacenamiento ha permitido ejecutar experimentos a gran escala en un periodo de tiempo reducido.
Esto significa que el tiempo transcurrido entre una idea y su implementación y evaluación es reducido en manera significativa.
Los sistemas de reconocimiento automático de locutor que poseen un desempeño razonable pueden ser utilizados en reconocimientos en tiempo real utilizando equipos de trabajo de alta tecnología, algo inimaginable anos atrás.
Actualmente existen diversas y muy variadas técnicas aplicadas a la compensación o eliminación de la variabilidad de canal; aquí se presenta un breve repaso de las técnicas más utilizadas, que mejor funcionamiento han proporcionado y que forman el estado de la ciencia hasta el momento por lo que se considera de utilidad describirlas brevemente:
• CMS (por sus siglas en ingles: Cepstral mean substraction): También conocido como CMN (por sus siglas en ingles: Cepstral mean normalization) En una parametrización basada en coeficientes cepstrales [Sadaoki, 1981], una locución, es dividida en cortas ventanas de tiempo ( ~=20 ms), de la cual son extraídos un cierto número de coeficientes cepstrales. CMN se basa en sustraer para cada coeficiente cepstral extraído la media de dicho coeficiente a lo largo de toda la locución. De esta forma se reduce la distorsión introducida por elementos de variación lenta, como por ejemplo ruido estacionario.[ Stern et al, 1993]
• RASTA: Su objetivo es reducir el efecto del canal de comunicaciones en el espectro y, por tanto, en la parametrización. La normalización RASTA explota las diferencias entre las propiedades temporales de la voz y las propiedades temporales de las distintas distorsiones de canal. Las características del canal varían poco con el tiempo, por lo que sus componentes espectrales son de baja frecuencia, donde no hay demasiada información de la voz. En el filtrado RASTA filtra en el tiempo los valores de energía en cada banda de frecuencias, con el objeto de eliminar dicha componente de baja frecuencia [Hemmanski, 1994].
• FEATURE WARPING: O Características del conjunto CMS modifica la distribución estadística de los parámetros modificando su media. Otras técnicas tratan de modificar otros estadísticos como la varianza (CVN..). Feature warping va más allá al modificar no sólo los parámetros estadísticos de los datos sino también la función de densidad de probabilidad de los mismos para acomodarlos a una distribución normal. De esta forma se puede compensar, en parte, la variación de canal, el ruido aditivo y hasta cierto punto, efectos no lineales debidos a los transductores. [Pelecanos and Sridham, 2001]
• FEATURE MAPPING: O Mapeo de características este enfoque parte de la hipótesis de que la distorsión producida por el canal afecta a los diferentes modos de la distribución estadística de los datos mediante un desplazamiento geométrico de los mismos. Bajo esta hipótesis es posible compensar esta distorsión del canal estudiando las diferencias de las distribuciones de datos no afectados por el canal (al menos idealmente), y aquellos afectados por un tipo concreto de canal, para aplicar después la transformación inversa ( compensar el desplazamiento) a la que produjo el canal [Raynold, 2003].
• CHANNEL FACTORS: Partiendo de ideas similares al caso anterior, channel factors trata de encontrar las direcciones de máxima variabilidad en el espacio de los parámetros o de los modelos, debidas al canal. La cancelación del efecto del canal se realiza mediante una proyección de los parámetros o modelos, en aquellas direcciones que no se consideran afectadas por el canal. [Zue, 1996] [ Dominguez, 1998]
2.2.3. Detección de Actividad de Voz.
Los sistemas de reconocimiento automático de locutor son comúnmente afectados por el ruido de fondo acústico, para anular o disminuir el efecto de el ruido se han desarrollado técnicas de aislamiento, esto para hacer la taza de reconocimiento más eficiente, la gran parte de estas técnicas realiza una estimación estadística del ruido para determinar que parte de una señal corresponde a una elocución y que parte de la misma corresponde a ruido de fondo acústico.
La técnicas mas recientes para la detección de actividad de voz se puede apreciar en [De la torre et al 2006] el cual se basa en la utilización de la aproximación Vector Taylor [Moreno, 1996][Moreno et all, 1996][Stern, Raj, Moreno, 1997][De la Torre, Benitez, 2001] el cual es método de compensación de ruido, este entrega una elocución limpia eliminando el ruido de fondo acústico, dicha compensación esta basada en una mezcla de Gaussianas , esta aproximación asume que el ruido es un termino aditivo en el dominio log FBE,
donde X y Y son los vectores que representan la voz limpia y ruidosa respectivamente, n es el ruido de fondo acústico que afecta a esta trama.
Esto nos proporciona una regla de decisión apropiada de voz/ no voz , esta formulación utilizando la aproximación Vector Taylor nos permite una adaptación de la mezcla Gaussiana a las condiciones de ruido.
2.2.4. VoIP
El interés en las comunicaciones de voz a través del protocolo de Internet (VoIP por sus siglas en ingles) ha ido en aumento en los últimos años y la evolución de la Internet ha generado especulación acerca del desplazamiento del la telefonía PSTN (Public Switched Telephony Network por sus siglas en ingles por la comunicación a través VoIP, esto aun no es posible, debido a que la comunicación a través de IP presenta constantemente una considerable pérdida de paquetes de información durante la transmisión , esto repercute en la calidad de audio, lo que a su vez reduce la eficiencia a la hora de utilizar alguna técnica para el reconocimiento de locutor.
En la actualidad, existen varios estándares de comunicación a través de Internet que compiten por el dominio de la telefonía sobre IP [Toral-Cruz et al, 2005] de los cuales destacan el protocolo H.323 desarrollado por la Unión Internacional de Telecomunicaciones (ITU-IT), este protocolo fue desarrollado originalmente para conferencias multimedia en redes de área local (LAN), este protocolo define 4 componentes lógicos, Terminales, Gateways, Gatekeepers y unidades de control por multipuntos , la figura 1.2 muestra la estructura del protocolo.

El protocolo de iniciación sesión (SIP) es un protocolo de señalización para iniciar, administrar y terminar sesiones de video y voz a través de redes.
Las sesiones que utilizan el protocolo de inicio de sesión involucran la participación de uno o mas usuarios que pueden utilizar la comunicación unicast o multicast.
El protocolo SIP es desarrollado por el grupo de trabajo SIP dentro del grupo de trabajo de ingeniería para Internet (IETF por sus siglas en ingles), la figura 1.3 muestra la operación del protocolo de inicio de sesión.

Una implementación de dichos protocolos puede aplicarse en [Cordovilla, et al 2006] en donde se presenta un reconocedor de voz en tiempo real a través de IP esto por medio de un reconocedor de voz basado en NSR (Network-based Speech Recognition por sus siglas en ingles) para obtener los parámetros que representan la voz. Ambos protocolos tienes sus ventajas y desventajas ya que DSR requieren la definición front-end estándar a seguir por todos los clientes.
El uso de NSR no requiere la utilización de los estándares definidos por el instituto europeo de Estándares para Telecomunicaciones ya que solo es necesario un codificador de voz, cabe mencionar que al utilizar un codificador de voz implicaría una degradación en el reconocimiento.
La aplicación de los entandares de ETS, para los front-end no crea ningún problema desde el punto de vista de arquitectura.
Otro factor importante de se debe de tomar en consideración son los efectos de la perdida de paquetes de información cuando se transmite una elocución codificada a través del protocolo de internet [Mayorga, Besacier, 2006].
En este estudio se lleva a cabo una serie de sesiones de reconocimiento de elocuciones utilizando una base de datos con 120 frases , esto para demostrar la degradación en el reconocimiento cuando se codifica una elocución, se demostró que en condiciones reales el ruido de transmisión degrada la elocución cuando a esta se le aplica un codificador y la perdida de paquetes de información afecta en gran medida al reconocimiento del habla a través de IP. Para contra restar esta perdidas se utilizan varios métodos de reconstrucción de la señal de voz, con estas técnicas se obtuvo una eficiencia de 77 % en el reconocimiento,
2.2.5. Modelos Ocultos de Markov (HMM)
Una alternativa de medir distancias entre patrones (enfoque topográfico) es el de adoptar un modelo estadístico (paramétrico) para cada una de las palabras del vocabulario de reconocimiento, como son los modelos ocultos de Markov.
Estos sistemas son posteriores en el tiempo, y hoy día la mayoría de los reconocedores en funcionamiento se basan en esta técnica estadística, ya que aunque sus prestaciones son similares a las de loa sistemas basados en DTW, requieren menos memoria física y ofrecen un mejor tiempo de respuesta. Tienen como contrapartida una fase de entrenamiento mucho más lento y costoso, pero como esta tarea se realiza una única vez, y se lleva a cabo en los laboratorios. Es un precio que parece valer la pena pagar.
Un HMM es una máquina de estados finitos en que el siguiente estado depende únicamente del estado actual, y asociado a cada transición entre estados se produce un vector de observaciones o parámetros (correspondiente a un punto del espacio n-dimensional del que se hablaba en el apartado anterior). Se puede así decir que un modelo de Markov lleva asociados dos procesos: uno oculto (no observable directamente) correspondiente a las transiciones entre estados, y otro observable (y directamente relacionado con el primero), cuyas realizaciones son los vectores de parámetros que se producen desde cada estado y que forman la plantilla a reconocer.
Para aplicar la teoría de los HMM en reconocimiento de voz, se representa cada palabra del vocabulario del reconocedor con un modelo generativo y posteriormente, se calcula la probabilidad de que la palabra a reconocer haya sido producida por cada uno de los modelos de la base de datos del reconocedor. Para ello, se asume que durante la pronunciación de una palabra, el aparato fonador puede adoptar sólo un número(finito de configuraciones articulatorias (o estados), y que desde cada uno de esos estados se producen uno o. varios vectores de observación (puntos de la plantilla), cuyas características espectrales dependerán del estado en el que se hayan generado Así vista la generación de la palabra, las características espectrales de cada fragmento de señal dependen del estado activo en cada instante, y la evolución del espectro de la señal durante la pronunciación de una palabra depende de la ley de transición entre estados.
La representación más común de un HMM es la utilizada para máquinas de estados finitos, Un tipo de HMMs especialmente apropiado para reconocimiento de voz son los modelos "de izquierda a derecha"; modelos en los que una vez que se ha abandonado un estado, ya no se puede volver a él. La figura 1.4 representa un modelo con 'n' estados en el que desde cada estado sólo se permiten tres tipos de transición: al propio estado, al estado vecino y a dos estados más allá.
En el reconocimiento automático de una elocución existe lo que se denomina aproximación de modelos acústico-fonéticos en el cual la voz es considerada como portadora de dos tipos de información, acústica y fonética.
Una gran parte en este modelado con respecto al reconocimiento de elocución es un pobre tratamiento en el nivel fonético-acústico.
Los experimentos realizados en [Nogueira, et al 2006] muestran una mejora considerable en el reconocimiento de elocuciones continuas.

Un sistema de reconocimiento de elocución básico se basa en un conjunto de modelos acústicos en donde se pueden observar las características de la señal de voz en este tipo de sistemas podemos reconocer tres niveles característicos, los modelos acústicos fonéticos y características acústicas.
Un modelo oculto de Markov o Hidden Markov Model (HMM por sus siglas en ingles), es una colección de estados, cada trama de voz puede estar alojada en un solo estado a la vez, cada HMM esta formado de dos partes diferentes, una matriz de transición y un conjunto funciones de emisiones probabilísticas, la matriz de transición de un estado N, HMM es una matriz N x N. Cada elemento de la matriz representa la probabilidad de desplazar de un estado a otro.
No importando que estructura se utilice, las funciones de densidad probabilística en los estado de los HMM tienen que modelar las características extraídas de la elocución, el objetivo de estas características será la de proveer la máxima información acerca de las elocuciones fonéticas mientras que se neutralizan los efectos de la información presente, así pues, esperamos las características de género y edad independiente.
El objetivo de [Nogueira, et al 2006] es utilizar una trama de doble capa para reducir la varianza en el modelado al separara el modelado acústico y fonético en dos capas entrelazadas, la capa inferior es la capa acústica, en esta capa se captura toda la variabilidad presente en la señal acústica, aun cuando esta no se considere la capa superior, tiene la estructura de un clasificador acústico-fonético cuyos resultados es un vector formado con las probabilidades de cada trama a cada estado del clasificador, la capa superior en una HMM semi continuo donde los vectores característicos no son probabilidades en las características del espacio pero probabilidades en un espacio difuso donde diferentes palabras clave son asignadas a los estados del clasificador de la capa inferior.
2.2.6. Redes Neuronales
También hay que mencionar que, recientemente, la potencia y excelentes capacidades de clasificación mostradas por las denominadas Redes Neuronales Artificiales (RN) las sitúa como posible alternativa frente a los HMM [Song and Huang, 1991]. Hasta el momento las Redes Neuronales han permitido obtener los mejores resultados en Reconocimiento de Locutores, sin embargo en Reconocimiento del Habla encuentran como mayor dificultad la forma de afrontar la variabilidad temporal del habla.
Los modelos computacionales basados en redes neuronales surgieron hace ya relativamente bastante tiempo, pero se abandono su estudio por no disponer de algoritmos eficientes de entrenamiento. Ahora ya no existe esa dificultad, y se ha demostrado ampliamente su enorme potencia computacional [Rodriguez, 2005].
Los sistemas de reconocimiento basados en redes neuronales pretenden, interconectando un conjunto de unidades de proceso (o neuronas) en paralelo (de forma similar que en la mente humana), obtener prestaciones de reconocimiento similares a las humanas, tanto en tiempo de respuesta como en tasa de error. Esa forma de interconexión de las unidades de proceso es especialmente útil en aplicaciones que requieren una gran potencia de cálculo para evaluar varias hipótesis en paralelo, como sucede en los problemas de reconocimiento de voz.
Las unidades de proceso pueden ser de varios tipos; las más simples (y utilizadas) disponen de varias entradas, y la salida es el resultado de aplicar alguna transformación no lineal a la combinación lineal de todas las entradas. Otro tipo de neuronas un poco más elaborado se caracteriza por disponer de memoria; en ellas la salida en cada momento depende de entradas anteriores en el tiempo.
La forma en que las neuronas se conectan entre si define la topología de la red, y se puede decir que el tipo de problemas que una red neuronal particular soluciona de forma eficiente, depende de la topología de la red, del tipo de neuronas que la forman, y la forma concreta en que se entrena la red.
Igual que se dijo para las técnicas anteriores, una red neural debe ser entrenada para resolver un tipo determinado de problemas. El algoritmo particular de entrenamiento dependerá de la estructura interna de las neuronas [R. Nay, et al 1992], pero, en cualquier caso, el entrenamiento se llevara a cabo a partir de una base de datos etiquetada, como sucedía con los modelos de Markov, y será un proceso iterativo en el que se modifican los parámetros de la red para que ante un conjunto determinado de estímulos (plantillas), produzca una respuesta determinada: la palabra del vocabulario representada por esas plantillas
La figura 1.5 muestra la topología de una red neuronal, las neuronas se disponen por "capas"; hay una capa de entrada, que opera directamente sobre los vectores de observación o puntos de las plantillas, una capa de salida que apunta la palabra reconocida, y una o más capas intermedias.

Cada capa está compuesta por varias unidades de proceso, que se conectan con la siguiente capa por una serie de enlaces a los que se da un cierto peso especifico wij.
El conjunto de vectores de características entra en la capa de neuronas de entrada, y posteriormente es propagado a las capas siguientes.
En cada célula de proceso se calcula la suma ponderada (por los pesos wij) de las señales de entrada, y posteriormente se procesa en la neurona con su sistema no lineal. Si el resultado de esta operación supera un cierto umbral, la neurona reacciona, transmitiendo señal a las neuronas siguientes de la capa superior.
En la fase de entrenamiento, dada una entrada conocida (p.ej. un conjunto de vectores que representa el dígito 1), la salida de la red es comparada con la salida esperada (y conocida de antemano), calculándose un error. Ese error se propaga hacia abajo, ajustándose de esta manera los pesos de las conexiones entre neuronas. Efectuándose este proceso varias veces se consigue que la red "aprenda" que respuesta debe dar para cada entrada en la fase de reconocimiento.
REFERENCIAS:
[Cordovilla et al 2006]
J. A. M. Cordovilla, T. Bauman, J. L. P. Córdoba,
A. M. P. Herreros, Á. M.G. García, Implementación de un reconocedor distribuido de voz en tiempo real sobre IP, IV Jornadas en Tecnología del Habla, Zaragoza , España, Noviembre de 2006, ISBN: 84-96214-82-6
[De la Torre, Benitez, 2001] J.C. Segura, A. de la Torre, M.C. Benítez, and A.M.
Peinado, Model-based compensation of the additive
noise for continuous speech recognition. Experiments
using the Aurora-II database and tasks, in Proc. of EuroSpeech-2001, 2001, pp. 221–224.
[De la Torre et al, 2006 ] Á.de la Torre, J. Ramírez, C. Benítez, J. C. Segura, L. García, J. Rubio. Detección de Actividad de Voz robusta al ruido basada en modelos acústicos. IV Jornadas en Tecnología del Habla, Zaragoza , España, Noviembre de 2006, ISBN: 84-96214-82-6
[Deroo, 1999] O. Deroo, A Short introduction to speech recognition.
TCTS Lab Research Groups, Belgium, 1999,
ISBN. 2-88074-388-5
[Dominguez, 1998] J. G. Domínguez. Nuevas técnicas de compensación de
canal en reconocimiento de locutor e idioma,
Tesis de Licenciatura, Escuela Politécnica Superior,
Universidad Autónoma de Madrid, España.1998
[Groin, Mammon, 1994] Groin and R. Mammon, Introduction to the Special Issue on Neural Networks for Speech Processing. Speech and Audio Proc., vol. 1: 113-114 (1994).
[Hemmanski, 1994] Hynek Hermansky.
RASTA Processing of Speech .
IEEE Transactions on speech and audio
processing,Vol.2,No.4 October 1994, ISSN: 1063-6676
[Makhoul and Schwartz, 1993] J. Makhoul, R. Schwartz, State of the art in continuous
speech recognition. BBN Systems and Technologies
Journal, Cambridge, Massachusetts, 1993,
ISBN:0-309-04988-1
[Mayorga, Besacier, 2006].
P. Mayorga, L. Besacier, Voice over IP and Vocal Recognition. 3rd ICEEE, Veracruz, México, Sept. 2006, ISBN: 1-4244-0403-7
[Morelos, 2006] R. L. Morelos G. Detección de Puntos Inicio-Fin de
Palabra y su Influencia en Reconocimiento de Locutor.
Instituto Tecnológico de Mexicali,
Tesis de Licenciatura, Mexicali, Mexico (2006).
[Moreno, 1996] P.J. Moreno, Speech Recognition in Noisy Environments, Ph.D. thesis, Carnegie Mellon University, Pittsburgh, Pensilvania, 1996.
[Moreno et all, 1996] P.J. Moreno, B. Raj, and R.M. Stern, A vector Taylor series approach for environment-independent speech recognition, in Proc. of ICASSP-96, Atlanta, GA, USA, 1996, pp. 733–736, ISBN: 0-7803-3192-3
[Nogueiras, et al 2006] A. Nogueiras, M. Casar, J. A. R. Fonollosa, M. Caballero. First Experiments on an HMM Based Double Layer Framework for Automatic Continuous Speech Recognition. IV Jornadas en Tecnología del Habla, Zaragoza , España, Noviembre de 2006,
ISBN: 84-96214-82-6
[Pelecanos, Sridham, 2001] J.Pelecanos, S.Sridham.
Feature Warping for robust speaker verification in Proc.
ISCA workshop on speaker Recognition -2001:
A speaker Oddissey. Crete, Greece, June 2001
[Rabiner 1989] L. R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proc. IEEE 77(2), 257-286 (1989), ISBN:1-55860-124-4
[Rabiner, Huang, 1993] L. Rabiner and B. Huang, Fundamentals of Speech Recognition. Prentice Hall, pp. 449-450, New York (1993).
[Raynold, 2003] Douglas A Reynold. Channel robust speaker
verification by feature mapping.
Proceedings. (ICASSP '03). 2003 IEEE International
Conference, 2003, ISBN: 0-7803-7663-3
[Rodriguez, 2005] D. A. F. Rodríguez, Estado del arte en el reconocimiento Automático de voz , Universidad Nacional de Colombia, Seminario de Investigación Abril de 2005
[R. Nay, et al, 1992] R. Nay, et al.: Improvements in beam search for 10.000-word continuous speech recognition. In Proc. CASS 92, vol. I, pp. 9-12 (1992).
[Sadaoki, 1981] Furui Sadaoki. Cepstral analysis technique for automatic speaker verification. IEEE Transactions on speech and audio processing,Vol.ASSP-29,No.2 .April 1981, ISSN: 0096-3518
[Song, Huang, 1991] Song and E. Huang, A tree-trellis based fast search for finding the N best sentence hypotheses in continuous speech recognition. In Proc. CASS 91, pp. 537-540 (1991)
[Stern et all, 1993] Liu F., Stern R., Huang X. and Acero A.
Efficient Cepstral Normalization for Robust Speech Recognition. Proceedings of ARPA Human Language Technology Workshop, New Jersey, March 1993, ISBN:1-55860-324-7
[Stern, Raj, Moreno, 1997] R.M. Stern, B. Raj, and P.J. Moreno, Compensation
for environmental degradation in automatic speech recognition,” ESCA-NATO Tutorial and Research Workshop on Robust Speech Recognition for Unknown Communication Channels, 1997, pp.33–42
1.2. Reconocimiento del habla y de locutor
El reconocimiento automático del habla tiene como finalidad permitir la comunicación entre seres humanos y computadoras, esto puede ser de utilidad en ambientes como operaciones bancarias o control de aduanas, así como también puede ser utilizado por personas con algún tipo de discapacidad.
En 1994 IBM introdujo el primer sistema de reconocimiento de voz, desde entonces el reconocimiento de locutor ha sido aplicado tecnologías de comunicación y multimedia.
El reconocimiento automático de locutor puede obtenerse mediante varios métodos, los más comunes son:
- Dependencia de locutor.
- Independencia de locutor.
- Reconocimiento de elocuciones aisladas.
1.1.1. Dependencia de Locutor:
Un sistema de reconocimiento el cual es dependiente de locutor es aquel que puede ser entrenado utilizando un locutor especifico para que el sistema lo pueda reconocer con un mayor grado de exactitud, para entrenar al sistema en este método, el locutor debe grabar varias palabras o enunciados los cuales serán reconocidos por el sistema de reconocimiento.
1.1.2. Independencia de Locutor:
Este tipo de reconocimiento pueden ser utilizado con locutores sin ningún tipo de entrenamiento con el sistema, este método de reconocimiento es utilizado en situaciones donde no es necesario tener una sesión de entrenamiento, por ejemplo en un control de aduanas.
1.1.3. Reconocimiento de elocuciones aisladas:
Este método de reconocimiento requiere un menor requerimiento de software y hardware ya que cada elocución producida por el locutor contiene silencio acústico al principio y al final de la elocución, por lo tanto se conocen sus puntos de inicio y fin, esta elocución será comparada contra una base de datos de elocuciones modelo y la que se asemeje mas a la elocución producida será retenida por el sistema, este tipo de reconocimiento es aplicado comúnmente en telefonía fija [Deroo, 1999].
1.2. Generalidades en el reconocimiento de locutor.
Un sistema de reconocimiento de locutor básico consta de las siguientes etapas:
El reconocimiento automático de locutor permite al sistema de reconocimiento interpretar el significado de nuestras palabras y a partir de ellas tomar decisiones y ejecutar órdenes.
Dependiendo de la aplicación de RAL( Reconocimiento Automático de Locutor) el ordenador deberá confirmar previamente que el usuario que realiza la llamada está autorizado a acceder a la información y tiene la opción de dar órdenes, haciendo necesario abordar un segundo problema.
El reconocimiento de locutor permite al sistema conocer quién es la persona que accede al sistema (identificación de locutor), o pedir una clave al locutor (código secreto) y comprobar que realmente es quien dice ser (verificación de locutor). Sin lugar a dudas, en las aplicaciones en las que la seguridad desempeñe un papel importante, la voz es la característica biométrica, personal e intransferible, más fácil de enviar por medio telefónico, frente a otros sistemas como huellas dactilares, análisis de la retina, etc.
Entre las principales aplicaciones del reconocimiento del habla caben destacar las siguientes cuatro:
Los Servicios de audiotext, los cuales consisten en sistemas de navegación de menús mediante números, es posible extraer información de cines, transportes, procesos de renovación de documentos, etc. Por ejemplo, un sistema RAL puede preguntarnos nuestro código postal para informarnos de la oficina de policía más cercana para renovar el documento nacional de identidad. La principal ventaja respecto a un sistema de información clásico es la posibilidad de disponer del servicio las 24 horas del día todos los días del año, o disponer del servicio en varios idiomas seleccionables mediante la información de los menús.
La Trascripción automática de conversaciones, estas se desarrollan a partir de señales de voz de entrada, haciendo posible la generación de archivos de texto de salida, fácilmente procesable dentro de una computadora, y almacenable con un tamaño considerablemente menor.
El Dictado automático de textos en el caso de personas con algún tipo de discapacidad resulta útil la posibilidad de dar órdenes a través de la voz y redactar textos sin necesidad de usar el teclado.
Finalmente el Control a distancia: mediante una conexión telefónica y un sistema de reconocimiento automático de locutor con el algoritmo adecuado, pueden realizarse consultas de saldos bancarios, dar órdenes de compra y venta de acciones, controlar la calefacción de nuestros hogares, sistemas de riego, entre muchas aplicaciones posibles
Entre las principales aplicaciones del reconocimiento de locutor caben destacar al menos las siguientes tres:
El uso para el control de acceso a recintos o informaciones: mediante la voz posibilita la identificación de personas y permitirles acceder o no a fábricas, hogares, informaciones bancarias privadas o de determinados grupos de trabajo, etc.
Con la utilización del Reconocimiento de sospechosos a partir de grabaciones policiales es posible identificar a qué individuo pertenece la voz de la grabación.
Otra utilización importante se refiere a la Trascripción automática de reuniones: ya que en reuniones con diversos oradores con frecuencia es importante disponer de la trascripción de las frases habladas (reconocimiento del habla), así como de las identidades de las personas que han realizado las elocuciones.
Si bien las prestaciones de los sistemas actuales son inferiores a la capacidad humana para reconocer palabras e identificar personas a partir de la voz, existen productos comerciales en el mercado que cada vez ofrecen una mayor precisión.
Capitulo II: Estado del Arte del Reconocimiento de locutor.
En los últimos años se ha notado un considerable avance respecto a temas relacionados con el reconocimiento de locutor, gracias a los avances en la reducción de la tasa de igual error [Morelos, 2006], al igual que el incremento en la velocidad del reconocimiento. Esto nos permite una mayor exactitud al momento de realizar un reconocimiento de locutor de texto independiente gracias a la disposición de grandes vocabularios, esto sin la necesidad de equipos de trabajo especiales.
Un cambio en el paradigma ocurre cuando varios desarrollos convergen para crear nuevas técnicas de reconocimiento automático de locutor, actualmente los cambios cualitativos en el estado del arte prometen acercar las capacidades del reconocimiento automático de locutor a cualquier persona que tenga acceso a una computadora.
Para el caso del reconocimiento de locutor, surgieron dos cambios relevantes:
a) Alta exactitud para el reconocimiento de locutor continúo basándose en mejores técnicas de modelado de voz.
b) Técnicas de búsqueda de reconocimiento mas avanzadas que reducen el tiempo necesario para un reconocimiento con una mayor exactitud.
El reconocimiento de locutor se esta convirtiendo de manera rápida en una tecnología permisiva, y esta tendrá una gran influencia en la forma en la que las personas se comunican con los ordenadores y con otras personas, ya que anteriormente, el reconocimiento de locutor era una tarea propia de un laboratorio [Makhoul and Schwartz, 1993].
1.2. Técnicas de Reconocimientos de Patrones.
El reconocimiento de patrones es la técnica más específica de todo sistema de reconocimiento. Debido a que la gran mayoría de los reconocedores utilicen esta técnica de reconocimiento de patrones que incorporan. A partir de la representación perimétrica de la voz, la cual se realiza a través de la realización de un proceso de clasificación utilizando una serie de patrones. Estos patrones se obtienen en una fase de entrenamiento del sistema y representan a un conjunto de unidades lingüísticas (palabras, sílabas, sonidos, fonemas) [Rodriguez, 2005].
La peculiaridad más característica de este proceso es la variabilidad temporal que puede presentar una misma unidad lingüística al ser producida por diferentes modos y/o velocidades de habla. Así pues, las primeras técnicas de reconocimiento de patrones utilizadas son las basadas en un Alineamiento Temporal a través de algoritmos de Programación Dinámica, técnicas DTW (Dinamic Time Warping, por sus siglas en ingles),[Rabiner, 1989].
Posteriormente se recurrió a la mayor flexibilidad que el modelado de procesos estocásticos permite para representar secuencias de duración variable. Concretamente la alternativa a las técnicas DTW fueron los Modelos Ocultos de Markov [Groin and Mammon, 1994], (HMM, Hidden Harkov Models por sus siglas en ingles), que pueden verse como una generalización de algoritmos DTW y han demostrado mejores prestaciones en multitud de sistemas de reconocimiento.
2.2.1. Modelado Dependiente del estilo del habla.
Se distinguen tres modos fundamentales de hablar frente a un sistema de reconocimiento:
a) Palabras aisladas: Supone que el usuario pronuncia una sola palabra o comando que el sistema deberá reconocer.
b) Habla conectada: El usuario pronuncia de forma fluida un mensaje utilizando un vocabulario muy restringido; el ejemplo más típico sería la pronunciación de un número telefónico.
c) Habla continua: Corresponde al modo más avanzado de funcionamiento de un reconocedor, y supone la pronunciación de frases de forma natural para un vocabulario amplio de palabras.
Además de los tres modos fundamentales anteriores, los reconocedores de voz tienen que afrontar, para un modelado robusto del habla, los tres aspectos siguientes:
1) Reconocimiento en contexto o "word spotting": Técnica especialmente utilizada en reconocimiento de palabras aisladas, encaminada a detectar la presencia de palabras del vocabulario a reconocer en el contexto de otras palabras o pronunciaciones. La mayoría de las veces el contexto es resultado de la dificultad que encuentra el usuario para ceñirse a la pronunciación de una única palabra aislada. En otras ocasiones, el reconocimiento en contexto es la solución apropiada para robustecer el reconocimiento en ambientes acústicamente hostiles; por ejemplo, cuando la palabra que pronuncia el usuario viene acompañada de ruidos telefónicos, urbanos, etc. En cualquier caso, se trata de una técnica importante para robustecer los sistemas en aplicaciones reales.
2) Rechazo: Otro efecto de la presencia de sonidos indeseados (ruidos, sonidos o palabras fuera del vocabulario), es provocar el reconocimiento de palabras que realmente no han sido pronunciadas. Los procedimientos conocidos como técnicas de rechazo tienen como objetivo permitir incluir entre los resultados de reconocimiento la identificación de esos sonidos indeseados. Nos encontramos ante un problema de gran importancia de cara a la operatividad de un sistema de reconocimiento, que aún hoy no cuenta con una clara solución.
3) Múltiples candidatos: El proceso de reconocimiento de patrones que realiza un reconocedor se basa en identificar el patrón que ofrezca la puntuación más alta para decidir cuál es la mejor palabra o secuencia de palabras reconocida. Este proceso se basa en información exclusivamente acústica, sin tener en consideración otras posibles fuentes de conocimiento que podrían utilizarse para completar las puntuaciones de las diferentes palabras o secuencias candidatas. En la mayoría de los casos, la aplicación en que se encuentra el reconocedor es la que posee la información necesaria que permitiría seleccionar entre varias hipótesis de reconocimiento. Pensemos, por ejemplo, en una aplicación basada en el reconocimiento de números telefónicos; en esa situación, ante las dos hipótesis mejores de reconocimiento, una compuesta de cinco dígitos y otra de siete, la aplicación seleccionaría esta última independientemente de quién obtuviese la mayor puntuación "acústica" en el proceso de clasificación. Los procedimientos que permiten a un reconocedor disponer de la flexibilidad que supone manejar N hipótesis de reconocimiento se denominan N-best [Rabiner and Huang, 1993].
2.2.2. La problemática del reconocimiento de locutor.
El reconocimiento Automático de locutor puede ser visto como un mapeo de una señal propia en el tiempo, seguido de, una elocución, esto a su vez, seguido a una secuencia de entidades discretas, por ejemplo fonemas, palabras o enunciados.
El mayor obstáculo en el reconocimiento de locutor es la gran variabilidad en las características de la elocución, esta variabilidad se conforma de tres componentes principales.
El primer componente se conoce como Variabilidad Lingüística, este incluye los efectos fonéticos, efectos de sintaxis, efectos semánticas.
El segundo componente se conoce como Variabilidad de Locutor. Este incluye variabilidad de infra locutor e interlocutor incluyendo los efectos de coarticulación. Esto es que los efectos de sonidos vecinos en una realización acústica de un fonema en particular debido a la continuidad y a las restricciones en el aparato articulador humano.
El tercer componente se conoce como la Variabilidad de Canal, esto incluye los efectos del ruido del fondo acústico y el ruido proveniente del canal de transmisión, todas estas variaciones tienden a corromper la elocución producida, la cual debe ser corregida en el proceso de reconocimiento.
Diferentes tecnologías son en muchos casos apropiados para diferentes tareas, por ejemplo, cuando el vocabulario en un reconocimiento es pequeño, una sola palabra puede ser modelada como una sola unidad, pero tal aproximación no es practica al momento de utilizar vocabularios de reconocimiento grandes donde las palabras deben de ser modeladas en unidades de sub palabra.
El desempeño de los sistemas de reconocimiento de locutor se describe en términos de “tasa de palabra error” o (E), y lo definimos de manera siguiente:
Donde N es el número total de palabras en el conjunto de prueba, S, I, y D son el número total de substituciones, inserciones y eliminaciones [Zue, 1996].
En los últimos anos la tasa de palabra error ha disminuido por un factor de 2 cada dos años, gracias a la eliminación de barreras como la independencia de locutor, elocución continua y grandes vocabularios. Esto da comienzo a la era de los Modelos Ocultos de Markov, o HMM (por sus siglas en ingles, Hidden Markov Models).
Un gran esfuerzo se ha puesto en el desarrollo de amplios cuerpos de voz para el desarrollo de sistemas de reconocimiento de locutor tales como entrenamiento y prueba.
Actualmente no es poco común tener miles de elocuciones disponibles para estos tipos de sistemas, esto nos permite cuantificar las claves acústicas para contrastes fonéticos, esto para determinar paramentos de reconocimiento en un sentido estadístico.
Los avances computacionales ha tenido una influencia indirecta en el progreso del reconocimiento de locutor, la disponibilidad de computadores mas veloces y con mayor capacidad de almacenamiento ha permitido ejecutar experimentos a gran escala en un periodo de tiempo reducido.
Esto significa que el tiempo transcurrido entre una idea y su implementación y evaluación es reducido en manera significativa.
Los sistemas de reconocimiento automático de locutor que poseen un desempeño razonable pueden ser utilizados en reconocimientos en tiempo real utilizando equipos de trabajo de alta tecnología, algo inimaginable anos atrás.
Actualmente existen diversas y muy variadas técnicas aplicadas a la compensación o eliminación de la variabilidad de canal; aquí se presenta un breve repaso de las técnicas más utilizadas, que mejor funcionamiento han proporcionado y que forman el estado de la ciencia hasta el momento por lo que se considera de utilidad describirlas brevemente:
• CMS (por sus siglas en ingles: Cepstral mean substraction): También conocido como CMN (por sus siglas en ingles: Cepstral mean normalization) En una parametrización basada en coeficientes cepstrales [Sadaoki, 1981], una locución, es dividida en cortas ventanas de tiempo ( ~=20 ms), de la cual son extraídos un cierto número de coeficientes cepstrales. CMN se basa en sustraer para cada coeficiente cepstral extraído la media de dicho coeficiente a lo largo de toda la locución. De esta forma se reduce la distorsión introducida por elementos de variación lenta, como por ejemplo ruido estacionario.[ Stern et al, 1993]
• RASTA: Su objetivo es reducir el efecto del canal de comunicaciones en el espectro y, por tanto, en la parametrización. La normalización RASTA explota las diferencias entre las propiedades temporales de la voz y las propiedades temporales de las distintas distorsiones de canal. Las características del canal varían poco con el tiempo, por lo que sus componentes espectrales son de baja frecuencia, donde no hay demasiada información de la voz. En el filtrado RASTA filtra en el tiempo los valores de energía en cada banda de frecuencias, con el objeto de eliminar dicha componente de baja frecuencia [Hemmanski, 1994].
• FEATURE WARPING: O Características del conjunto CMS modifica la distribución estadística de los parámetros modificando su media. Otras técnicas tratan de modificar otros estadísticos como la varianza (CVN..). Feature warping va más allá al modificar no sólo los parámetros estadísticos de los datos sino también la función de densidad de probabilidad de los mismos para acomodarlos a una distribución normal. De esta forma se puede compensar, en parte, la variación de canal, el ruido aditivo y hasta cierto punto, efectos no lineales debidos a los transductores. [Pelecanos and Sridham, 2001]
• FEATURE MAPPING: O Mapeo de características este enfoque parte de la hipótesis de que la distorsión producida por el canal afecta a los diferentes modos de la distribución estadística de los datos mediante un desplazamiento geométrico de los mismos. Bajo esta hipótesis es posible compensar esta distorsión del canal estudiando las diferencias de las distribuciones de datos no afectados por el canal (al menos idealmente), y aquellos afectados por un tipo concreto de canal, para aplicar después la transformación inversa ( compensar el desplazamiento) a la que produjo el canal [Raynold, 2003].
• CHANNEL FACTORS: Partiendo de ideas similares al caso anterior, channel factors trata de encontrar las direcciones de máxima variabilidad en el espacio de los parámetros o de los modelos, debidas al canal. La cancelación del efecto del canal se realiza mediante una proyección de los parámetros o modelos, en aquellas direcciones que no se consideran afectadas por el canal. [Zue, 1996] [ Dominguez, 1998]
2.2.3. Detección de Actividad de Voz.
Los sistemas de reconocimiento automático de locutor son comúnmente afectados por el ruido de fondo acústico, para anular o disminuir el efecto de el ruido se han desarrollado técnicas de aislamiento, esto para hacer la taza de reconocimiento más eficiente, la gran parte de estas técnicas realiza una estimación estadística del ruido para determinar que parte de una señal corresponde a una elocución y que parte de la misma corresponde a ruido de fondo acústico.
La técnicas mas recientes para la detección de actividad de voz se puede apreciar en [De la torre et al 2006] el cual se basa en la utilización de la aproximación Vector Taylor [Moreno, 1996][Moreno et all, 1996][Stern, Raj, Moreno, 1997][De la Torre, Benitez, 2001] el cual es método de compensación de ruido, este entrega una elocución limpia eliminando el ruido de fondo acústico, dicha compensación esta basada en una mezcla de Gaussianas , esta aproximación asume que el ruido es un termino aditivo en el dominio log FBE,
Esto nos proporciona una regla de decisión apropiada de voz/ no voz , esta formulación utilizando la aproximación Vector Taylor nos permite una adaptación de la mezcla Gaussiana a las condiciones de ruido.
2.2.4. VoIP
El interés en las comunicaciones de voz a través del protocolo de Internet (VoIP por sus siglas en ingles) ha ido en aumento en los últimos años y la evolución de la Internet ha generado especulación acerca del desplazamiento del la telefonía PSTN (Public Switched Telephony Network por sus siglas en ingles por la comunicación a través VoIP, esto aun no es posible, debido a que la comunicación a través de IP presenta constantemente una considerable pérdida de paquetes de información durante la transmisión , esto repercute en la calidad de audio, lo que a su vez reduce la eficiencia a la hora de utilizar alguna técnica para el reconocimiento de locutor.
En la actualidad, existen varios estándares de comunicación a través de Internet que compiten por el dominio de la telefonía sobre IP [Toral-Cruz et al, 2005] de los cuales destacan el protocolo H.323 desarrollado por la Unión Internacional de Telecomunicaciones (ITU-IT), este protocolo fue desarrollado originalmente para conferencias multimedia en redes de área local (LAN), este protocolo define 4 componentes lógicos, Terminales, Gateways, Gatekeepers y unidades de control por multipuntos , la figura 1.2 muestra la estructura del protocolo.
El protocolo de iniciación sesión (SIP) es un protocolo de señalización para iniciar, administrar y terminar sesiones de video y voz a través de redes.
Las sesiones que utilizan el protocolo de inicio de sesión involucran la participación de uno o mas usuarios que pueden utilizar la comunicación unicast o multicast.
El protocolo SIP es desarrollado por el grupo de trabajo SIP dentro del grupo de trabajo de ingeniería para Internet (IETF por sus siglas en ingles), la figura 1.3 muestra la operación del protocolo de inicio de sesión.
Una implementación de dichos protocolos puede aplicarse en [Cordovilla, et al 2006] en donde se presenta un reconocedor de voz en tiempo real a través de IP esto por medio de un reconocedor de voz basado en NSR (Network-based Speech Recognition por sus siglas en ingles) para obtener los parámetros que representan la voz. Ambos protocolos tienes sus ventajas y desventajas ya que DSR requieren la definición front-end estándar a seguir por todos los clientes.
El uso de NSR no requiere la utilización de los estándares definidos por el instituto europeo de Estándares para Telecomunicaciones ya que solo es necesario un codificador de voz, cabe mencionar que al utilizar un codificador de voz implicaría una degradación en el reconocimiento.
La aplicación de los entandares de ETS, para los front-end no crea ningún problema desde el punto de vista de arquitectura.
Otro factor importante de se debe de tomar en consideración son los efectos de la perdida de paquetes de información cuando se transmite una elocución codificada a través del protocolo de internet [Mayorga, Besacier, 2006].
En este estudio se lleva a cabo una serie de sesiones de reconocimiento de elocuciones utilizando una base de datos con 120 frases , esto para demostrar la degradación en el reconocimiento cuando se codifica una elocución, se demostró que en condiciones reales el ruido de transmisión degrada la elocución cuando a esta se le aplica un codificador y la perdida de paquetes de información afecta en gran medida al reconocimiento del habla a través de IP. Para contra restar esta perdidas se utilizan varios métodos de reconstrucción de la señal de voz, con estas técnicas se obtuvo una eficiencia de 77 % en el reconocimiento,
2.2.5. Modelos Ocultos de Markov (HMM)
Una alternativa de medir distancias entre patrones (enfoque topográfico) es el de adoptar un modelo estadístico (paramétrico) para cada una de las palabras del vocabulario de reconocimiento, como son los modelos ocultos de Markov.
Estos sistemas son posteriores en el tiempo, y hoy día la mayoría de los reconocedores en funcionamiento se basan en esta técnica estadística, ya que aunque sus prestaciones son similares a las de loa sistemas basados en DTW, requieren menos memoria física y ofrecen un mejor tiempo de respuesta. Tienen como contrapartida una fase de entrenamiento mucho más lento y costoso, pero como esta tarea se realiza una única vez, y se lleva a cabo en los laboratorios. Es un precio que parece valer la pena pagar.
Un HMM es una máquina de estados finitos en que el siguiente estado depende únicamente del estado actual, y asociado a cada transición entre estados se produce un vector de observaciones o parámetros (correspondiente a un punto del espacio n-dimensional del que se hablaba en el apartado anterior). Se puede así decir que un modelo de Markov lleva asociados dos procesos: uno oculto (no observable directamente) correspondiente a las transiciones entre estados, y otro observable (y directamente relacionado con el primero), cuyas realizaciones son los vectores de parámetros que se producen desde cada estado y que forman la plantilla a reconocer.
Para aplicar la teoría de los HMM en reconocimiento de voz, se representa cada palabra del vocabulario del reconocedor con un modelo generativo y posteriormente, se calcula la probabilidad de que la palabra a reconocer haya sido producida por cada uno de los modelos de la base de datos del reconocedor. Para ello, se asume que durante la pronunciación de una palabra, el aparato fonador puede adoptar sólo un número(finito de configuraciones articulatorias (o estados), y que desde cada uno de esos estados se producen uno o. varios vectores de observación (puntos de la plantilla), cuyas características espectrales dependerán del estado en el que se hayan generado Así vista la generación de la palabra, las características espectrales de cada fragmento de señal dependen del estado activo en cada instante, y la evolución del espectro de la señal durante la pronunciación de una palabra depende de la ley de transición entre estados.
La representación más común de un HMM es la utilizada para máquinas de estados finitos, Un tipo de HMMs especialmente apropiado para reconocimiento de voz son los modelos "de izquierda a derecha"; modelos en los que una vez que se ha abandonado un estado, ya no se puede volver a él. La figura 1.4 representa un modelo con 'n' estados en el que desde cada estado sólo se permiten tres tipos de transición: al propio estado, al estado vecino y a dos estados más allá.
En el reconocimiento automático de una elocución existe lo que se denomina aproximación de modelos acústico-fonéticos en el cual la voz es considerada como portadora de dos tipos de información, acústica y fonética.
Una gran parte en este modelado con respecto al reconocimiento de elocución es un pobre tratamiento en el nivel fonético-acústico.
Los experimentos realizados en [Nogueira, et al 2006] muestran una mejora considerable en el reconocimiento de elocuciones continuas.
Un sistema de reconocimiento de elocución básico se basa en un conjunto de modelos acústicos en donde se pueden observar las características de la señal de voz en este tipo de sistemas podemos reconocer tres niveles característicos, los modelos acústicos fonéticos y características acústicas.
Un modelo oculto de Markov o Hidden Markov Model (HMM por sus siglas en ingles), es una colección de estados, cada trama de voz puede estar alojada en un solo estado a la vez, cada HMM esta formado de dos partes diferentes, una matriz de transición y un conjunto funciones de emisiones probabilísticas, la matriz de transición de un estado N, HMM es una matriz N x N. Cada elemento de la matriz representa la probabilidad de desplazar de un estado a otro.
No importando que estructura se utilice, las funciones de densidad probabilística en los estado de los HMM tienen que modelar las características extraídas de la elocución, el objetivo de estas características será la de proveer la máxima información acerca de las elocuciones fonéticas mientras que se neutralizan los efectos de la información presente, así pues, esperamos las características de género y edad independiente.
El objetivo de [Nogueira, et al 2006] es utilizar una trama de doble capa para reducir la varianza en el modelado al separara el modelado acústico y fonético en dos capas entrelazadas, la capa inferior es la capa acústica, en esta capa se captura toda la variabilidad presente en la señal acústica, aun cuando esta no se considere la capa superior, tiene la estructura de un clasificador acústico-fonético cuyos resultados es un vector formado con las probabilidades de cada trama a cada estado del clasificador, la capa superior en una HMM semi continuo donde los vectores característicos no son probabilidades en las características del espacio pero probabilidades en un espacio difuso donde diferentes palabras clave son asignadas a los estados del clasificador de la capa inferior.
2.2.6. Redes Neuronales
También hay que mencionar que, recientemente, la potencia y excelentes capacidades de clasificación mostradas por las denominadas Redes Neuronales Artificiales (RN) las sitúa como posible alternativa frente a los HMM [Song and Huang, 1991]. Hasta el momento las Redes Neuronales han permitido obtener los mejores resultados en Reconocimiento de Locutores, sin embargo en Reconocimiento del Habla encuentran como mayor dificultad la forma de afrontar la variabilidad temporal del habla.
Los modelos computacionales basados en redes neuronales surgieron hace ya relativamente bastante tiempo, pero se abandono su estudio por no disponer de algoritmos eficientes de entrenamiento. Ahora ya no existe esa dificultad, y se ha demostrado ampliamente su enorme potencia computacional [Rodriguez, 2005].
Los sistemas de reconocimiento basados en redes neuronales pretenden, interconectando un conjunto de unidades de proceso (o neuronas) en paralelo (de forma similar que en la mente humana), obtener prestaciones de reconocimiento similares a las humanas, tanto en tiempo de respuesta como en tasa de error. Esa forma de interconexión de las unidades de proceso es especialmente útil en aplicaciones que requieren una gran potencia de cálculo para evaluar varias hipótesis en paralelo, como sucede en los problemas de reconocimiento de voz.
Las unidades de proceso pueden ser de varios tipos; las más simples (y utilizadas) disponen de varias entradas, y la salida es el resultado de aplicar alguna transformación no lineal a la combinación lineal de todas las entradas. Otro tipo de neuronas un poco más elaborado se caracteriza por disponer de memoria; en ellas la salida en cada momento depende de entradas anteriores en el tiempo.
La forma en que las neuronas se conectan entre si define la topología de la red, y se puede decir que el tipo de problemas que una red neuronal particular soluciona de forma eficiente, depende de la topología de la red, del tipo de neuronas que la forman, y la forma concreta en que se entrena la red.
Igual que se dijo para las técnicas anteriores, una red neural debe ser entrenada para resolver un tipo determinado de problemas. El algoritmo particular de entrenamiento dependerá de la estructura interna de las neuronas [R. Nay, et al 1992], pero, en cualquier caso, el entrenamiento se llevara a cabo a partir de una base de datos etiquetada, como sucedía con los modelos de Markov, y será un proceso iterativo en el que se modifican los parámetros de la red para que ante un conjunto determinado de estímulos (plantillas), produzca una respuesta determinada: la palabra del vocabulario representada por esas plantillas
La figura 1.5 muestra la topología de una red neuronal, las neuronas se disponen por "capas"; hay una capa de entrada, que opera directamente sobre los vectores de observación o puntos de las plantillas, una capa de salida que apunta la palabra reconocida, y una o más capas intermedias.
Cada capa está compuesta por varias unidades de proceso, que se conectan con la siguiente capa por una serie de enlaces a los que se da un cierto peso especifico wij.
El conjunto de vectores de características entra en la capa de neuronas de entrada, y posteriormente es propagado a las capas siguientes.
En cada célula de proceso se calcula la suma ponderada (por los pesos wij) de las señales de entrada, y posteriormente se procesa en la neurona con su sistema no lineal. Si el resultado de esta operación supera un cierto umbral, la neurona reacciona, transmitiendo señal a las neuronas siguientes de la capa superior.
En la fase de entrenamiento, dada una entrada conocida (p.ej. un conjunto de vectores que representa el dígito 1), la salida de la red es comparada con la salida esperada (y conocida de antemano), calculándose un error. Ese error se propaga hacia abajo, ajustándose de esta manera los pesos de las conexiones entre neuronas. Efectuándose este proceso varias veces se consigue que la red "aprenda" que respuesta debe dar para cada entrada en la fase de reconocimiento.
REFERENCIAS:
[Cordovilla et al 2006]
J. A. M. Cordovilla, T. Bauman, J. L. P. Córdoba,
A. M. P. Herreros, Á. M.G. García, Implementación de un reconocedor distribuido de voz en tiempo real sobre IP, IV Jornadas en Tecnología del Habla, Zaragoza , España, Noviembre de 2006, ISBN: 84-96214-82-6
[De la Torre, Benitez, 2001] J.C. Segura, A. de la Torre, M.C. Benítez, and A.M.
Peinado, Model-based compensation of the additive
noise for continuous speech recognition. Experiments
using the Aurora-II database and tasks, in Proc. of EuroSpeech-2001, 2001, pp. 221–224.
[De la Torre et al, 2006 ] Á.de la Torre, J. Ramírez, C. Benítez, J. C. Segura, L. García, J. Rubio. Detección de Actividad de Voz robusta al ruido basada en modelos acústicos. IV Jornadas en Tecnología del Habla, Zaragoza , España, Noviembre de 2006, ISBN: 84-96214-82-6
[Deroo, 1999] O. Deroo, A Short introduction to speech recognition.
TCTS Lab Research Groups, Belgium, 1999,
ISBN. 2-88074-388-5
[Dominguez, 1998] J. G. Domínguez. Nuevas técnicas de compensación de
canal en reconocimiento de locutor e idioma,
Tesis de Licenciatura, Escuela Politécnica Superior,
Universidad Autónoma de Madrid, España.1998
[Groin, Mammon, 1994] Groin and R. Mammon, Introduction to the Special Issue on Neural Networks for Speech Processing. Speech and Audio Proc., vol. 1: 113-114 (1994).
[Hemmanski, 1994] Hynek Hermansky.
RASTA Processing of Speech .
IEEE Transactions on speech and audio
processing,Vol.2,No.4 October 1994, ISSN: 1063-6676
[Makhoul and Schwartz, 1993] J. Makhoul, R. Schwartz, State of the art in continuous
speech recognition. BBN Systems and Technologies
Journal, Cambridge, Massachusetts, 1993,
ISBN:0-309-04988-1
[Mayorga, Besacier, 2006].
P. Mayorga, L. Besacier, Voice over IP and Vocal Recognition. 3rd ICEEE, Veracruz, México, Sept. 2006, ISBN: 1-4244-0403-7
[Morelos, 2006] R. L. Morelos G. Detección de Puntos Inicio-Fin de
Palabra y su Influencia en Reconocimiento de Locutor.
Instituto Tecnológico de Mexicali,
Tesis de Licenciatura, Mexicali, Mexico (2006).
[Moreno, 1996] P.J. Moreno, Speech Recognition in Noisy Environments, Ph.D. thesis, Carnegie Mellon University, Pittsburgh, Pensilvania, 1996.
[Moreno et all, 1996] P.J. Moreno, B. Raj, and R.M. Stern, A vector Taylor series approach for environment-independent speech recognition, in Proc. of ICASSP-96, Atlanta, GA, USA, 1996, pp. 733–736, ISBN: 0-7803-3192-3
[Nogueiras, et al 2006] A. Nogueiras, M. Casar, J. A. R. Fonollosa, M. Caballero. First Experiments on an HMM Based Double Layer Framework for Automatic Continuous Speech Recognition. IV Jornadas en Tecnología del Habla, Zaragoza , España, Noviembre de 2006,
ISBN: 84-96214-82-6
[Pelecanos, Sridham, 2001] J.Pelecanos, S.Sridham.
Feature Warping for robust speaker verification in Proc.
ISCA workshop on speaker Recognition -2001:
A speaker Oddissey. Crete, Greece, June 2001
[Rabiner 1989] L. R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proc. IEEE 77(2), 257-286 (1989), ISBN:1-55860-124-4
[Rabiner, Huang, 1993] L. Rabiner and B. Huang, Fundamentals of Speech Recognition. Prentice Hall, pp. 449-450, New York (1993).
[Raynold, 2003] Douglas A Reynold. Channel robust speaker
verification by feature mapping.
Proceedings. (ICASSP '03). 2003 IEEE International
Conference, 2003, ISBN: 0-7803-7663-3
[Rodriguez, 2005] D. A. F. Rodríguez, Estado del arte en el reconocimiento Automático de voz , Universidad Nacional de Colombia, Seminario de Investigación Abril de 2005
[R. Nay, et al, 1992] R. Nay, et al.: Improvements in beam search for 10.000-word continuous speech recognition. In Proc. CASS 92, vol. I, pp. 9-12 (1992).
[Sadaoki, 1981] Furui Sadaoki. Cepstral analysis technique for automatic speaker verification. IEEE Transactions on speech and audio processing,Vol.ASSP-29,No.2 .April 1981, ISSN: 0096-3518
[Song, Huang, 1991] Song and E. Huang, A tree-trellis based fast search for finding the N best sentence hypotheses in continuous speech recognition. In Proc. CASS 91, pp. 537-540 (1991)
[Stern et all, 1993] Liu F., Stern R., Huang X. and Acero A.
Efficient Cepstral Normalization for Robust Speech Recognition. Proceedings of ARPA Human Language Technology Workshop, New Jersey, March 1993, ISBN:1-55860-324-7
[Stern, Raj, Moreno, 1997] R.M. Stern, B. Raj, and P.J. Moreno, Compensation
for environmental degradation in automatic speech recognition,” ESCA-NATO Tutorial and Research Workshop on Robust Speech Recognition for Unknown Communication Channels, 1997, pp.33–42
Comments (0)
Publicar un comentario