Posted by RM | Posted in Tesis Mestria | Posted on 7:27
Capitulo I:
Estado del Arte
1.1 Reconocimiento del habla y de locutor
El reconocimiento automático del habla permite al sistema interpretar el significado de nuestras palabras y a partir de ellas tomar decisiones, ejecutar órdenes, etc.
Dependiendo de la aplicación el ordenador deberá confirmar previamente que el usuario que realiza la llamada está autorizado a acceder a la información, dar órdenes, etc. haciendo necesario abordar un segundo problema.
El reconocimiento de locutor permite al sistema conocer quién es la persona que accede al sistema (identificación de locutor), o pedir una clave al locutor (código secreto) y comprobar que realmente es quien dice ser (verificación de locutor). Sin lugar a dudas, en las aplicaciones en las que la seguridad desempeñe un papel importante, la voz es la característica biométrica, personal e intransferible, más fácil de enviar por medio telefónico, frente a otros sistemas como huellas dactilares, análisis de la retina, etc.
Entre las principales aplicaciones del reconocimiento del habla cabe destacar:
Servicios de audiotext: a partir de un sistema de navegación de menús mediante números, es posible extraer información de cines, transportes, procesos de renovación de documentos, etc. Por ejemplo, un sistema puede preguntarnos nuestro código postal para informarnos de la oficina de policía más cercana para renovar el documento nacional de identidad. La principal ventaja respecto a un sistema de información clásico es la posibilidad de disponer del servicio las 24 horas del día todos los días del año, o disponer del servicio en varios idiomas seleccionables mediante la información de los menús.
Trascripción automática de conversaciones: a partir de las señales de voz de entrada es posible generar un fichero de texto de salida, fácilmente procesable dentro de un ordenador, y almacenable con un tamaño sensiblemente menor.
Dictado automático de textos: para discapacitados resulta útil la posibilidad de dar órdenes a través de la voz, redactar textos sin necesidad de usar el teclado, etc.
Control a distancia: mediante una conexión telefónica y un sistema con el programa adecuado, pueden realizarse consultas de saldos bancarios, dar órdenes de compra y venta de acciones, controlar la calefacción de nuestros hogares, sistemas de riego, etc.
Entre las principales aplicaciones del reconocimiento de locutor cabe destacar:
Acceso a recintos o informaciones: mediante la voz es posible identificar a las personas, y permitirles acceder o no a fábricas, hogares, informaciones bancarias privadas o de determinados grupos de trabajo, etc.
Reconocimiento de sospechosos: a partir de grabaciones policiales, es posible identificar a qué individuo pertenece la voz de la grabación.
Trascripción automática de reuniones: en reuniones con diversos oradores interesa disponer de la trascripción de las frases habladas (reconocimiento del habla), así como de las identidades de las personas que han realizado las elocuciones.
Si bien las prestaciones de los sistemas actuales son inferiores a la capacidad humana para reconocer palabras e identificar personas a partir de la voz, existen productos comerciales en el mercado que cada vez ofrecen una mayor precisión
1.2 Estado del Arte del Reconocimiento de Locutor.
En los últimos anos se ha notado un considerable avance cuando se habla acerca del reconocimiento de locutor, esto debido a los avances en la reducción de la tasa de igual error, al igual que el incremento en la velocidad del reconocimiento, esto nos permite una mayor exactitud al momento de realizar un reconocimiento de locutor de texto independiente utilizando grandes vocabularios, esto sin la necesidad de equipos de trabajo especiales(Workstation).
Recientemente se ha presentado cambios cualitativos en el estado del arte, esto promete acercar la capacidades de reconocimiento de locutor a cualquier persona que tenga acceso a una computadora.
Un cambio en el paradigma ocurre cuando varios desarrollos convergen para crear nuevas técnicas de reconocimiento, para el caso del reconocimiento de locutor, surgieron dos cambios:
- Alta exactitud para el reconocimiento de locutor continúo basándose en mejores técnicas de modelado de voz.
- Técnicas de búsqueda de reconocimiento mas avanzadas, esto reduce el tiempo necesario para un reconocimiento con una mayor exactitud.
El reconocimiento de locutor se esta convirtiendo de manera rápida en una tecnología permisiva, y esta tendrá una gran influencia en la forma en la que las personas se comunican con los ordenadores y con otras personas, ya que anteriormente, el reconocimiento de locutor era una tarea propia de un laboratorio.
1.3 La Problemática del Reconocimiento de Locutor.
El reconocimiento Automático de locutor puede ser visto como un mapeo de una señal propia en el tiempo, seguido de, una elocución, esto a su vez, seguido a una secuencia de entidades discretas, por ejemplo fonemas, palabras o enunciados.
El mayor obstáculo en el reconocimiento de locutor es la gran variabilidad en las características de la elocución, esta variabilidad tiene se conforma de tres componentes principales.
El primer componente se conoce como Variabilidad Lingüística, este incluye los efectos fonéticos, efectos de sintaxis, efectos semánticas .
El segundo componente se conoce como Variabilidad de Locutor, este incluye variabilidad de infra e interlocutor incluyendo los efectos de coarticulacion, esto es que los efectos de sonidos vecinos en una realización acústica de un fonema en particular debido a la continuidad y a las restricciones en el aprato articulador humano.
El tercer componente se conoce como la Variabilidad de Canal, esto incluye los efectos del ruido del fondo acústico y el ruido proveniente del canal de transmisión, todas estas variaciones tienden a corromper la elocución producida, la cual debe ser corregida en el proceso de reconocimiento.
Diferentes tecnologías son en muchos casos apropiados para diferentes tareas, por ejemplo, cuando el vocabulario en un reconocimiento es pequeño, una sola palabra puede ser modelada como una sola unidad, pero tal aproximación no es practica al momento de utilizar vocabularios de reconocimiento grandes donde las palabras deben de ser modeladas en unidades de sub palabra.
El desempeño de los sistemas de reconocimiento de locutor se describe en términos de “tasa de palabra error” o E, lo definimos de manera siguiente:
![]()
Donde N es el numero total de palabras en el conjunto de prueba, S, I, y D son el numero total de substituciones, inserciones y eliminaciones.
En los últimos anos la tasa de palabra error ha disminuido por un factor de 2 cada dos anos, esto debido a la eliminación de barreras de la independencia de locutor, elocución continua y grandes vocabularios.
Esto da comienzo a la era de los Modelos Ocultos de Harkov, o HMM (por sus siglas en ingles, Hidden Harkov Models).
Un gran esfuerzo se ha puesto en el desarrollo de amplios cuerpos de voz para el desarrollo de sistemas de reconocimiento de locutor tales como entrenamiento y prueba.
Actualmente no es poco común tener miles de elocuciones disponibles para estos tipos de sistemas, esto nos permite cuantificar las claves acústicas para contrastes fonéticos, esto para determinar paramentos de reconocimiento en un sentido estadístico.
Los avances computacionales ha tenido una influencia indirecta en el progreso del reconocimiento de locutor, la disponibilidad de computadores mas veloces y con mayor capacidad de almacenamiento ha permitido ejecutar experimentos a gran escala en un periodo de tiempo reducido.
Esto significa que el tiempo transcurrido entre una idea y su implementación y evaluación es reducido en manera significativa.
Los sistemas de reconocimiento automático de locutor que poseen un desempeño razonable pueden ser utilizados en reconocimientos en tiempo real utilizando equipos de trabajo de alta tecnología, algo inimaginable anos atrás.
Actualmente existen diversas y muy variadas técnicas aplicadas a la compensación o eliminación de la variabilidad de canal; aquí se presenta un breve repaso de las técnicas más utilizadas ,que mejor funcionamiento han proporcionado y que forman el estado del arte actual.
CMS : (cepstral mean substraction), también conocido como CMN(cepstral mean normalization) En una parametrización basada en coeficientes cepstrales [5], una locución, es dividida en cortas ventanas de tiempo ( ~=20 ms), de la cual son extraídos un
cierto número de coeficientes cepstrales. CMN se basa en sustraer para cada coeficiente cepstral extraído la media de dicho coeficiente a lo largo de toda la locución.
De esta forma se reduce la distorsión introducida por elementos de variación lenta, como por ejemplo ruido estacionario.[6]
RASTA: Su objetivo es reducir el efecto del canal de comunicaciones en el espectro y, por tanto, en la parametrización. La normalización RASTA explota las diferencias entre las propiedades temporales de la voz y las propiedades temporales de las distintas distorsiones de canal.
Las características del canal varían poco con el tiempo, por lo que sus componentes espectrales son de baja frecuencia, donde no hay demasiada información de la voz.
En el filtrado RASTA filtra en el tiempo los valores de energía en cada banda de frecuencias, con el objeto de eliminar dicha componente de baja frecuencia[7].
FEATURE WARPING: CMS modifica la distribución estadística de los parámetros modificando su media. Otras técnicas tratan de modificar otros estadísticos como la varianza (CVN..).
Feature warping va más allá al modificar no sólo los parámetros estadísticos de los datos sino también la función de densidad de probabilidad de los mismos para acomodarlos a una distribución normal.
De esta forma se puede compensar, en parte, la variación de canal, el ruido aditivo y hasta cierto punto, efectos no lineales debidos a los transductores. [8]
FEATURE MAPPING: Este enfoque parte de la hipótesis de que la distorsión producida por el canal afecta a los diferentes modos de la distribución estadística de los datos mediante un desplazamiento geométrico de los mismos. Bajo esta hipótesis es posible compensar esta distorsión del canal estudiando las diferencias de las distribuciones de datos no afectados por el canal (al menos idealmente), y aquellos afectados por un tipo concreto de canal, para aplicar después la transformación inversa ( compensar el desplazamiento) a la que produjo el canal [9].
CHANNEL FACTORS: Partiendo de ideas similares al caso anterior, channel factors trata de encontrar las direcciones de máxima variabilidad en el espacio de los parámetros o de los modelos, debidas al canal. La cancelación del efecto del canal se realiza mediante una proyección de los parámetros o modelos, en aquellas direcciones que no se consideran afectadas por el canal. [4]
Comments (0)
Publicar un comentario