Tesis Maestria MIT: Capítulo I: Introducción.

Capítulo I: Introducción.

Posted by RM | Posted in Capitulo I | Posted on 15:31

1. Capítulo I: Introducción.
1.1. Antecedentes del reconocimiento del habla como preludio al análisis de señales del pulmón

En este capítulo iniciamos hablando de conceptos ligados a tecnologías de procesamiento de voz, la intención es primero hacer una revisión de estos conceptos ya que nuestro propósito es aplicar estas tecnologías a señales bioacústicas del pulmón. Lo anterior obedece al hecho de que los modelos fisiológicos de la respiración y el habla poseen semejanzas en cuanto a la generación de harmónicas en la señal. El reconocimiento automático del habla tiene como finalidad permitir la comunicación entre seres humanos y computadoras, esto puede ser de utilidad en ambientes como operaciones bancarias o control de aduanas, así como también puede ser utilizado por personas con algún tipo de discapacidad.
En 1994 IBM introdujo el primer sistema de reconocimiento de voz, desde entonces el reconocimiento de locutor ha sido aplicado tecnologías de comunicación y multimedia.
El reconocimiento automático de locutor puede obtenerse mediante varios métodos, los más comunes son:
• Dependencia de locutor.
• Independencia de locutor.
• Reconocimiento de elocuciones aisladas.

1.1.1. Dependencia de Locutor:
Un sistema de reconocimiento el cual es dependiente de locutor es aquel que puede ser entrenado utilizando un locutor especifico para que el sistema lo pueda reconocer con un mayor grado de exactitud, para entrenar al sistema en este método, el locutor debe grabar varias palabras o enunciados los cuales serán reconocidos por el sistema de reconocimiento.
1.1.2. Independencia de Locutor:
Este tipo de reconocimiento pueden ser utilizado con locutores sin ningún tipo de entrenamiento con el sistema, este método de reconocimiento es utilizado en situaciones donde no es necesario tener una sesión de entrenamiento, por ejemplo en un control de aduanas.

1.1.3. Reconocimiento de elocuciones asiladas:
Este método de reconocimiento requiere un menor requerimiento de software y hardware ya que cada elocución producida por el locutor contiene silencio acústico al principio y al final de la elocución, por lo tanto se conocen sus puntos de inicio y fin, esta elocución será comparada contra una base de datos de elocuciones modelo y la que se asemeje mas a la elocución producida será retenida por el sistema, este tipo de reconocimiento es aplicado comúnmente en telefonía fija [Deroo, 1999].

1.2. Generalidades en el reconocimiento de locutor.

Un sistema de reconocimiento de locutor básico consta de las siguientes etapas:

Figura 1.1 Diagrama a bloques de un sistema de RAL (reconocimiento automático de locutor) básico.

El reconocimiento automático de locutor permite al sistema de reconocimiento interpretar el significado de nuestras palabras y a partir de ellas tomar decisiones y ejecutar órdenes.
Dependiendo de la aplicación de RAL( Reconocimiento Automático de Locutor) el ordenador deberá confirmar previamente que el usuario que realiza la llamada está autorizado a acceder a la información y tiene la opción de dar órdenes, haciendo necesario abordar un segundo problema.

El reconocimiento de locutor permite al sistema conocer quién es la persona que accede al sistema (identificación de locutor), o pedir una clave al locutor (código secreto) y comprobar que realmente es quien dice ser (verificación de locutor). Sin lugar a dudas, en las aplicaciones en las que la seguridad desempeñe un papel importante, la voz es la característica biométrica, personal e intransferible, más fácil de enviar por medio telefónico, frente a otros sistemas como huellas dactilares, análisis de la retina, etc.
Entre las principales aplicaciones del reconocimiento del habla caben destacarla siguientes cuatro:
Los Servicios de audiotext, los cuales consisten en sistemas de navegación de menús mediante números, es posible extraer información de cines, transportes, procesos de renovación de documentos, etc. Por ejemplo, un sistema RAL puede preguntarnos nuestro código postal para informarnos de la oficina de policía más cercana para renovar el documento nacional de identidad. La principal ventaja respecto a un sistema de información clásico es la posibilidad de disponer del servicio las 24 horas del día todos los días del año, o disponer del servicio en varios idiomas seleccionables mediante la información de los menús.
La Trascripción automática de conversaciones, estas se desarrollan a partir de señales de voz de entrada, haciendo posible la generación de archivos de texto de salida, fácilmente procesable dentro de una computadora, y almacenable con un tamaño considerablemente menor.
El Dictado automático de textos en el caso de personas con algún tipo de discapacidad resulta útil la posibilidad de dar órdenes a través de la voz y redactar textos sin necesidad de usar el teclado.
Finalmente el Control a distancia: mediante una conexión telefónica y un sistema de reconocimiento automático de locutor con el algoritmo adecuado, pueden realizarse consultas de saldos bancarios, dar órdenes de compra y venta de acciones, controlar la calefacción de nuestros hogares, sistemas de riego, entre muchas aplicaciones posibles
Entre las principales aplicaciones del reconocimiento de locutor caben destacar al menos las siguientes tres:
El uso para el control de acceso a recintos o informaciones: mediante la voz posibilita la identificación de personas y permitirles acceder o no a fábricas, hogares, informaciones bancarias privadas o de determinados grupos de trabajo, etc.
Con la utilización del Reconocimiento de sospechosos a partir de grabaciones policiales es posible identificar a qué individuo pertenece la voz de la grabación.
Otra utilización importante se refiere a la Trascripción automática de reuniones: ya que en reuniones con diversos oradores con frecuencia es importante disponer de la trascripción de las frases habladas (reconocimiento del habla), así como de las identidades de las personas que han realizado las elocuciones.
Si bien las prestaciones de los sistemas actuales son inferiores a la capacidad humana para reconocer palabras e identificar personas a partir de la voz, existen productos comerciales en el mercado que cada vez ofrecen una mayor precisión.

Comments (0)

Publicar un comentario

Tesis Maestria MIT Análisis de frecuencia y energía en señales pulmonares

Capítulo I: Introducción.

Posted by RM | Posted in Capitulo I | Posted on 15:31

Comments (0)

Blog Archive

Labels