Escrito Tesis Abril 20 - 2010

Posted by RM | Posted in | Posted on 15:39

1. Capítulo I: Introducción.
1.1. Antecedentes del reconocimiento del habla como preludio al análisis de señales del pulmón

En este capítulo iniciamos hablando de conceptos ligados a tecnologías de procesamiento de voz, la intención es primero hacer una revisión de estos conceptos ya que nuestro propósito es aplicar estas tecnologías a señales bioacústicas del pulmón. Lo anterior obedece al hecho de que los modelos fisiológicos de la respiración y el habla poseen semejanzas en cuanto a la generación de harmónicas en la señal. El reconocimiento automático del habla tiene como finalidad permitir la comunicación entre seres humanos y computadoras, esto puede ser de utilidad en ambientes como operaciones bancarias o control de aduanas, así como también puede ser utilizado por personas con algún tipo de discapacidad.

En 1994 IBM introdujo el primer sistema de reconocimiento de voz, desde entonces el reconocimiento de locutor ha sido aplicado tecnologías de comunicación y multimedia.
El reconocimiento automático de locutor puede obtenerse mediante varios métodos, los más comunes son:
• Dependencia de locutor.
• Independencia de locutor.
• Reconocimiento de elocuciones aisladas.

1.1.1. Dependencia de Locutor:
Un sistema de reconocimiento el cual es dependiente de locutor es aquel que puede ser entrenado utilizando un locutor especifico para que el sistema lo pueda reconocer con un mayor grado de exactitud, para entrenar al sistema en este método, el locutor debe grabar varias palabras o enunciados los cuales serán reconocidos por el sistema de reconocimiento.
1.1.2. Independencia de Locutor:
Este tipo de reconocimiento pueden ser utilizado con locutores sin ningún tipo de entrenamiento con el sistema, este método de reconocimiento es utilizado en situaciones donde no es necesario tener una sesión de entrenamiento, por ejemplo en un control de aduanas.

1.1.3. Reconocimiento de elocuciones asiladas:
Este método de reconocimiento requiere un menor requerimiento de software y hardware ya que cada elocución producida por el locutor contiene silencio acústico al principio y al final de la elocución, por lo tanto se conocen sus puntos de inicio y fin, esta elocución será comparada contra una base de datos de elocuciones modelo y la que se asemeje mas a la elocución producida será retenida por el sistema, este tipo de reconocimiento es aplicado comúnmente en telefonía fija [Deroo, 1999].

1.2. Generalidades en el reconocimiento de locutor.

Un sistema de reconocimiento de locutor básico consta de las siguientes etapas:




Figura 1.1 Diagrama a bloques de un sistema de RAL (reconocimiento automático de locutor) básico.

El reconocimiento automático de locutor permite al sistema de reconocimiento interpretar el significado de nuestras palabras y a partir de ellas tomar decisiones y ejecutar órdenes.
Dependiendo de la aplicación de RAL( Reconocimiento Automático de Locutor) el ordenador deberá confirmar previamente que el usuario que realiza la llamada está autorizado a acceder a la información y tiene la opción de dar órdenes, haciendo necesario abordar un segundo problema.

El reconocimiento de locutor permite al sistema conocer quién es la persona que accede al sistema (identificación de locutor), o pedir una clave al locutor (código secreto) y comprobar que realmente es quien dice ser (verificación de locutor). Sin lugar a dudas, en las aplicaciones en las que la seguridad desempeñe un papel importante, la voz es la característica biométrica, personal e intransferible, más fácil de enviar por medio telefónico, frente a otros sistemas como huellas dactilares, análisis de la retina, etc.
Entre las principales aplicaciones del reconocimiento del habla caben destacarla siguientes cuatro:
Los Servicios de audiotext, los cuales consisten en sistemas de navegación de menús mediante números, es posible extraer información de cines, transportes, procesos de renovación de documentos, etc. Por ejemplo, un sistema RAL puede preguntarnos nuestro código postal para informarnos de la oficina de policía más cercana para renovar el documento nacional de identidad. La principal ventaja respecto a un sistema de información clásico es la posibilidad de disponer del servicio las 24 horas del día todos los días del año, o disponer del servicio en varios idiomas seleccionables mediante la información de los menús.
La Trascripción automática de conversaciones, estas se desarrollan a partir de señales de voz de entrada, haciendo posible la generación de archivos de texto de salida, fácilmente procesable dentro de una computadora, y almacenable con un tamaño considerablemente menor.
El Dictado automático de textos en el caso de personas con algún tipo de discapacidad resulta útil la posibilidad de dar órdenes a través de la voz y redactar textos sin necesidad de usar el teclado.
Finalmente el Control a distancia: mediante una conexión telefónica y un sistema de reconocimiento automático de locutor con el algoritmo adecuado, pueden realizarse consultas de saldos bancarios, dar órdenes de compra y venta de acciones, controlar la calefacción de nuestros hogares, sistemas de riego, entre muchas aplicaciones posibles
Entre las principales aplicaciones del reconocimiento de locutor caben destacar al menos las siguientes tres:
El uso para el control de acceso a recintos o informaciones: mediante la voz posibilita la identificación de personas y permitirles acceder o no a fábricas, hogares, informaciones bancarias privadas o de determinados grupos de trabajo, etc.
Con la utilización del Reconocimiento de sospechosos a partir de grabaciones policiales es posible identificar a qué individuo pertenece la voz de la grabación.
Otra utilización importante se refiere a la Trascripción automática de reuniones: ya que en reuniones con diversos oradores con frecuencia es importante disponer de la trascripción de las frases habladas (reconocimiento del habla), así como de las identidades de las personas que han realizado las elocuciones.
Si bien las prestaciones de los sistemas actuales son inferiores a la capacidad humana para reconocer palabras e identificar personas a partir de la voz, existen productos comerciales en el mercado que cada vez ofrecen una mayor precisión.












2. Capítulo II: Estado del Arte en Reconocimiento.
En los últimos años se ha notado un considerable avance respecto a temas relacionados con el reconocimiento de locutor, gracias a los avances en la reducción de la tasa de igual error [Morelos, 2006], al igual que el incremento en la velocidad del reconocimiento. Esto nos permite una mayor exactitud al momento de realizar un reconocimiento de locutor de texto independiente gracias a la disposición de grandes vocabularios, esto sin la necesidad de equipos de trabajo especiales.
Un cambio en el paradigma ocurre cuando varios desarrollos convergen para crear nuevas técnicas de reconocimiento automático de locutor, actualmente los cambios cualitativos en el estado del arte prometen acercar las capacidades del reconocimiento automático de locutor a cualquier persona que tenga acceso a una computadora.
Para el caso del reconocimiento de locutor, surgieron dos cambios relevantes:
a) Alta exactitud para el reconocimiento de locutor continúo basándose en mejores técnicas de modelado de voz.
b) Técnicas de búsqueda de reconocimiento mas avanzadas que reducen el tiempo necesario para un reconocimiento con una mayor exactitud.
El reconocimiento de locutor se esta convirtiendo de manera rápida en una tecnología permisiva, y esta tendrá una gran influencia en la forma en la que las personas se comunican con los ordenadores y con otras personas, ya que anteriormente, el reconocimiento de locutor era una tarea propia de un laboratorio [Makhoul and Schwartz, 1993].





2.1. Técnicas de Reconocimiento de Patrones Para señales bioacústicas.

El reconocimiento de patrones es la técnica más específica de todo sistema de reconocimiento. Debido a que la gran mayoría de los reconocedores utilicen esta técnica de reconocimiento de patrones que incorporan. A partir de la representación perimétrica de la voz, la cual se realiza a través de la realización de un proceso de clasificación utilizando una serie de patrones. Estos patrones se obtienen en una fase de entrenamiento del sistema y representan a un conjunto de unidades lingüísticas (palabras, sílabas, sonidos, fonemas) [Rodriguez, 2005].
La peculiaridad más característica de este proceso es la variabilidad temporal que puede presentar una misma unidad lingüística al ser producida por diferentes modos y/o velocidades de habla. Así pues, las primeras técnicas de reconocimiento de patrones utilizadas son las basadas en un Alineamiento Temporal a través de algoritmos de Programación Dinámica, técnicas DTW (Dinamic Time Warping, por sus siglas en ingles),[Rabiner, 1989].
Posteriormente se recurrió a la mayor flexibilidad que el modelado de procesos estocásticos permite para representar secuencias de duración variable. Concretamente la alternativa a las técnicas DTW fueron los Modelos Ocultos de Markov [Groin and Mammon, 1994], (HMM, Hidden Harkov Models por sus siglas en ingles), que pueden verse como una generalización de algoritmos DTW y han demostrado mejores prestaciones en multitud de sistemas de reconocimiento.
El desempeño de los sistemas de reconocimiento del habla se describe en términos de “tasa de palabra error” o (E), y lo definimos de manera siguiente:
(Ecu. 1)


Donde N es el número total de palabras en el conjunto de prueba, S, I, y D son el número total de substituciones, inserciones y eliminaciones [Zue, 1996]. La ecuación (ecu. 1) podría ser de utilidad para evaluar la eficiencia en un sistema de detección de señales adventicias del pulmón [Mayorga et al, 2010].
En los últimos anos la tasa de palabra error ha disminuido por un factor de 2 cada dos años, gracias a la eliminación de barreras como la independencia de locutor, elocución continua y grandes vocabularios. Esto da comienzo a la era de los Modelos Ocultos de Markov, o HMM (por sus siglas en ingles, Hidden Markov Models).
Un gran esfuerzo se ha puesto en el desarrollo de amplios cuerpos de voz para el desarrollo de sistemas de reconocimiento de locutor tales como entrenamiento y prueba.
Actualmente no es poco común tener miles de elocuciones disponibles para estos tipos de sistemas, esto nos permite cuantificar las claves acústicas para contrastes fonéticos, esto para determinar paramentos de reconocimiento en un sentido estadístico.
Los avances computacionales ha tenido una influencia indirecta en el progreso del reconocimiento de locutor, la disponibilidad de computadores mas veloces y con mayor capacidad de almacenamiento ha permitido ejecutar experimentos a gran escala en un periodo de tiempo reducido.
Esto significa que el tiempo transcurrido entre una idea y su implementación y evaluación es reducido en manera significativa.
Los sistemas de reconocimiento automático de locutor que poseen un desempeño razonable pueden ser utilizados en reconocimientos en tiempo real utilizando equipos de trabajo de alta tecnología, algo inimaginable anos atrás.
Actualmente existen diversas y muy variadas técnicas aplicadas a la compensación o eliminación de la variabilidad de canal; aquí se presenta un breve repaso de las técnicas más utilizadas, que mejor funcionamiento han proporcionado y que forman el estado de la ciencia hasta el momento por lo que se considera de utilidad describirlas brevemente:

• CMS (por sus siglas en ingles: Cepstral mean substraction): También conocido como CMN (por sus siglas en ingles: Cepstral mean normalization) En una parametrización basada en coeficientes cepstrales [Sadaoki, 1981], una locución, es dividida en cortas ventanas de tiempo ( ~=20 ms), de la cual son extraídos un cierto número de coeficientes cepstrales. CMN se basa en sustraer para cada coeficiente cepstral extraído la media de dicho coeficiente a lo largo de toda la locución. De esta forma se reduce la distorsión introducida por elementos de variación lenta, como por ejemplo ruido estacionario.[ Stern et al, 1993]
• RASTA: Su objetivo es reducir el efecto del canal de comunicaciones en el espectro y, por tanto, en la parametrización. La normalización RASTA explota las diferencias entre las propiedades temporales de la voz y las propiedades temporales de las distintas distorsiones de canal. Las características del canal varían poco con el tiempo, por lo que sus componentes espectrales son de baja frecuencia, donde no hay demasiada información de la voz. En el filtrado RASTA filtra en el tiempo los valores de energía en cada banda de frecuencias, con el objeto de eliminar dicha componente de baja frecuencia [Hemmanski, 1994].
• FEATURE WARPING: O Características del conjunto CMS modifica la distribución estadística de los parámetros modificando su media. Otras técnicas tratan de modificar otros estadísticos como la varianza (CVN..). Feature warping va más allá al modificar no sólo los parámetros estadísticos de los datos sino también la función de densidad de probabilidad de los mismos para acomodarlos a una distribución normal. De esta forma se puede compensar, en parte, la variación de canal, el ruido aditivo y hasta cierto punto, efectos no lineales debidos a los transductores. [Pelecanos and Sridham, 2001]
• FEATURE MAPPING: O Mapeo de características este enfoque parte de la hipótesis de que la distorsión producida por el canal afecta a los diferentes modos de la distribución estadística de los datos mediante un desplazamiento geométrico de los mismos. Bajo esta hipótesis es posible compensar esta distorsión del canal estudiando las diferencias de las distribuciones de datos no afectados por el canal (al menos idealmente), y aquellos afectados por un tipo concreto de canal, para aplicar después la transformación inversa ( compensar el desplazamiento) a la que produjo el canal [Reynolds, 2003].
• FACTORES DE CANAL: Partiendo de ideas similares al caso anterior, factores de canal trata de encontrar las direcciones de máxima variabilidad en el espacio de los parámetros o de los modelos, debidas al canal. La cancelación del efecto del canal se realiza mediante una proyección de los parámetros o modelos, en aquellas direcciones que no se consideran afectadas por el canal. [Zue, 1996] [ Dominguez, 1998].

2.1.1. Detección de Actividad en una señal acústica.
Los sistemas de reconocimiento automático de locutor son comúnmente afectados por el ruido de fondo acústico, para anular o disminuir el efecto de el ruido se han desarrollado técnicas de aislamiento, esto para hacer la taza de reconocimiento más eficiente, la gran parte de estas técnicas realiza una estimación estadística del ruido para determinar que parte de una señal corresponde a una elocución y que parte de la misma corresponde a ruido de fondo acústico.
La técnicas mas recientes para la detección de actividad de voz se puede apreciar en [De la torre et al 2006] el cual se basa en la utilización de la aproximación Vector Taylor [Moreno, 1996][Moreno et all, 1996][Stern, Raj, Moreno, 1997][De la Torre, Benitez, 2001] el cual es método de compensación de ruido, este entrega una elocución limpia eliminando el ruido de fondo acústico, dicha compensación esta basada en una mezcla de Gaussianas , esta aproximación asume que el ruido es un termino aditivo en el dominio log FBE,
(Ecu. 2)

donde X y Y son los vectores que representan la voz limpia y ruidosa respectivamente, n es el ruido de fondo acústico que afecta a esta trama.
Esto nos proporciona una regla de decisión apropiada de voz/ no voz , esta formulación utilizando la aproximación Vector Taylor nos permite una adaptación de la mezcla Gaussiana a las condiciones de ruido.

2.1.2. VoIP
En la actualidad, las telecomunicaciones son un área del conocimiento útil en diversas áreas, la medicina no escapa de esta necesidad. En medicina respiratoria y en medicina en lo general existe una tendencia a dar servicio en áreas remotas, por lo cual emerge el termino de “Telemedicina”, y el medio que mas impacto ha tenido es el de Internet y el uso del protocolo IP, motivo por el cual en esta sección se ha ce una revisión de estos conceptos. El interés en las comunicaciones de voz a través del protocolo de Internet (VoIP por sus siglas en ingles) ha ido en aumento en los últimos años y la evolución de la Internet ha generado especulación acerca del desplazamiento del la telefonía PSTN (Public Switched Telephony Network por sus siglas en ingles por la comunicación a través VoIP, esto aun no es posible, debido a que la comunicación a través de IP presenta constantemente una considerable pérdida de paquetes de información durante la transmisión , esto repercute en la calidad de audio, lo que a su vez reduce la eficiencia a la hora de utilizar alguna técnica para el reconocimiento de locutor.
En la actualidad, existen varios estándares de comunicación a través de Internet que compiten por el dominio de la telefonía sobre IP [Toral-Cruz et al, 2005] de los cuales destacan el protocolo H.323 desarrollado por la Unión Internacional de Telecomunicaciones (ITU-IT), este protocolo fue desarrollado originalmente para conferencias multimedia en redes de área local (LAN), este protocolo define 4 componentes lógicos, Terminales, Gateways, Gatekeepers y unidades de control por multipuntos , la figura 2.1 muestra la estructura del protocolo.



Figura 2.1 Estructura del Protocolo H.323

El protocolo de iniciación sesión (SIP) es un protocolo de señalización para iniciar, administrar y terminar sesiones de video y voz a través de redes.
Las sesiones que utilizan el protocolo de inicio de sesión involucran la participación de uno o mas usuarios que pueden utilizar la comunicación unicast o multicast.
El protocolo SIP es desarrollado por el grupo de trabajo SIP dentro del grupo de trabajo de ingeniería para Internet (IETF por sus siglas en ingles), la figura 2.2 muestra la operación del protocolo de inicio de sesión.



Figura 2.2 Diagrama de operación del protocolo de inicio de sesión (SIP)
Una implementación de dichos protocolos puede aplicarse en [Cordovilla, et al 2006] en donde se presenta un reconocedor de voz en tiempo real a través de IP esto por medio de un reconocedor de voz basado en NSR (Network-based Speech Recognition por sus siglas en ingles) para obtener los parámetros que representan la voz. Ambos protocolos tienes sus ventajas y desventajas ya que DSR requieren la definición front-end estándar a seguir por todos los clientes.
El uso de NSR no requiere la utilización de los estándares definidos por el instituto europeo de Estándares para Telecomunicaciones ya que solo es necesario un codificador de voz, cabe mencionar que al utilizar un codificador de voz implicaría una degradación en el reconocimiento.
La aplicación de los entandares de ETS, para los front-end no crea ningún problema desde el punto de vista de arquitectura.
Otro factor importante de se debe de tomar en consideración son los efectos de la perdida de paquetes de información cuando se transmite una elocución codificada a través del protocolo de internet [Mayorga, Besacier, 2006].
En este estudio se lleva a cabo una serie de sesiones de reconocimiento de elocuciones utilizando una base de datos con 120 frases , esto para demostrar la degradación en el reconocimiento cuando se codifica una elocución, se demostró que en condiciones reales el ruido de transmisión degrada la elocución cuando a esta se le aplica un codificador y la perdida de paquetes de información afecta en gran medida al reconocimiento del habla a través de IP. Para contra restar esta perdidas se utilizan varios métodos de reconstrucción de la señal de voz, con estas técnicas se obtuvo una eficiencia de 77 % en el reconocimiento,


2.1.3. Modelos Ocultos de Markov (HMM).
Una alternativa de medir distancias entre patrones (enfoque topográfico) es el de adoptar un modelo estadístico (para métrico) para cada una de las palabras del vocabulario de reconocimiento, como son los modelos ocultos de Markov.
Estos sistemas son posteriores en el tiempo, y hoy día la mayoría de los reconocedores en funcionamiento se basan en esta técnica estadística, ya que aunque sus prestaciones son similares a las de loa sistemas basados en DTW, requieren menos memoria física y ofrecen un mejor tiempo de respuesta. Tienen como contrapartida una fase de entrenamiento mucho más lento y costoso, pero como esta tarea se realiza una única vez, y se lleva a cabo en los laboratorios. Es un precio que parece valer la pena pagar.
Un HMM es una máquina de estados finitos en que el siguiente estado depende únicamente del estado actual, y asociado a cada transición entre estados se produce un vector de observaciones o parámetros (correspondiente a un punto del espacio n-dimensional del que se hablaba en el apartado anterior). Se puede así decir que un modelo de Markov lleva asociados dos procesos: uno oculto (no observable directamente) correspondiente a las transiciones entre estados, y otro observable (y directamente relacionado con el primero), cuyas realizaciones son los vectores de parámetros que se producen desde cada estado y que forman la plantilla a reconocer.
Para aplicar la teoría de los HMM en reconocimiento de voz, se representa cada palabra del vocabulario del reconocedor con un modelo generativo y posteriormente, se calcula la probabilidad de que la palabra a reconocer haya sido producida por cada uno de los modelos de la base de datos del reconocedor. Para ello, se asume que durante la pronunciación de una palabra, el aparato fonador puede adoptar sólo un número(finito de configuraciones articulatorias (o estados), y que desde cada uno de esos estados se producen uno o. varios vectores de observación (puntos de la plantilla), cuyas características espectrales dependerán del estado en el que se hayan generado Así vista la generación de la palabra, las características espectrales de cada fragmento de señal dependen del estado activo en cada instante, y la evolución del espectro de la señal durante la pronunciación de una palabra depende de la ley de transición entre estados.
La representación más común de un HMM es la utilizada para máquinas de estados finitos, Un tipo de HMMs especialmente apropiado para reconocimiento de voz son los modelos "de izquierda a derecha"; modelos en los que una vez que se ha abandonado un estado, ya no se puede volver a él. La figura 2.3 representa un modelo con 'n' estados en el que desde cada estado sólo se permiten tres tipos de transición: al propio estado, al estado vecino y a dos estados más allá.
En el reconocimiento automático de una elocución existe lo que se denomina aproximación de modelos acústico-fonéticos en el cual la voz es considerada como portadora de dos tipos de información, acústica y fonética.
Una gran parte en este modelado con respecto al reconocimiento de elocución es un pobre tratamiento en el nivel fonético-acústico.
Los experimentos realizados en [Nogueira, et al 2006] muestran una mejora considerable en el reconocimiento de elocuciones continuas.


Figura 2.3. Modelos Ocultos de Markov con n estados
Un sistema de reconocimiento de elocución básico se basa en un conjunto de modelos acústicos en donde se pueden observar las características de la señal de voz en este tipo de sistemas podemos reconocer tres niveles característicos, los modelos acústicos fonéticos y características acústicas.
Un modelo oculto de Markov o Hidden Markov Model (HMM por sus siglas en ingles), es una colección de estados, cada trama de voz puede estar alojada en un solo estado a la vez, cada HMM esta formado de dos partes diferentes, una matriz de transición y un conjunto funciones de emisiones probabilísticas, la matriz de transición de un estado N, HMM es una matriz N x N. Cada elemento de la matriz representa la probabilidad de desplazar de un estado a otro.
No importando que estructura se utilice, las funciones de densidad probabilística en los estado de los HMM tienen que modelar las características extraídas de la elocución, el objetivo de estas características será la de proveer la máxima información acerca de las elocuciones fonéticas mientras que se neutralizan los efectos de la información presente, así pues, esperamos las características de género y edad independiente.
El objetivo de [Nogueira, et al 2006] es utilizar una trama de doble capa para reducir la varianza en el modelado al separara el modelado acústico y fonético en dos capas entrelazadas, la capa inferior es la capa acústica, en esta capa se captura toda la variabilidad presente en la señal acústica, aun cuando esta no se considere la capa superior, tiene la estructura de un clasificador acústico-fonético cuyos resultados es un vector formado con las probabilidades de cada trama a cada estado del clasificador, la capa superior en una HMM semi continuo donde los vectores característicos no son probabilidades en las características del espacio pero probabilidades en un espacio difuso donde diferentes palabras clave son asignadas a los estados del clasificador de la capa inferior.


2.1.4. Redes Neuronales.
También hay que mencionar que, recientemente, la potencia y excelentes capacidades de clasificación mostradas por las denominadas Redes Neuronales Artificiales (RN) las sitúa como posible alternativa frente a los HMM [Song and Huang, 1991]. Hasta el momento las Redes Neuronales han permitido obtener los mejores resultados en Reconocimiento de Locutores, sin embargo en Reconocimiento del Habla encuentran como mayor dificultad la forma de afrontar la variabilidad temporal del habla.
Los modelos computacionales basados en redes neuronales surgieron hace ya relativamente bastante tiempo, pero se abandono su estudio por no disponer de algoritmos eficientes de entrenamiento. Ahora ya no existe esa dificultad, y se ha demostrado ampliamente su enorme potencia computacional [Rodriguez, 2005].
Los sistemas de reconocimiento basados en redes neuronales pretenden, interconectando un conjunto de unidades de proceso (o neuronas) en paralelo (de forma similar que en la mente humana), obtener prestaciones de reconocimiento similares a las humanas, tanto en tiempo de respuesta como en tasa de error. Esa forma de interconexión de las unidades de proceso es especialmente útil en aplicaciones que requieren una gran potencia de cálculo para evaluar varias hipótesis en paralelo, como sucede en los problemas de reconocimiento de voz.
Las unidades de proceso pueden ser de varios tipos; las más simples (y utilizadas) disponen de varias entradas, y la salida es el resultado de aplicar alguna transformación no lineal a la combinación lineal de todas las entradas. Otro tipo de neuronas un poco más elaborado se caracteriza por disponer de memoria; en ellas la salida en cada momento depende de entradas anteriores en el tiempo.
La forma en que las neuronas se conectan entre si define la topología de la red, y se puede decir que el tipo de problemas que una red neuronal particular soluciona de forma eficiente, depende de la topología de la red, del tipo de neuronas que la forman, y la forma concreta en que se entrena la red.
Igual que se dijo para las técnicas anteriores, una red neural debe ser entrenada para resolver un tipo determinado de problemas. El algoritmo particular de entrenamiento dependerá de la estructura interna de las neuronas [R. Nay, et al 1992], pero, en cualquier caso, el entrenamiento se llevara a cabo a partir de una base de datos etiquetada, como sucedía con los modelos de Markov, y será un proceso iterativo en el que se modifican los parámetros de la red para que ante un conjunto determinado de estímulos (plantillas), produzca una respuesta determinada: la palabra del vocabulario representada por esas plantillas
La figura 2.4 muestra la topología de una red neuronal, las neuronas se disponen por "capas"; hay una capa de entrada, que opera directamente sobre los vectores de observación o puntos de las plantillas, una capa de salida que apunta la palabra reconocida, y una o más capas intermedias.

Figura 2.4. Red Neuronal

Cada capa está compuesta por varias unidades de proceso, que se conectan con la siguiente capa por una serie de enlaces a los que se da un cierto peso especifico wij.
El conjunto de vectores de características entra en la capa de neuronas de entrada, y posteriormente es propagado a las capas siguientes.
En cada célula de proceso se calcula la suma ponderada (por los pesos wij) de las señales de entrada, y posteriormente se procesa en la neurona con su sistema no lineal. Si el resultado de esta operación supera un cierto umbral, la neurona reacciona, transmitiendo señal a las neuronas siguientes de la capa superior.
En la fase de entrenamiento, dada una entrada conocida (p.ej. un conjunto de vectores que representa el dígito 1), la salida de la red es comparada con la salida esperada (y conocida de antemano), calculándose un error. Ese error se propaga hacia abajo, ajustándose de esta manera los pesos de las conexiones entre neuronas. Efectuándose este proceso varias veces se consigue que la red "aprenda" que respuesta debe dar para cada entrada en la fase de reconocimiento.





















3. Capítulo III: Vectores MFCC y Señales del Pulmón.
3.1. MFCC.
Una de las áreas mas importantes en el proceso de reconocimiento de señales acústicas es el procesado de señales, la cual convierte la forma de onda en una representación paramétrica, esto nos es de utilidad en nuestra investigación debido a la naturaleza de las señales que utilizamos.
Entre las técnicas mas utilizadas para el procesamiento de señales se encuentran los Coeficientes Cepstrales en Frecuencia Mel (MFCC por sus siglas en ingles), Codificación Lineal Predictiva (LPC) y La Preedición Lineal Perceptual (PLP).
Los MFCC son coeficientes utilizados para la representación del habla basados en la percepción auditiva humana, estos se derivan de la Transformada de Fourier (FT) o de la Transformada de coseno discreta (DCT). La diferencia básica entre estos es que con las MFCC las bandas de frecuencia están situadas logarítmicamente (según la escala Mel), que modela la respuesta auditiva humana más apropiadamente que las bandas espaciadas linealmente al utilizar la FT o la DCT. Esto nos permite un procesado de datos más eficiente.
Estos Coeficientes son altamente efectivos en el reconocimiento de las señales de audio y en el modelado del pitch subjetivo y el la frecuencia de las señales acústicas de una ocultación. La escale de Mel se calcula de la siguiente manera:
(Ecu. 3)

Donde es la escala logarítmica de la frecuencia normal escalar f. La escala Mel tiene un intervalo constante y este va del rango de los 0 Hz a los 20050 Hz.
Los coeficientes MFCC son obtenidos de la energía de los coeficientes de la transformada rápida de Fourier (FFT) los cuales son filtrados por un banco de filtros triangulares. Este filtro de bancos esta formado por 12 filtros pasa banda y son calculados utilizando:
(Ecu. 4)

Donde es la salida del banco de filtros y N es el numero total de muestras en una trama de audio de 20mS[Aizawa et all, 2004].
Los MFCC proveen un alto grado de reducción de datos mediante el uso directo de la densidad del poder espectral a partir de que el poder espectral en cada trama puede representarse.

3.2. Sonidos Corporales Superficiales.

Los estetoscopios son instrumentos simples los cuales están formados por simples conductos los cuales tienen la función de dirigir el sonido de la superficie del cuerpo hacia los oídos. Estos dispositivos no son acústicamente ideales debido a que no proveen una transmisión de sonidos independiente a la frecuencia, esto se debe a que amplifican debajo de le s 112 Hz o atenúan depuse de los 112 Hz selectivamente sonidos de interés clínico [Abella et al, 1992].
Actual mente, existen 2 tipos de transductores que son comúnmente utilizados para la grabación pulmonar y su estudio, uno de ellos es el micrófono electer el cual consiste de una cámara de acoplamiento y un acelerómetro, los cuales son muy utilizados para grabaciones musicales y del habla [Pasterkamp et al, 1993].
Existe una variedad de factores que influencian la oscultación, los cuales incluyen la respuesta del estetoscopio al fenómeno fisioacústico el cual contribuye a conceptos que hoy en día son ampliamente conocidos por los profesionales de la salud, estos conceptos incluyen la existencia de una pequeña asimetría bilateral en la amplitud del sonido, dicha asimétrica indica la existencia de una patología.
Otro concepto es que los sonidos provenientes del pecho son versiones previamente filtradas de aquellos detectados en traquea o cuello. Usualmente esta información no puede ser obtenida por medio de la oscultacion.

3.3. Sistema Respiratorio.

El sistema respiratorio consiste en vías aéreas, pulmones y músculos respiratorios que regulan el movimiento del aire tanto adentro como afuera del cuerpo dando paso al intercambio de gases el cual es el intercambio de oxígeno y dióxido de carbono [Setter, 1996]. La figura 3.1 muestra la composición del sistema respiratorio.
Dentro del sistema alveolar de los pulmones, las moléculas de oxigeno y dióxido de carbono se intercambian pasivamente, por difusión, entre el entorno gaseoso y la sangre. Así, el sistema respiratorio facilita la oxigenación con la expulsión del dióxido de carbono y otros gases que son desechados por el organismo [Rouvière, Delmas, 1996].
El sistema también ayuda a mantener el balance entre ácidos y bases en el cuerpo a través de la eficiente remoción de dióxido de carbono de la sangre.

Figura 3.1. Sistema Respiratorio
La función del aparato respiratorio consiste en desplazar volúmenes de aire desde la atmósfera a los pulmones y viceversa. Lo anterior es posible gracias a la ventilación, la cual es un proceso cíclico que consta de dos etapas: la inspiración, que es la entrada de aire a los pulmones, y la espiración, que es la salida [Gray, 1995].
La definición de los órganos del sistema respiratorio es la siguiente:
• Vía Nasal: Consiste en dos amplias cavidades cuya función es permitir la entrada del aire, el cual se humedece, limpia y calienta a una determinada temperatura a través de unas estructuras llamadas pituitarias.
• Faringe: es un conducto muscular, membranoso que ayuda a que el aire se vierta hacia las vías aéreas inferiores.
• Epiglotis: es una membrana que impide que los alimentos entren en la laringe y en la tráquea al tragar. También marca el límite entre la orofaringe y la laringofaringe.
• Laringe: es un conducto cuya función principal es la filtración del aire inspirado. Además, permite el paso de aire hacia la tráquea y los pulmones y se cierra para no permitir el paso de comida durante la deglución si la propia no la ha deseado y tiene la función de órgano fonador, es decir, produce el sonido.
• Tráquea: Brinda una vía abierta al aire inhalado y exhalado desde los pulmones.
• Bronquio: Conduce el aire que va desde la tráquea hasta los bronquiolos.
• Bronquiolo: Conduce el aire que va desde los bronquios pasando por los bronquiolos y terminando en los alvéolos.
• Alvéolo: Permite el intercambio gaseoso, es decir, en su interior la sangre elimina el dióxido de carbono y recoge oxígeno.
• Pulmones: La función de los pulmones es realizar el intercambio gaseoso con la sangre, por ello los alvéolos están en estrecho contacto con capilares.
• Músculos intercostales: La función principal de los músculos respiratorios es la de movilizar un volumen de aire que sirva para, tras un intercambio gaseoso apropiado, aportar oxígeno a los diferentes tejidos.
• Diafragma: Músculo estriado que separa la cavidad toráxica (pulmones, mediastino, etc.) de la cavidad abdominal (intestinos, estómago, hígado, etc.). Interviene en la respiración, descendiendo la presión dentro de la cavidad toráxica y aumentando el volumen durante la inhalación y aumentando la presión y disminuyendo el volumen durante la exhalación.
Las vías nasales se conforman de:
• Células sensitivas.
• Nervio olfativo.
• Pituitaria.
• Cornetes.
• Fosas nasales.

3.4. Señales Pulmonares Normales.
EL sonido de una respiración normal que se escucha a través del cuello se origina debido a turbulencias del aire que viaja a través de las vías respiratorias centrales [referenciua RALE].
Los sonidos pulmonares normales son clasificados como Traqueales, Bronquiales y sonidos Bronco-vesiculares.
Los sonidos traqueales y bronquiales tienen una característica áspera y ruidosa, los sonidos traqueales no se distancian demasiado a los sonidos de una expiración, pero a diferencia de esto, dichos sonidos se generan en la etapa de inspiración ya que existe una notable pausa entre ambas fases respiratorias.
Al momento de realizar una oscultación en el pecho, debemos prestar atención al sonido que se produce cuando se expira, de esta manera podemos apreciar sonidos de bajo pitch(t) debido al movimiento muscular, esot sonidos son difíciles de apreciar debido a su baja frecuencia.
Los Sonidos respiratorios se aprecian de manera amortiguada cuando se realiza una oscultación en el pecho, esto debido a que gran parte de las componentes de alta frecuencia se pierden debido a paso del sonido por los pulmones a diferencia de los sonidos de baja frecuencia que pasan mas fácilmente por estos tejidos, de esta manera podemos mencionar que los pulmones se comportan como un filtro pasabalas ya que solo podemos apreciar los sonidos producidos por una inspiración que los producidos al momento de la espiración.
Los Sonidos traqueales son afectados por resonancias en las vías respiratorias centrales las cuales cambian debido a la densidad de gases.
La influencia que tienen las resonancias en los sonidos pulmonares es notoria por su fuerte dependencia al tamaño corporal de cada persona.
Los sonidos bronco-vesiculares comparten algunas de las características con los sonidos bronquiales y traqueales.
Las frecuencias de los sonidos bronco-vesiculares son algo altas y se puede distinguir la etapa de la inspiración de la etapa de espiración.
Los sonidos bronco-vesiculares se pueden apreciar en las regiones del pecho más cercanas a las vías respiratorias, en infantes, estos sonidos son aun más notorios.

3.5. Señales Adventicias del Pulmón.

Para propósito de esta tesis nos orientaremos a 2 categorías:
• Wheezes ó Sibilancias, estos poseen características musicales.
• Crackles ó Crepitaciones, no poseen características musicales.
3.5.1. Sibilancias
Estos se originan cuando las vías respiratorias producen oscilaciones y agitaciones angostas, es muy común poder escucharlas en presencia de asma o alguna otra enfermedad que obstruya las vías respiratorias.
Las sibilancias poseen cualidades musicales y tienen uno o varios pitches de diferente amplitud, Las sibilancias se han considerado tradicionalmente como ronquidos, ya que el ronquido también puede producir agitaciones y oscilaciones en las vías respiratorias.
La forma de onda de un sonido tipo sibilancia es similar a una onda sinusoidal. La frecuencia dominante de una sibilancia está usualmente entre 100-2000 Hz y su duración entre 80-250 ms [Sovijärvi et al, 2000][Rossi et al, 2000][Charbonneau et al, 2000][Druzgalski, 2003][Druzgalski et al, 2003][Pasterkamp, 1997].

Figura 3.2. En esta figura se puede observar la presencia de sibilancias
o roncus al principio y mitad de la espiración.


3.5.2. Asma
Asma es una condición inflamatoria de las vías aéreas bronquiales, esta inflamación provoca que la función normal de las vías respiratorias llegue a ser excesiva y sobre-reactiva, luego produce un incremento en la producción de moco, hinchazón mucosa y contracción muscular. Estos cambios producen una obstrucción de las vías respiratorias, tensión del pecho, tos y sibilancias al respirar[Valdés, 2004].
La figura 3.3 fue grabada sobre el pecho anterior superior derecho de un joven quien presento asma aguda por un par de minutos después de una carrera corta.

Figura 3.3. Espectrograma de joven de 7 años con asma.

3.5.3. Crepitaciones
Las crepitaciones son mejor percibidos a través del pulmón, aunque también se pueden apreciar mejor por la cavidad bucal.
Los orígenes de estos sonidos anormales se originan al momento en que una vía respiratoria se abre o se deforma de una manera abrupta.
Cuando existe la presencia de fibrosis pulmonar, la fuerza retractil del pulmón se incrementa, de esta forma, las crepitaciones se pueden producir por el movimiento de burbujas en las vías respiratorias.
Aunque las crepitaciones sean muy breves para denotarlos con características musicales estos poseen diferentes características sonoras los cuales pueden ser relacionados a una enfermedad respiratoria.
Las crepitaciones con un pitch alto y seco cercanos al oído son denominados crepitaciones finos, estos se escuchan con mas frecuencia en personas con neunomia, fibrosis pulmonar o fallas cardiacas.
Las crepitaciones que posean un pitch bajo, húmedo y distante se denominan como crepitaciones gruesas. Estas son más comunes en personas con enfermedades obstructivas crónicas, bronquitis o etapas finales de un edema pulmonar.
Las crepitaciones ocurren a menudo en desordenes cardiorrespiratorios. Su duración es menor que 20 ms y su contenido en frecuencia es típicamente amplio, con un rango de 100 hasta 2000 Hz [Sovijärvi et al, 2000][Rossi et al, 2000] [Charbonneau et al, 2000].
La figura 3.4 muestra las crepitanciones finas de un adulto. Estos sonidos fueron grabados sobre el pulmón inferior derecho en la espalda.

Figura 3.4. Crepitancias finas en hombre de 60 años con fibrosis pulmonar
intersticial


3.6. Otras Señales Pulmonares

Más allá de sibilancias y crepitaciones, nos encontramos con otros sonidos respiratorios anormales, algunos poseen cualidades musicales en tanto otros carecen de estos, en donde las sibilancias se originan del tórax, estos sonidos respiratorios anormales se producen en las vías extratoraxicas superiores.

3.6.1. Estridor
Este sonido con cualidad musical es común y se escucha usualmente en personas con problemas en la laringe o tráquea cervical, estas regiones tienden a reducirse durante la espiración.
El estridor es el sonido pulmonar que mas comúnmente se escucha, debido a esto no requerimos de un estetoscopio para escucharlo.
Dependiendo de las estructura que oscilan y resuenan el pitch del estridor puede ser alto.
Las sibilancias y los estridores pueden ocurrir al mismo tiempo, el estridor puede tener un pitch bajo como se observa en la figura 3.4.3
Estos sonidos son usualmente caracterizados por un pico prominente en el espectro de frecuencia sobre los 1,000 Hz. Este componente es llamado el pitch. La envolvente del pitch y la complejidad del espectro son dependientes del desorden [Sovijärvi et al, 2000].

3.6.2. Grunting
Otro sonido anormal con cualidades musicales es el grunting, se presenta usualmente en bebes o en personas mayores con problemas respiratorios, este se origina cuando las cuerdas vocales vibran durante la expiración.

3.6.3. Squeaks y Squawks.
Squawks son Wheezes de corta duración, estos son menores a una décima de segundo, los mas típicos ocurren al momento final de la espiración.
El mecanismo detrás de esta duración es la súbita apertura de una vía respiratoria previamente cerrada.
Los Squeaks no están definidos claramente y no existe gran diferencia de los Squawks, ya que estos también se aprecian como un breve sonido espiratorio, pero poseen un pitch típicamente alto. Su duración raramente excede 400 ms [Sovijärvi et al, 2000].

3.6.4. Friction Rub
El termino Friction Rub describe el movimiento el cual produce este sonido, este reproduce a traves de la fricción de las superficies pleurales.
Estos sonidos se pueden apreciar fácilmente cuando existe una inflamación o neoplasma que involucre al espacio pleural.
Los Friction Rubs han sido comparados con el sonido que se produce en un trozo de cuero al ser retorcido.










4. Capítulo IV: Modelos Mezclados Gaussianos
En Estadística, un modelos mixto es un modelo probabilístico utilizado para la estimación de densidades en una distribución mixta, estos pueden ser llamado como un tipo de aprendizaje no supervisado o clustering, estos modelos no deberán de ser confundidos con los modelos de datos compuestos [Reynolds, Rose, 1995].
Los Modelos mixtos son un tipo de modelos de densidad los cuales están compuestos de un número de funciones compuestas, usualmente gaussianas. Estos tipos de funciones compuestas son combinadas para obtener una densidad multimodal, estos pueden ser empleados para modelar los colores de un objeto para poder realizar tareas como generar una segmentación basadas en color y tiempo, o en nuestro caso, para la modelación de una señal de audio proveniente de una oscultación de un sujeto de prueba [Raja et al 1998]. La densidad Gaussiana para un espacio d-dimensional esta dada por:
(Ecu. 5)



Donde es el modelo con la matriz de covarianza y la media .
Los GMM pertenecen a los sistemas de reconocimientos de patrones, estos modelan la función de densidad probabilística de las variables observadas utilizando una densidad multivariable de modelos gaussianos. Dadas las series de entradas, los GMM refinan los pesos para cada distribución a través de los algoritmos de expectación-maximización.
Los Modelos Mixtos Gaussianos son muy similares al soporte de maquinas vectoriales [Brenzikofer, 2004] y redes neuronales [Eggnik, Brown, 2003].

4.1. Clustering


5. Capítulo V: Reconocimiento de Señales Pulmonares

El análisis de sonidos respiratorios ofrece información importante relacionada con enfermedades pulmonares. Las sibilancias han sido reportadas como sonidos respiratorios adventicios en asmáticos y pacientes con problemas obstructivos en las vías respiratorias [Sovijärvi et al, 2000] [Charbonneau et al, 2000] [Pasterkamp, 1997] [Henk et al, 1994].
Para nuestra investigación, deseamos construir un sistema de reconocimiento es fundamental con un número importante de señales para cada caso, luego este conjunto se calcificará en dos particiones, una de ellas nos será útil para efectuar el cálculo de los modelos acústicos, esta etapa será conocida como etapa de aprendizaje o entrenamiento.
En una primera etapa , los sonidos de nuestra base de datos deben de ser parametrizados realizando un preénfasis con filtros FIR (Respuesta al Impulso finita, por sus siglas en ingles), primeramente una ventana hamming cada 10ms con longitud de 30ms es aplicada a nuestros sonidos, en una segunda etapa, se aplica el algoritmo FFT (Transformada Rápida de Fourier) trama por trama y de ahí se obtiene el modulo que multiplicamos por las escalas de Mel o de Bark, esto nos arroja los vectores acústicos o vectores MFCC[Rabiner, Hwang, 1993].
Un modelo GMM (Modelo Mezclado Gaussiano) está caracterizado por sus medias, covarianzas y ponderaciones; cada caso será representado por un modelo GMM (λ). En la fase de entrenamiento se calculan los modelos acústicos para cada caso o patología (i.e. las señales de distintos sonidos adventicios o patologías y las de pulmón saludable), formando el llamado diccionario (en ingles codebook) de modelos acústicos. Una señal de una misma patología, tiene que ser grabada con múltiples pacientes para que sea representativa. Luego, al conjunto de grabaciones de señales para una patología especifica o señales saludables, dependiendo de cuál sea el caso, se le extraen los vectores característicos MFCC (Coeficientes Cepstrales en Frecuencia Mel) con una cierta longitud (por ejemplo d=13). Una vez que se tienen todos los vectores MFCC para un caso o patología, estos son empleados por el algoritmo de Máxima Expectación (EM) para calcular el correspondiente modelo acústico, una explicación más exhaustiva se puede ver en [15-21]. Una alternativa muy eficiente para propósitos de inicialización, seria efectuar primero todo el proceso con cuantización vectorial [15, 16].
El método GMM se vale del algoritmo EM para calcular los modelos , este cálculo se efectúa sobre el conjunto de vectores MFCC extraídos de las distintas grabaciones para un solo caso adventicio específico o respiración normal dependiendo del caso, es decir se constituye una clase acústica. La media representa el promedio de todas las observaciones (o vectores MFCC) y la matriz de covarianza modela la variabilidad de las características en una clase acústica (sería más eficiente si se centra esto en un rango de edades de los pacientes). En nuestro caso, M es el número de densidades para un modelo y mi es la ponderación para cada densidad Gaussiana dentro de una mezcla o modelo. Con el propósito de optimizar los modelos, se ejecuto el cálculo de los modelos con un número de densidades que variarían (por ejemplo de 1 a 20 Gaussianas) seleccionando el mejor compromiso entre los mejores resultados y el menor número de densidades en la mezcla. Utilizando la fórmula de Bayes [16] y eliminando de esta por mantenerse constante en el proceso de maximización, se obtiene la fórmula fundamental en el reconocimiento automático de la señal, la cual proporciona la mejor hipótesis:
(1)
Tomando en cuenta que el total de grabaciones de sonidos para una patología o para respiración normal arrojan un número enorme de observaciones o vectores de características, así como suponiendo independencia estadística entre cada vector, la generalización de la regla para seleccionar la mejor hipótesis conduce a
(2)
En el contexto científico de procesamiento de voz y de modelos estadísticos para reconocimiento de patrones [17, 18, 19, 20, 21], el termino se le conoce como función de similitud. Pero como cada grabación contiene cuantiosos vectores acústicos, es necesario simplificar los cálculos evitando desbordes por computadora, por lo cual es mucho más común presentar el log de la función de similitud (lo cual es válido, ya que log es una función monótona y no cambia la relación > o <). Finalmente, la productoria se transforma en sumatoria, a la nueva expresión se le conoce como la regla de decisión de máxima similitud.
(3)
Esta última expresión, es la que se utiliza en el proceso de comparación siendo la que realmente se aplica al decidir cuál es la hipótesis más probable. En otras palabras, la señal de entrada se asocia con el modelo acústico dentro de nuestro diccionario, con el cual es más probable.
La evaluación con validación cruzada (VC) fue aplicada en nuestros experimentos debido a que lamentablemente contábamos con una cantidad muy limitada de registros por caso o por clase [27]. Para ser precisos, contamos con 4-7 registros distintos por caso o señal adventicia, luego las particiones se efectuaron seleccionando 3 registros para crear el modelo acústico y un registro para realizar la evaluación. Estas particiones se fueron cambiando, es decir para cada nueva evaluación se cambia la configuración de otros 3 para el modelo y uno distinto de prueba, asi sucesivamente hasta completar 4 evaluaciones por caso; en otras palabras se completaron 4 composiciones distintas con 4 señales por caso.





5.1.
5.1.1. ,




















6. Capítulo VI: Resultados.

En el capítulo II se discuten los aspectos relacionados con técnicas y metodologías aptas para reconocimiento de patrones, si bien algunas de ellas son utilizadas en procesamiento de voz no so n exclusivas de esta área. En el capítulo III, dimos una explicación de las señales del pulmón y sus características principales; una vez que se establecieron fundamentos del reconocimiento de patrones y se explico en si el patrón del cual nos ocupamos en esta tesis, a continuación mostramos los experimentos y los resultados obtenidos y algunos análisis en torno a ellos.

6.1. Descripción de los experimentos
Los experimentos fueron realizados aplicando un sistema de reconocimiento implementado en varias versiones, durante varios proyectos y generaciones de estudiantes y tesistas. La respiración es una señal acústica que debido a su dependencia de la fisiología humana, guarda similitud en muchos aspectos a la señal de voz. Por lo tanto, una de las aportaciones del presente trabajo así como el de otros compañeros de otras generación de la maestría, es la implementación de metodologías exitosas en voz a la señal acústica de la respiración.
Específicamente los Modelos Mezclados Gaussianos (GMM) y los vectores acústicos MFCC son metodologías con mucho éxito en el reconocimiento de voz; una de las problemáticas importantes a atacar es primeramente establecer la configuración de los datos, de los vectores acústicos y de los modelos en nuestro sistema. Por lo antes mencionado, los experimentos realizados en su primera etapa están orientados a determinar un rango de tamaño en el vector acústico MFCC con buenos resultados; igualmente es fundamental hacer lo mismo con las densidades gaussianas necesarias en un modelo GMM para obtener resultados razonables.
En una primera etapa utilizamos una base de datos que consiste de grabaciones de cada uno de los sonidos anormales pulmonares, pero debido a al arquitectura de nuestro sistema de reconocimiento, el cual esta diseñado para realizar el reconocimiento con un numero de archivos similares para todos los sonidos, solo utilizamos 4 grabaciones, ya que este era el numero máximo de grabaciones para los sonidos de Crepitaciones y estridor. Para la realización de las corridas de reconocimiento, utilizamos un número constante de 10 vectores MFCC variando solo el número de Gaussianas (GMM) de 10 a 16. Como se puede apreciar en la tabla 1 :
Numero de grabaciones
A reconocer - Resultado*
Configuración 4 5 6 7
4 MFCC : 4 GMM W-C N-W
N-A
W-A 0 N-W
5 MFCC : 5 GMM 0 0 0 N-W
*Donde: Normal=N, Crackles=C, Asthma=A, Wheezes=W Stridor=S.
Tabla 1. Resumen de incertidumbre al evaluar las grabaciones de referencias.
En una segunda etapa y partiendo de los resultados obtenidos de los primeros experimentos, nuestra preocupación consiste en hacer un análisis mas exhaustivo en cuanto al tamaño del vector MFCC, la cantidad de gaussianas necesarias así como también determinar si nuestra base de datos cuenta son las grabaciones necesarias para obtener óptimos resultados.
A diferencia de la primera etapa, para los experimentos realizados utilizamos un rango de 4 a 11 vectores MFCC y un rango de GMM desde 4 hasta 11, cabe mencionar que para esta etapa utilizamos todas las grabaciones de sonidos pulmonares anormales disponibles en nuestra base de datos, realizando varias corridas de la misma sesión para cada rango máximo de grabaciones, como se muestra en la tabla 2 a continuación
Numero de grabaciones
A reconocer - Resultado*
Configuración 4 5 6 7
4 MFCC : 4 GMM W-C N-W
N-A
W-A 0 N-W
5 MFCC : 5 GMM 0 0 0 N-W
*Donde: Normal=N, Crackles=C, Asthma=A, Wheezes=W Stridor=S.
Tabla 2. Resumen de incertidumbre al evaluar las grabaciones de referencias
Utilizando validación cruzada.
7. Capítulo VII: Conclusiones y Expectativas

Como ayuda didáctica para poder realizar el análisis de las señales del pulmón se utilizará el tutorial R.A.L.E., de donde se obtendrán las señales que se van a estudiar. A continuación se describe al tutorial R.A.L.E.:

R.A.L.E. es un programa de ayuda computarizada en la auscultación de pecho originado en el laboratorio de acústica respiratoria por el Prof. H. Pasterkamp, MD, FRCPC en el departamento de Pediatría y Salud Infantil de la Universidad de Manitoba, en Winnipeg, Canadá.

Los sonidos pulmonares R.A.L.E. es un programa multimedia educacional de texto computarizado que abarca alrededor de 50 grabaciones, cada uno con gráficos que relacionan el tono, el momento dentro del ciclo de la respiración y la intensidad de los sonidos, muestra gráficos de sonidos y flujo de aire (“respirosonogramas”) que ayudan a comprender la relación entre las recomendaciones de auscultación y los patrones de respiración. La ventaja de los sonidos R.A.L.E. sobre otros sistemas de enseñanza es la integración de texto, graficas (sonogramas), y grabaciones de sonido que ayudan al aprendiz a diferenciar visualmente los sonidos traqueales, bronquiales y vesiculares.

Comments (0)