Redes neuronales en el diagn�stico de la patolog�a vocal

Nieto, Alberto

doi:10.5867/medwave.2001.11.3159

Revista Biom�dica Revisada Por Pares

Abrir sesi�n | Reg�strese | Contacto | English |

Cursos

Medwave 2001 Nov;1(11):e3159 doi: 10.5867/medwave.2001.11.3159

Redes neuronales en el diagn�stico de la patolog�a vocal

Neural networks in the diagnosis of vocal pathology

Alberto Nieto

Descargar PDF | Imprimir | A(+) A(-) | Lectura f�cil

Resumen

Este texto completo es la transcripci�n editada y revisada de una conferencia dictada en el Curso Internacional de Cirug�a de la Voz y Cirug�a Endosc�pica Sinusal Avanzada, organizado en Santiago por el Hospital Cl�nico de la Fuerza A�rea de Chile desde el 2 al 4 de abril de 2001.
Presidente: Dr. Sergio Lillo D. Coordinador: Dr. Gonzalo Gonz�lez Z.

Me voy a referir a t�picos que son candentes hoy en d�a, no en el nivel cl�nico de la investigaci�n laringol�gica, pero s� a nivel de investigaci�n b�sica de procedimientos y metodolog�as.

Presentar� el resultado de dos trabajos realizados en la Universidad de Henares, en cooperaci�n con las Escuelas Superiores de Ingenieros de Telecomunicaciones e Inform�tica de la Universidad Polit�cnica de Madrid.

Actualmente, el an�lisis ac�stico consiste en la medici�n de m�ltiples par�metros cuya normalidad no est� suficientemente probada, ya que los valores de normalidad no son suficientemente fiables, porque no existen bases de datos fiables, ni desde el punto de vista estad�stico ni del epidemiol�gico. La base de datos que manejamos no est� a�n en espa�ol. Estamos trabajando en ello. La base actualmente disponible, de Key Elemetrics, es una base de datos hecha con no m�s de 50 registros de voces normales, sin distribuci�n por sexo ni edad. Intentar clasificar a un paciente como normal o patol�gico, a base de esta casu�stica, no es cient�fico ni correcto. La informaci�n que se est� generando con todos estos par�metros es muy abundante y heterog�nea, y est� generando cierta incertidumbre al decidir qu� utilizar para las mediciones. Todo el mundo est� intentando buscar una normalizaci�n de los par�metros y una estandarizaci�n de las exploraciones. Se ha intentado en varias ocasiones y todav�a no se ha conseguido. Esta informaci�n tan abundante y heterog�nea se est� procesando con los computadores tradicionales, que tienen una forma de procesamiento de la informaci�n distinta de la que utiliza el cerebro humano. Es una forma de procesamiento conocida como algor�tmica, es decir, es secuencial. El computador no pasa a resolver otro problema mientras no resuelva aquel en el que est� ocupado. No es capaz de ir resolviendo m�s de un problema a la vez.

Este procesamiento de la informaci�n con el computador tradicional ha mostrado ya su ineficacia para el an�lisis ac�stico. La informaci�n que genera puede estar bien cuando se trata de mostr�rsela al enfermo o a un juez, pero muchas veces no refleja la realidad, porque estos algoritmos est�n dise�ados para voces normales y no para voces patol�gicas. Todos descansan en el c�lculo de la frecuencia fundamental y en una voz muy regular, carente de periodicidad, no se puede calcular la frecuencia fundamental, por lo cual no tiene sentido.

El procesamiento de la informaci�n en los seres vivos es diferente y no tiene nada que ver con el modo secuencial de procesamiento del computador tradicional.

Si se comparan las caracter�sticas del procesamiento de la informaci�n de un computador frente al cerebro humano o, a la inversa, del cerebro humano frente al computador, hay similitudes y diferencias. En primer lugar, la velocidad del procesamiento de informaci�n del cerebro humano es muy baja comparada con la de un computador. Cien herzios en el cerebro humano y del orden de 100 megaherzios o m�s, con los modelos actuales, en el computador. Esta dificultad en el cerebro humano se solventa con un modo de procesamiento de la informaci�n en paralelo. No necesita terminar un problema para comenzar otro, est� resolviendo miles de problemas a la vez. As�, uno ve y est� decodificando lo que ve, mientras est� escuchando y pensando en lo que se va a decir. Todo esto se hace en paralelo, sin dejar de hacer una cosa para hacer otra. As� funciona el cerebro.

El cerebro tiene un n�mero enorme de procesadores elementales que son las neuronas, mientras que el computador tiene un microprocesador �nico. Estas neuronas est�n ampliamente interconectadas entre s�; en cambio, las conexiones en un computador son pocas. El almacenamiento de la informaci�n en el computador se hace de una forma direccionada y fija. El computador sit�a una informaci�n en la memoria y tiene que ir a localizarla cada vez a ese mismo sitio; el almacenamiento del conocimiento por parte del cerebro radica en el estado de activaci�n de las sinapsis. Hay varias teor�as de la memoria, pero la que interesa resaltar aqu� es que el conocimiento est� organizado de forma distribuida en el estado de activaci�n de las distintas sinapsis del cerebro. El cerebro, adem�s, tiene una alta tolerancia a las fallas. Una persona puede tener un ictus y no deja de funcionar completamente. Incluso, puede dejar de funcionar transitoriamente para luego recuperarse. Un computador, en cambio, se funde y ya no vuelve a funcionar mientras no sea reparado. El control del proceso es de tipo autoorganizado en el cerebro humano, en el computador est� centralizado.

Definici�n de red neuronal
Es una nueva forma de computaci�n, que est� basado en modelos de inspiraci�n biol�gica. Trata de imitar la arquitectura del cerebro humano, para intentar reproducir sus capacidades. Un finland�s, Kohoney , ha dado un gran impulso al tema de las redes neuronales y las define como redes interconectadas masivamente, en paralelo, que intentan reproducir el funcionamiento del sistema biol�gico del cerebro. La red neuronal tiene ventajas frente a los procesadores tradicionales porque:

tiene un aprendizaje adaptativo que le permite aprender mediante los ejemplos que se le suministran;
se autoorganiza, no hay que decirle lo que tiene que hacer:
tiene una amplia tolerancia a las fallas;
se puede incorporar a la tecnolog�a existente en el sistema actual y calcula en tiempo real. El modo de procesamiento de la informaci�n en paralelo permite ir funcionando en tiempo real. Aprovechando el hardware de los procesadores tradicionales, que tienen una gran potencia de c�lculo y generando software y hardware que puedan incorporarse a la tecnolog�a existente, se puede lograr que �sta funcione en tiempo real.

Utilidad de las redes neuronales
Las redes neuronales pueden aportar al estudio de la voz, en cuanto a las voces patol�gicas, porque ya se ha demostrado su eficacia en el reconocimiento de patrones en otras situaciones. Se han utilizado en segmentaci�n y clasificaci�n de im�genes, en el reconocimiento �ptico de caracteres escritos, en el reconocimiento del habla. Tambi�n, como algo curioso que permite comprender su utilidad en nuestro campo, se han utilizado en procesos de restauraci�n de pel�culas antiguas que ten�an mucho ruido. Es lo que sucede en la voz patol�gica: hay mucho ruido. Por lo tanto, es necesario recomponer la imagen inicial, tratando de extraer los par�metros b�sicos o las caracter�sticas que permitan determinar si es una cosa u otra, eliminando los ruidos. Tambi�n se han utilizado en la interpretaci�n de los ECG y EEG. Todos los �ltimos avances en estos dos m�todos se deben a su aplicaci�n. En el estudio de la voz se ha introducido m�s tarde, con la interpretaci�n de los oscilogramas.

Objetivos de la investigaci�n
El objetivo de los trabajos a los que me estoy refiriendo fue dise�ar una red neuronal que permitiera distinguir entre lo normal y patol�gico, y, posteriormente, en una segunda etapa, intentar hacer diagn�stico de determinadas patolog�as caracter�sticas. Esto se enmarca dentro del proyecto Hispavox, coordinado entre varias universidades de Espa�a, el que trata de generar una base de datos. Esta lleva ya alrededor de 200 registros de voces de hombres y mujeres, clasificados por grupos de edad. Esto a�n es insuficiente, porque los ingenieros indican que este n�mero es s�lo para empezar. S�lo servir�a para realizar trabajos experimentales, pero no para sentar las bases de un diagn�stico autom�tico de la patolog�a vocal. Si con 200 a�n es insuficiente para definir normalidad, obviamente con menos de 50, los datos son simplemente in�tiles.

Los pasos que se han seguido son, en primer lugar, un estudio de los diferentes tipos de red, la selecci�n de la base de datos para trabajar y la simulaci�n de una red mediante software, ya que el modo de redes neuronales se puede simular con un software en un computador tradicional, o hacer, realmente, un procesamiento en paralelo con hardware. Se han seleccionado los par�metros de aprendizaje, para que la red vaya adquiriendo conocimientos.

Las redes neuronales se pueden clasificar conforme a distintas caracter�sticas:

conforme a la topolog�a y arquitectura, que consiste en el n�mero de capas de la red que se va a dise�ar, el n�mero de elementos por capa, el tipo de conexiones, etc.;
el proceso de aprendizaje, que puede ser supervisado o no supervisado;
el tipo de asociaciones de entrada y el tipo de presentaci�n de los datos, es decir, c�mo adquiere y presenta los datos la red.

En cuanto a la topolog�a, est� dada por el n�mero de capas y el n�mero de elementos, o neuronas, por capa, y el grado de conectividad, ya que es importante saber si las sinapsis son �nicas o hay m�s de un tipo de conexi�n, y con m�s de una neurona. Adem�s el tipo de conexi�n de esas neuronas entre s�.

Normalmente, suele haber una capa de entrada, luego una o varias capas ocultas y una capa de salida. Todas estas neuronas se pueden conectar entre s�, todas con todas o s�lo entre algunas. De alguna manera, la conexi�n entre una neurona y otra est� influenciada por lo que se denomina el peso o factor de eficiencia sin�ptica. La modificaci�n de los pesos, seg�n se va capacitando la red, es lo que permite la adquisici�n de conocimientos por parte de �sta. Una neurona se relaciona con otra a base de este peso o factor de eficiencia sin�ptica.

El proceso de aprendizaje es el proceso de modificaci�n de los pesos conforme se va ingresando informaci�n a la red. Hay dos tipos de proceso de aprendizaje: el aprendizaje supervisado y el no supervisado.

En cuanto al tipo de asociaci�n de los datos, las redes se pueden dividir en heteroasociativas y autoasociativas.

En las redes heteroasociativas, cada informaci�n de entrada lleva a una informaci�n de salida; en las redes autoasociativas, frente a cada dato de entrada, la red trata de buscar, en lo que ya tiene almacenado, lo que se le parezca.

En cuanto a tipo de representaci�n, pueden ser redes continuas, en que los datos son de naturaleza continua; redes discretas, con datos discretos; y redes h�bridas, en que las entradas son anal�gicas o continuas y las salidas son binarias.

En cuanto a los sistemas utilizados en el trabajo, elegimos como tipo de red neuronal, entre los muchos existentes, el llamado Perceptron Multicapa con Algoritmo de Aprendizaje de Retropropagaci�n del Error (Multilayer Perceptor and Back Propagation Algorythm). Es un tipo de aprendizaje supervisado, que, adem�s, necesita la desconexi�n de la red para modificar los pesos. La modificaci�n de los pesos no se hace en tiempo real, se debe detener el computador. El tipo de asociaci�n de los datos es heteroasociativa, es decir, que a cada dato de entrada corresponde uno de salida; no busca uno que ya tiene almacenado. La funci�n es logar�tmica sigmoidea, porque sabemos que con este tipo de funciones y con una red de tipo multicapa podemos aproximar la soluci�n de cualquier problema no lineal.

Los m�todos tradicionales suponen la linealidad del sistema de fonaci�n de las cuerdas vocales, cuando eso no es as�. El modo de procesamiento que us�bamos era el computador, que es secuencial. Si suponemos la no linealidad, que es la realidad del fen�meno natural de la vibraci�n de las cuerdas vocales, tenemos que suponer que debemos procesar de una forma que pueda dar soluciones a problemas no lineales. Las salidas de la red para el primer estudio eran voz patol�gica y voz normal

Proceso de aprendizaje de la red
Se establecen los pesos de cada sinapsis para cada patr�n, es decir, grabaci�n de voz que se le presenta y se ejecuta la red. Se produce una modificaci�n del peso de la conexi�n sin�ptica, porque la red va funcionando como el cerebro. Hay conexiones que se van facilitando y algunas que dejan de realizarse. Hay que calcular las se�ales de error asociadas a esta ejecuci�n y, posteriormente, hacer el c�lculo del incremento global de los pesos de la red, y modificar los pesos y los umbrales. Se actualizan los pesos y se vuelve a realizar el proceso, es decir es un proceso de interacci�n continua.

El n�mero de interacciones de la red, tambi�n llamadas �pocas en la jerga t�cnica, se puede elevar o no. Hay que buscar un equilibrio de estos dos procesos: el proceso de generalizaci�n y el de memorizaci�n. Si se capacita mucho la red, se elimina la generalizaci�n, que es la capacidad de acertar cuando le presentamos un patr�n distinto de los utilizados para la capacitaci�n. Si capacitamos muchas veces con los mismos patrones, la red aprende a distinguir cada uno de ellos y no distingue ninguno que sea parecido, sino que debe ser el mismo. Este es el fen�meno de memorizaci�n, que impide que la red acierte de nuevo cuando se le presenta un patr�n distinto del que se ha presentado durante la fase de aprendizaje Este equilibrio se debe buscar porque interesa que no haya ni falsos negativos ni falsos positivos. Llega un momento en que el error de aprendizaje es m�nimo, pero si se le sigue ense�ando, cuando se le presenta un nuevo patr�n, el error de la prueba aumenta.

En cuanto a materiales y m�todo, utilizamos un computador corriente, de la �poca en que se realiz� el trabajo. El programa simula la red, con una caja de herramientas para redes neuronales, una hoja de c�lculo Excel y la �nica base de datos disponible en ese momento (Key Elemetrics). Es una base de datos de 53 registros normales. Para el primer estudio se usaron 336 registros de diferentes patolog�as y 72 en el segundo estudio. Se seleccionaron algunas patolog�as, para ver si acertaba el diagn�stico. El soporte de la base de datos era en CD, con grabaciones digitales realizadas en el Massachusetts Ear and Eye Infirmary

Utilizamos inicialmente los 27 par�metros del Multidimensional Voice Program (MDVP), pero se fue disminuyendo el n�mero de elementos e intentamos buscar la m�nima configuraci�n de la red que presentara el mejor resultado. El n�mero de par�metros de entrada se fue reduciendo. As�, luego observamos que se obten�an los mismos resultados ingresando s�lo uno o dos de los par�metros.

El algoritmo que utilizamos fue el de Ravinet, agregando una cierta mejor�a con una informaci�n temporal, mediante la primera y segunda derivada temporal. Obtuvimos un vector de tres componentes, lo que permitir�a que la red aprendiera.

En cuanto al m�todo, realizamos un gran n�mero de interacciones y buscamos el momento en que la red ya empezaba a memorizar, sin que se llegara a degradar la generalizaci�n de la red. Se busc� una cuota de error cuadr�tico medio para buscar el acierto de la red. La red empieza a funcionar y va buscando m�nimos de error que son locales, hasta que cae en un m�nimo global. Entonces la red detiene la ejecuci�n.

Los resultados obtenidos fueron una buena generalizaci�n de la red para el diagn�stico de lo normal y lo patol�gico, incluso con muy pocos par�metros. Al final del estudio se entraba s�lo con el jitter, y acertaba entre normal y patol�gico en 97% de los casos. Con los coeficientes de frecuencia, el resultado fue de 100% de aciertos entre normal y patol�gico. Sin embargo, hab�a una mala generalizaci�n, con imposibilidad de convergencia, en cuanto a la clasificaci�n de las distintas patolog�as. Nos dimos cuenta, porque hay cierto enga�o en la base de datos de Key Elemetrics, ya que los mismos registros tienen diagn�sticos diferentes. Si se le est� presentando informaci�n contradictoria, la red nunca va a aprender.

Conclusiones
Creemos que el futuro del diagn�stico de la patolog�a vocal est� en las redes neuronales. Es probable que se utilicen distintas aproximaciones. En general, lo que se podr�a hacer, como trabajo futuro, es el diagn�stico autom�tico con una red como la utilizada en nuestro estudio, tipo perceptr�n multicapa con algoritmo de retropropagaci�n del error. Podr�a combinarse con los coeficientes de frecuencia.

El tama�o de la red podr�a disminuir si se utiliza otro tipo, las llamadas redes autoorganizadas o mapas de Kohoney (Self-Organizing Feature Maps). Este es el trabajo a futuro, buscar nuevas combinaciones de par�metros que puedan ofrecer mejores resultados.

Esta obra de Medwave est� bajo una licencia Creative Commons Atribuci�n-NoComercial 3.0 Unported. Esta licencia permite el uso, distribuci�n y reproducci�n del art�culo en cualquier medio, siempre y cuando se otorgue el cr�dito correspondiente al autor del art�culo y al medio en que se publica, en este caso, Medwave.

Edici�n Julio 2022

Estudios originales

Caracterizaci�n cl�nica, psicol�gica y sociofamiliar de la conducta suicida en adolescentes chilenos: an�lisis de correspondencias m�ltiples

Asociaci�n de biomarcadores y severidad de COVID-19: estudio transversal

Sistematizaci�n de iniciativas en salud sexual y reproductiva seg�n criterios de buenas pr�cticas en repuesta a la pandemia COVID-19 en la atenci�n primaria en Chile

Resumen

Comentarios (0)