Planteamiento II (Regresión Logística)

En este planteamiento tan solo vamos a tomar las 19 características de cada muestra que reflejan los datos pertenecientes a las taquicardias (TV ó TSV) con el fin de poder diferenciar los ejemplos de TV de los ejemplos de TSV. La idea de este planteamiento es que tomando datos con Taquicardias (eliminando sus características de Ritmo Sinusal RS), podamos diferenciar entre las Taquicardias Ventriculares (TV) y las Taquicardias Supraventriculares (TSV).

Organizaremos los datos de entrenamiento proporcionados en el fichero "cwaNN.mat" de la siguiente manera, distinguiendo los datos pertenecientes a TV de los datos pertenecientes a TSV. Para ello, etiquetaremos los datos pertenecientes a TV con un '0', y los datos pertenecientes a TSV con un '1':


Nuestras variables independientes o predictoras 'X' serán las características tomadas de cada una de las muestras (datos proporcionados en el fichero de casos de entrenamiento), mientras que nuestra variable categórica 'Y' recogerá las etiquetas que hemos establecido para los datos.



Del mismo modo que en el planteamiento anterior, con el objetivo de minimizar la función de coste más rápido, normalizamos los datos. Seguidamente añadimos la columna de los valores pertenecientes a "X0 = 1" y construimos e inicializamos nuestro vector de parámetros Θ (theta). Tras estos pasos podemos minimizar nuestra función de coste con la función "fminunc" de Optimización Avanzada de la cual obtendremos nuestro vector de parámetros Θ (theta) óptimo.

Una vez tenemos el valor de nuestro vector de parámetros Θ (theta) óptimo, podemos cargar los casos de test (eliminando los datos de RS), pasárselos a nuestra función Hipótesis de Regresión Logística y evaluar los resultados obtenidos que son los siguientes: