Las reglas de clasificación por vecindad pueden ampliarse para considerar la clase de rechazo. La extensión directa de la regla k-NN dada por la expresión 30 sería la llamada regla (k, t)-NN:
En este caso se trata de que la clase más representada en los k vecinos más próximos tenga un número de representantes mayor que un umbral t. En otras palabras, se trata de obtener una mayoría cualificada.Si se desea especificar un umbral específico para cada clase, la regla anterior se conoce como la regla (k, tc)-NN:
y permite un control más estricto sobre el ``grado de confianza'' para aceptar una clasificación en determinadas clases críticas.Sobre la regla 1-NN no hay más opción que establecer el umbral en base a criterios de distancia. La regla 1-NN (t) se formula como sigue:
La selección del valor umbral t se realiza después de examinar la distribución de las distancias de cada patrón a clasificar al vecino más próximo en R. Parece razonable que el valor umbral sea un valor cercano al tercer cuartil de esta distribución. De nuestra experiencia (ver [E.1]) podemos indicar que el valor exacto depende del problema, esto es, de los datos disponibles y del objetivo buscado, por lo que el valor exacto se selecciona ``ad-hoc'' después de examinar varios candidatos.
En este ejemplo mostramos la aplicación de la regla 1-NN (t) para la clasificación de una imagen de Teledetección que corresponde a una región de Groenlandia llamada Ymer Ø. El conjunto de entrenamiento tiene 8560 prototipos y 20 clases. La distribución de los prototipos no es homogéneo ya que entre las tres primeras clases acaparan el 43 % del total, repartiéndose el resto entre las otras clases.
La aplicación de la regla 1-NN (t) es particularmente aconsejable si el conjunto de clases informacionales no es exhaustivo y este el el caso que nos ocupa.
En esta región encontramos regiones extensas de aguas marinas, un gran glaciar en la parte superior derecha, algunos lagos de agua dulce de origen glaciar y en la parte inferior izquierda encontramos grandes sombras debidas a una pronunciada pendiente. No existe ninguna área de entrenamiento para estas clases informacionales que acabamos de describir y no es deseable que los píxeles de estas regiones sean clasificados en alguna de las clases seleccionadas. Si clasificamos esta imagen utilizando la regla 1-NN sin clase de rechazo, los píxeles de estas regiones serán clasificados en alguna de las clases informacionales seleccionadas, cuando deberían ser descartados ya que no son interesantes para el problema de la identificación de las estructuras geológicas presentes en esta región. Por esta razón es necesario descartarlos. Para ello utilizamos la regla 1-NN (t).
La selección de t se realizó después de calcular la distribución de las mínimas distancias. En la figura 22 mostramos la distribución de las distancias y la información estadística acerca de esta distribución.
![]() |
Lo más relevante de esta tabla es el valor del tercer cuartil, 1927, ya que el valor umbral debe estar cercano. En la figura 23.A mostramos cuatro clasificaciones obtenidas con diferentes valores de t cercanos al valor del tercer cuartil. Tan solo mostramos los píxeles descartados. En la tabla de la figura 23.B mostramos el efecto del valor umbral t sobre el número de puntos descartados. Resulta evidente que a mayor valor umbral, menos puntos son descartados.
![]() |
Puede observarse que las cuatro zonas de rechazo son muy similares, por lo que resulta difícil la selección de t de forma automática debido a que la bondad media de las clasificaciones obtenidas son muy similares. Esto se debe a que la medida del error se realiza mediante un conjunto de prueba y no existe ninguna zona de entrenamiento para estos píxeles que han sido descartados, por lo que tan sólo se producen ligeras variaciones en la bondad media cuando el número de píxeles descartados es mayor, ya que la probabilidad de descartar un punto de entrenamiento aumenta. En este caso, el valor umbral fué seleccionado por un experto, analizando las zonas de rechazo mostradas en la figura 23.A. Se seleccionó el valor 1600 porque proporciona unas buenas regiones de puntos desacartados en las que todos los píxeles que representan sombras, agua, hielo y el gran glaciar situado en la parte superior derecha están incluidos.
En la figura 24 mostramos la clasificación 1-NN (t) con t = 1600. La bondad media de esta clasificación es de 78.5 % (ver tabla 2).
En este ejemplo mostramos otra aplicación de la regla 1-NN (t) para la clasificación de una imagen de Teledetección que corresponde a una región de Groenlandia llamada Igaliko. El conjunto de entrenamiento tiene 28441 muestras y 5 clases. La distribución de estas muestras es bastante más homogénea que en el caso anterior (ver tabla 3). Al igual que en el caso anterior, en esta escena existen zonas para las que no se ha establecido una clase informacional durante el entrenamiento y que deberían ser descartadas en la clasificación. Concretamente corresponden a glaciares, zonas nevadas y algunas nubes.
|
La determinación del valor umbral de distancia se realizó mediante un procedimiento similar al ejemplo anterior y se seleccionó el valor t = 25. La razón de que este valor sea tan bajo en relación al seleccionado para el caso anterior radica en el bajo contraste de la imagen original. En la figura 25 mostramos la clasificación 1-NN (t) y en la tabla 4 mostramos la bondad de esta clasificación.
Las zonas de rechazo seleccionadas en esta clasificación son muy aceptables y recogen aquellos puntos que debían ser descartados.
|