En las consideraciones acerca de las reglas k-NN hemos introducido los motivos por los que resulta conveniente editar el conjunto de referencia. En primer lugar, durante el entrenamiento pueden producirse errores en el etiquetado o pueden aparecer patrones extraños (outliers) por problemas en la captación de los datos. Estos prototipos suelen aparecer en zonas cercanas a las regiones de decisión e influyen negativamente en el aprendizaje ya que incrementan la tasa de error de clasificación. En segundo lugar, hemos discutido con profundidad acerca del alto coste computacional de las reglas k-NN aplicadas al conjunto completo de prototipos.
El objetivo de los métodos de edición es el de seleccionar un conjunto de referencia representativo y reducido, de forma que decrezca tanto el error de clasificación como el coste computacional de la clasificación. El mecanismo utilizado es el de descartar patrones inmersos en otros agrupamientos o en zonas de alto solapamiento entre clases.
Una vez editado el conjunto de prototipos, se procede a clasificar patrones, independientes del conjunto de prototipos, aplicando la regla 1-NN y tomando como conjunto de referencia el conjunto editado.
En la figura 26 mostramos un esquema funcional de la clasificación por la regla 1-NN tomando como conjunto de referencia a un conjunto editado (SE) y al conjunto completo de prototipos (S). SE es un conjunto de prototipos editado, construido a partir de S mediante algún método de edición. Mediante R nos referimos al conjunto de referencia (donde se realiza la búsqueda del vecino más cercano).
Esta sección está dedicada a estudiar diversos métodos de edición del conjunto de prototipos, presentados de manera cronológica, y culminando con el algoritmo de multiedición. Antes de este desarrollo presentaremos la notación que vamos a emplear.