Clasificacion

Fronteras de decision, metricas y curva ROC en tiempo real

Modelo

Patron de datos

Umbral decision

0.50

K vecinos

% Ruido

15%

N puntos

Distribucion de clases + curva de probabilidad del modelo ● error = borde rojo

—

Accuracy

—

Precision

—

Recall

—

F1-Score

Matriz de confusion

—

TP — Verdadero Positivo

—

FP — Falso Positivo

—

FN — Falso Negativo

—

TN — Verdadero Negativo

📚 ¿Que estas viendo?

Los puntos en el scatter representan observaciones de dos clases sobre una sola variable numerica. La curva morada es la probabilidad que el modelo asigna a la Clase 1 para cada valor de X. La linea amarilla vertical es el umbral de decision: todo lo que queda a su derecha se predice como Clase 1. Los puntos con borde rojo son errores de clasificacion.

Mueve el umbral para ver el tradeoff: bajar el umbral sube el Recall (detectas mas positivos) pero baja la Precision (mas falsos alarmas). La matriz de confusion muestra los 4 resultados posibles: TP (correcto positivo), TN (correcto negativo), FP (falsa alarma) y FN (caso perdido). Cambia el patron a Solapado para ver como los modelos se comportan cuando las clases se mezclan.

⚠ Limitaciones de esta simulacion (Tab Binaria)

Solo 1 variable predictora

En esta pestaña la frontera de decision es siempre un umbral escalar en el eje X. En problemas reales con docenas o cientos de variables las fronteras pueden ser hiperplanos complejos o superficies no lineales.

Datos sinteticos Gaussianos

Las dos clases se generan con distribuciones normales. Los datos del mundo real rara vez siguen este patron — pueden ser multimodales, asimetricos, con outliers extremos o de naturaleza categorica.

Clases balanceadas al 50%

Esta simulacion genera aproximadamente 50% de cada clase. En problemas reales como deteccion de fraude o enfermedades raras el desbalance puede ser 99%/1%, donde el Accuracy deja de ser una metrica util.

Sin separacion train/test

El modelo se entrena y evalua en el mismo conjunto de datos. Las metricas mostradas son optimistas. En produccion siempre se separa train/test o se usa validacion cruzada para estimar la generalizacion real.

KNN: sensible a escala

KNN calcula distancias entre puntos. Si las variables tuvieran distintas escalas (ej. salario vs edad), la variable mayor dominaria la distancia. Siempre se debe normalizar antes de aplicar KNN en la practica.

Naive Bayes: supuesto de independencia

Gaussian Naive Bayes asume que las variables son estadisticamente independientes dado la clase. Este supuesto casi nunca se cumple en datos reales, aunque el modelo mantiene buen desempeno en muchos casos.

Arbol de decision sin poda

Con profundidad alta el arbol memoriza el conjunto de entrenamiento (overfitting). En produccion se regulariza con parametros como max_depth, min_samples_split o cost-complexity pruning (ccp_alpha).

Umbral de decision como hiperparametro

El umbral 0.5 es solo un punto de partida convencional. En aplicaciones criticas como diagnostico medico se optimiza el umbral segun el costo relativo de FP vs FN, o se usa la curva ROC para elegirlo.

Modelo

Patron

K vecinos

% Ruido

10%

N puntos

120

Frontera de decision — fondo = region predicha por el modelo ● error = borde rojo

—

Accuracy

—

Precision

—

Recall

—

F1-Score

Curva ROC — AUC: —

Matriz de confusion

—

📚 ¿Que estas viendo?

El fondo del scatter muestra la frontera de decision del modelo: la region morada es donde el modelo predice Clase 0, la region rosa donde predice Clase 1. Los puntos reales aparecen encima con su color de clase verdadera. Los puntos con borde rojo son errores — el modelo los coloco en la region equivocada.

La curva ROC muestra el tradeoff entre Tasa de Verdaderos Positivos (Recall / TPR) y Tasa de Falsos Positivos (FPR) al variar el umbral de 0 a 1. El area bajo la curva (AUC) resume la capacidad discriminativa del modelo: AUC 1.0 es perfecto, 0.5 equivale a clasificar al azar. Prueba los patrones Circular y Lunas para ver como los modelos lineales (Logistica, SVM) generan fronteras rectas mientras KNN y Arbol se adaptan a formas no lineales.

⚠ Limitaciones de esta simulacion (Tab 2D)

Grid de baja resolucion

La frontera de decision se renderiza como una cuadricula de 35x35 puntos de fondo. El resultado parece "pixelado" en los bordes. En produccion la frontera se calcula de forma continua sobre el espacio original de variables.

SVM lineal simplificado

Este SVM usa descenso de gradiente estocastico con perdida hinge. No implementa el truco del kernel — para clasificacion no lineal (RBF, polinomial) se necesita la formulacion dual completa con multiplicadores de Lagrange.

Arbol sin poda (overfitting)

Con profundidad alta el arbol crea fronteras muy irregulares que memorizan el conjunto de entrenamiento. Observa como a profundidad 6-7 la frontera se fragmenta completamente — eso es overfitting en accion.

Solo 2 dimensiones

Visualizar la frontera en 2D requiere proyectar un espacio de alta dimension. En problemas reales con cientos de variables las fronteras son geometricamente complejas y no pueden visualizarse directamente.

Curva ROC solo binaria

La curva ROC aplica directamente a clasificacion de 2 clases. Para multiples clases se necesita una curva ROC por clase en esquema one-vs-rest, con metricas macro o micro promediadas segun el contexto.

KNN: costo de prediccion

KNN no tiene una etapa de entrenamiento — toda la computacion ocurre al predecir. Para N muestras de entrenamiento predecir un punto cuesta O(N). Con millones de puntos esto es prohibitivo sin estructuras como KD-Tree o Ball-Tree.

Sin normalizacion de variables

KNN y SVM son sensibles a la escala de las variables. En esta simulacion ambas variables estan en el mismo rango. En practica se debe estandarizar (StandardScaler o MinMaxScaler) antes de aplicar estos modelos.

Sin separacion train/test

El AUC y las metricas mostradas son optimistas porque el modelo se evalua en los mismos datos con los que se entrenó. En produccion se necesita validacion cruzada para estimar el rendimiento real en datos no vistos.

Nuri Data Science

Clasificacion