Logo Nuri Nuri Data Science
Logo Nuri

Nuri Data Science

Nuri Data Science – Plataforma de Ejercicios de Ciencia de Datos, SQL, Python y Machine Learning

Clasificacion

Fronteras de decision, metricas y curva ROC en tiempo real

Modelo

Patron de datos

Umbral decision
0.50
K vecinos
5

% Ruido
15%
N puntos
80
Distribucion de clases + curva de probabilidad del modelo ● error = borde rojo
Accuracy
Precision
Recall
F1-Score
Matriz de confusion
TP — Verdadero Positivo
FP — Falso Positivo
FN — Falso Negativo
TN — Verdadero Negativo
📚 ¿Que estas viendo?
Los puntos en el scatter representan observaciones de dos clases sobre una sola variable numerica. La curva morada es la probabilidad que el modelo asigna a la Clase 1 para cada valor de X. La linea amarilla vertical es el umbral de decision: todo lo que queda a su derecha se predice como Clase 1. Los puntos con borde rojo son errores de clasificacion.

Mueve el umbral para ver el tradeoff: bajar el umbral sube el Recall (detectas mas positivos) pero baja la Precision (mas falsos alarmas). La matriz de confusion muestra los 4 resultados posibles: TP (correcto positivo), TN (correcto negativo), FP (falsa alarma) y FN (caso perdido). Cambia el patron a Solapado para ver como los modelos se comportan cuando las clases se mezclan.
⚠ Limitaciones de esta simulacion (Tab Binaria)
Solo 1 variable predictora
En esta pestaña la frontera de decision es siempre un umbral escalar en el eje X. En problemas reales con docenas o cientos de variables las fronteras pueden ser hiperplanos complejos o superficies no lineales.
Datos sinteticos Gaussianos
Las dos clases se generan con distribuciones normales. Los datos del mundo real rara vez siguen este patron — pueden ser multimodales, asimetricos, con outliers extremos o de naturaleza categorica.
Clases balanceadas al 50%
Esta simulacion genera aproximadamente 50% de cada clase. En problemas reales como deteccion de fraude o enfermedades raras el desbalance puede ser 99%/1%, donde el Accuracy deja de ser una metrica util.
Sin separacion train/test
El modelo se entrena y evalua en el mismo conjunto de datos. Las metricas mostradas son optimistas. En produccion siempre se separa train/test o se usa validacion cruzada para estimar la generalizacion real.
KNN: sensible a escala
KNN calcula distancias entre puntos. Si las variables tuvieran distintas escalas (ej. salario vs edad), la variable mayor dominaria la distancia. Siempre se debe normalizar antes de aplicar KNN en la practica.
Naive Bayes: supuesto de independencia
Gaussian Naive Bayes asume que las variables son estadisticamente independientes dado la clase. Este supuesto casi nunca se cumple en datos reales, aunque el modelo mantiene buen desempeno en muchos casos.
Arbol de decision sin poda
Con profundidad alta el arbol memoriza el conjunto de entrenamiento (overfitting). En produccion se regulariza con parametros como max_depth, min_samples_split o cost-complexity pruning (ccp_alpha).
Umbral de decision como hiperparametro
El umbral 0.5 es solo un punto de partida convencional. En aplicaciones criticas como diagnostico medico se optimiza el umbral segun el costo relativo de FP vs FN, o se usa la curva ROC para elegirlo.