Logo Nuri Nuri Data Science
Logo Nuri

Nuri Data Science

Nuri Data Science – Plataforma de Ejercicios de Ciencia de Datos, SQL, Python y Machine Learning

Playground 📈 Regresion
📈
Regresion con 1 variable de entrada
Tienes una variable predictora (x) y una variable objetivo (y) generadas sinteticamente. La linea verde discontinua siempre muestra la funcion real que produjo los datos; la linea rosa es lo que aprende el modelo — sin saber la verdad de antemano.

Que puedes explorar:
Patron de datos: lineal (y=2.5x+3), cuadratico (y=0.45x²−1.2x+0.5) o sinusoidal. Cambiar el patron muestra como distintos modelos manejan relaciones no lineales.
Ruido: sube el slider y los puntos se dispersan. R² baja y MSE sube — exactamente lo que ocurre con datos reales imperfectos. Con ruido cero, cualquier modelo ajusta perfectamente.
Ridge (L2): la penalizacion encoge la pendiente hacia cero sin anularla. Con λ alto la recta se aplana dramaticamente — el modelo sacrifica precision para reducir varianza.
Lasso (L1): puede zerear la pendiente por completo. Sube λ lentamente y observa como la ecuacion mostrada arriba cambia hasta llegar a ŷ = 0.
Polinomial: grado 1 es una recta; grado 7 es una curva compleja que memoriza el ruido (sobreajuste) pero fallaria al predecir nuevos valores fuera del rango de entrenamiento.
Residuos (toggle): activa las lineas de error vertical de cada punto. Rojos cuando el modelo subestima y, azules cuando sobreestima. Patrones sistematicos indican bias.
1 variable de entrada Aprende: sesgo y varianza con λ Aprende: encogimiento Ridge vs Lasso Aprende: sobreajuste polinomial Aprende: lectura de residuos
Modelo

Patron de datos

N puntos60
Nivel de ruido30%

N y Ruido generan nuevos puntos. Los demas sliders solo reajustan el modelo.

Dispersion y ajuste del modelo
ŷ = …
Regresion Simple
Datos Ajuste del modelo Relacion real ▏Residuo+ ▏Residuo−
Varianza explicada
MSE
Error cuadratico medio
MAE
Error absoluto medio
⚠️ Limitaciones de esta simulacion — por que el simulador no es la realidad
Sin division train / test
R², MSE y MAE se calculan sobre los mismos datos con los que se entreno el modelo. Un modelo con R²=0.97 en entrenamiento puede tener R²=0.30 en datos nuevos (sobreajuste). La unica forma de detectarlo es reservar datos de prueba antes de entrenar o usar validacion cruzada k-fold. Este simulador no lo hace — sus metricas son siempre optimistas.
Ruido gaussiano homoscedastico
El ruido generado tiene la misma varianza en todo el rango de x (homoscedasticidad). Datos reales son heteroscedasticos: el error crece con el valor de x, o es mayor en ciertas regiones. Esto viola el supuesto clave de OLS, hace que los errores estandar sean incorrectos y que los intervalos de confianza no tengan el coverage prometido.
Sin outliers ni datos faltantes
Todos los puntos generados son "bien portados". En la practica, un solo outlier puede mover la recta de regresion dramaticamente (efecto leverage). OLS minimiza el error cuadratico, por lo que penaliza outliers de manera desproporcionada. Se necesitan tecnicas robustas (regresion Huber, RANSAC) que este simulador no implementa ni muestra.
Lasso sin normalizacion de features
En scikit-learn, Lasso normaliza las features internamente antes de penalizar. Aqui x siempre esta en [−5, 5] por construccion, pero en datos reales con distintas escalas (temperatura vs ingreso en miles), la penalizacion afecta de forma desigual. El λ del simulador no es comparable con alpha en sklearn — son magnitudes completamente distintas.
Polinomial sin error de generalizacion
Puedes ver que grado 7 sobreajusta los datos de entrenamiento, pero el simulador no muestra que tan malo seria ese modelo con datos nuevos. En la practica, la curva de validacion (validation loss vs grado) es la herramienta clave: el error de entrenamiento siempre baja al subir el grado, pero el error de validacion sube despues de cierto punto. Esa curva en forma de U no existe aqui.
Sin intervalos de confianza en los coeficientes
El simulador muestra coeficientes puntuales (un numero exacto) pero no su incertidumbre estadistica. Con N=10 puntos y ruido alto, el intervalo de confianza al 95% de la pendiente podria ser [−40, 45] — el modelo no aprendio nada util. Esta incertidumbre es fundamental en cualquier analisis estadistico real pero no se visualiza aqui.
Una sola variable no captura confusores
La regresion univariable asume que x contiene toda la informacion para predecir y. En datos reales existen variables confusoras: variables que afectan simultaneamente tanto a x como a y, haciendo que el coeficiente estimado parezca significativo aunque la relacion sea espuria. Solo con multiples variables puedes controlar por confusores.
La funcion real siempre es conocida
La linea verde existe porque nosotros generamos los datos con una funcion predefinida. En cualquier problema real de ML, la "funcion real" no existe o es desconocida: solo tienes observaciones historicas con error. Nunca podras comparar tu modelo ajustado con la verdad absoluta — esa comparacion es exclusivamente una herramienta pedagogica del simulador.