Regresion | Playground | Nuri Data Science

Playground › 📈 Regresion

📈

Regresion con 1 variable de entrada

Tienes una variable predictora (x) y una variable objetivo (y) generadas sinteticamente. La linea verde discontinua siempre muestra la funcion real que produjo los datos; la linea rosa es lo que aprende el modelo — sin saber la verdad de antemano.

Que puedes explorar:
• Patron de datos: lineal (y=2.5x+3), cuadratico (y=0.45x²−1.2x+0.5) o sinusoidal. Cambiar el patron muestra como distintos modelos manejan relaciones no lineales.
• Ruido: sube el slider y los puntos se dispersan. R² baja y MSE sube — exactamente lo que ocurre con datos reales imperfectos. Con ruido cero, cualquier modelo ajusta perfectamente.
• Ridge (L2): la penalizacion encoge la pendiente hacia cero sin anularla. Con λ alto la recta se aplana dramaticamente — el modelo sacrifica precision para reducir varianza.
• Lasso (L1): puede zerear la pendiente por completo. Sube λ lentamente y observa como la ecuacion mostrada arriba cambia hasta llegar a ŷ = 0.
• Polinomial: grado 1 es una recta; grado 7 es una curva compleja que memoriza el ruido (sobreajuste) pero fallaria al predecir nuevos valores fuera del rango de entrenamiento.
• Residuos (toggle): activa las lineas de error vertical de cada punto. Rojos cuando el modelo subestima y, azules cuando sobreestima. Patrones sistematicos indican bias.

1 variable de entrada Aprende: sesgo y varianza con λ Aprende: encogimiento Ridge vs Lasso Aprende: sobreajuste polinomial Aprende: lectura de residuos

Modelo

Patron de datos

N puntos60

Nivel de ruido30%

Mostrar residuos

Mostrar relacion real

N y Ruido generan nuevos puntos. Los demas sliders solo reajustan el modelo.

Dispersion y ajuste del modelo

ŷ = …

Regresion Simple

Datos Ajuste del modelo Relacion real ▏Residuo+ ▏Residuo−

R²

—

Varianza explicada

MSE

—

Error cuadratico medio

MAE

—

Error absoluto medio

⚠️ Limitaciones de esta simulacion — por que el simulador no es la realidad

Sin division train / test

R², MSE y MAE se calculan sobre los mismos datos con los que se entreno el modelo. Un modelo con R²=0.97 en entrenamiento puede tener R²=0.30 en datos nuevos (sobreajuste). La unica forma de detectarlo es reservar datos de prueba antes de entrenar o usar validacion cruzada k-fold. Este simulador no lo hace — sus metricas son siempre optimistas.

Ruido gaussiano homoscedastico

El ruido generado tiene la misma varianza en todo el rango de x (homoscedasticidad). Datos reales son heteroscedasticos: el error crece con el valor de x, o es mayor en ciertas regiones. Esto viola el supuesto clave de OLS, hace que los errores estandar sean incorrectos y que los intervalos de confianza no tengan el coverage prometido.

Sin outliers ni datos faltantes

Todos los puntos generados son "bien portados". En la practica, un solo outlier puede mover la recta de regresion dramaticamente (efecto leverage). OLS minimiza el error cuadratico, por lo que penaliza outliers de manera desproporcionada. Se necesitan tecnicas robustas (regresion Huber, RANSAC) que este simulador no implementa ni muestra.

Lasso sin normalizacion de features

En scikit-learn, Lasso normaliza las features internamente antes de penalizar. Aqui x siempre esta en [−5, 5] por construccion, pero en datos reales con distintas escalas (temperatura vs ingreso en miles), la penalizacion afecta de forma desigual. El λ del simulador no es comparable con alpha en sklearn — son magnitudes completamente distintas.

Polinomial sin error de generalizacion

Puedes ver que grado 7 sobreajusta los datos de entrenamiento, pero el simulador no muestra que tan malo seria ese modelo con datos nuevos. En la practica, la curva de validacion (validation loss vs grado) es la herramienta clave: el error de entrenamiento siempre baja al subir el grado, pero el error de validacion sube despues de cierto punto. Esa curva en forma de U no existe aqui.

Sin intervalos de confianza en los coeficientes

El simulador muestra coeficientes puntuales (un numero exacto) pero no su incertidumbre estadistica. Con N=10 puntos y ruido alto, el intervalo de confianza al 95% de la pendiente podria ser [−40, 45] — el modelo no aprendio nada util. Esta incertidumbre es fundamental en cualquier analisis estadistico real pero no se visualiza aqui.

Una sola variable no captura confusores

La regresion univariable asume que x contiene toda la informacion para predecir y. En datos reales existen variables confusoras: variables que afectan simultaneamente tanto a x como a y, haciendo que el coeficiente estimado parezca significativo aunque la relacion sea espuria. Solo con multiples variables puedes controlar por confusores.

La funcion real siempre es conocida

La linea verde existe porque nosotros generamos los datos con una funcion predefinida. En cualquier problema real de ML, la "funcion real" no existe o es desconocida: solo tienes observaciones historicas con error. Nunca podras comparar tu modelo ajustado con la verdad absoluta — esa comparacion es exclusivamente una herramienta pedagogica del simulador.

Modelo

Patron de datos

Numero de variables

N muestras60

Nivel de ruido25%

Mostrar residuos

Mueve λ lentamente y observa como las barras de coeficientes cambian en el grafico.

Coeficientes del modelo

Azul = positivo · Rosa = negativo · Gris = eliminado por Lasso

Todas las features activas

🎯 Relacion real: β₀=2.0, β₁=4.0, β₂=−2.5

Real vs Predicho

Color = variable dominante · Diagonal = modelo perfecto

OLS

R²

—

Varianza explicada

Features activas

—

Con coef. ≠ 0

MSE

—

Error cuadratico medio

⚠️ Limitaciones de esta simulacion — por que el simulador no es la realidad

Features completamente independientes entre si

Las variables x₁, x₂... se generan de forma aleatoria e independiente, sin ninguna correlacion. En datos reales casi siempre existe multicolinealidad: ingresos correlaciona con educacion, temperatura con humedad. Con features correlacionadas, los coeficientes de OLS se vuelven inestables, su varianza explota y su interpretacion pierde sentido. Ridge fue disenado precisamente para ese escenario — aqui no puedes verlo operar en su caso de uso real.

La verdad conocida es un privilegio pedagogico

El simulador siempre sabe que β₁=4.0 y β₂=−2.5 porque los genera el propio codigo. En cualquier problema real de ML, los coeficientes verdaderos son desconocidos. La barra verde de "Valor real (verdad)" no existe fuera del aula: nadie puede validar si su modelo encontro los coeficientes correctos — solo puede evaluar su rendimiento predictivo sobre datos nuevos que nunca vio durante el entrenamiento.

Maximo 4 variables — Lasso fue hecho para miles

Lasso fue disenado para el escenario p ≫ n (muchas mas features que muestras). Con 50,000 genes y 200 pacientes, o 1M de palabras en texto, Lasso selecciona automaticamente las features relevantes. Con 4 variables independientes el simulador no puede mostrar ese poder real: el efecto de esparsificacion de Lasso se vuelve irrelevante cuando tienes pocas features bien seleccionadas desde el inicio.

Descenso de coordenadas sin normalizacion

El algoritmo Lasso implementado aqui no normaliza las features antes de penalizar. En scikit-learn, Lasso(alpha=0.1) trabaja sobre features z-score normalizadas internamente. Si tus variables tuvieran escalas distintas (salario en pesos vs edad en anhos), la penalizacion afectaria mas a la variable de mayor magnitud. El λ que ves en el simulador no es comparable con alpha de sklearn — son magnitudes completamente distintas.

Evaluacion in-sample sin validacion cruzada

R² y MSE se calculan sobre los datos con los que se entreno el modelo. En produccion, el criterio de seleccion de modelo no es "el que mejor ajusta en entrenamiento" sino "el que mejor predice datos nuevos". Sin k-fold cross-validation no puedes comparar correctamente OLS vs Ridge vs Lasso: a igual R² de entrenamiento, Ridge puede generalizar mucho mejor que OLS cuando hay ruido o features correlacionadas.

Sin efectos de interaccion entre variables

La expansion polinomial del simulador agrega x₁², x₂²... pero no terminos de interaccion (x₁·x₂, x₁·x₃, x₂·x₃). La expansion polinomial completa de grado 2 con 4 variables tiene 15 terminos (4 lineales + 4 cuadraticos + 6 interacciones + intercepto), no los 9 del simulador. Las interacciones son fundamentales en modelos de negocio: el efecto del precio puede depender del canal de venta, y eso es x₁·x₂.

Polinomial sin regularizacion combinada

El modo Polinomial usa OLS puro, sin ninguna penalizacion. En produccion, la combinacion Polinomial + Ridge se llama Kernel Ridge Regression, y es la base de las SVMs con kernel polinomial. Polinomial + Lasso permite seleccion de features no lineales. Ninguna de estas combinaciones esta disponible aqui: con grado alto y pocas muestras, el modelo puede generar coeficientes enormes que en produccion fallarian completamente.

Distribucion de error gaussiana y constante

El simulador genera ruido con distribucion normal de varianza constante. Datos reales tienen errores heteroscedasticos (la varianza cambia segun x), distribuciones no normales (Poisson para conteos, Bernoulli para clasificacion binaria), datos con censura (el valor maximo observado esta truncado), o errores correlacionados en series de tiempo. OLS asume normalidad e igualdad de varianzas — supuestos que rara vez se cumplen en la practica.