PCA y Reduccion Dimensional

PCA lineal, Kernel PCA y t-SNE — proyeccion de alta dimension a 2D en tiempo real

Dimensiones (D)

Clusters (K)

Separacion clusters

3.0

% Ruido extra-dim

30%

N puntos

120

Los datos se generan con estructura en 2D incrustada en D dimensiones. PCA deberia recuperar esa estructura en PC1 y PC2.

Proyeccion PCA — PC1 vs PC2 (coloreado por cluster original) PC1+PC2 = —%

—

Var PC1

—

Var PC2

—

Acum PC1+PC2

—

Dims para 90%

Grafica de sedimentacion (Scree Plot)

Cargas (Loadings) PC1 y PC2 por variable

📚 ¿Que estas viendo?

PCA (Analisis de Componentes Principales) encuentra las direcciones de maxima varianza en los datos y proyecta cada punto sobre esas direcciones. La primera componente (PC1) captura la mayor varianza posible; la segunda (PC2) captura la mayor varianza restante y es perpendicular a PC1.

El scatter muestra cada punto proyectado sobre PC1 (eje X) y PC2 (eje Y), coloreado por su cluster original. Si los clusters se ven separados en 2D, PCA logro capturar la estructura relevante aunque los datos originales vivan en D dimensiones. La grafica de sedimentacion (Scree Plot) muestra cuanta varianza explica cada componente — busca el "codo" para elegir cuantos componentes conservar. Los loadings muestran como contribuye cada variable original a PC1 y PC2 — variables con loading alto son las mas "importantes" para esa componente.

⚠ Limitaciones de PCA Lineal

Solo captura varianza lineal

PCA maximiza la varianza lineal. Si la estructura relevante de los datos es no lineal (circulos concentricos, espirales, variedades curvas) PCA no puede capturarla y mezcla las clases en el espacio reducido.

Sensible a la escala

PCA usa distancias euclidianas. Si las variables tienen diferentes escalas (salario en miles vs edad en decenas), las de mayor varianza dominan las componentes. Siempre estandarizar (StandardScaler) antes de aplicar PCA.

Componentes dificiles de interpretar

Las componentes principales son combinaciones lineales de todas las variables originales. A menudo no tienen interpretacion semantica directa — "PC1 es 0.4*x1 + 0.3*x2 - 0.5*x3..." no dice mucho al dominio.

No maximiza separacion de clases

PCA maximiza varianza global, no separacion entre clases. Una componente puede tener alta varianza pero mezclar las clases. LDA (Analisis Discriminante Lineal) maximiza explicitamente la separacion entre grupos.

Perdida de informacion irreversible

Al proyectar de D a K dimensiones (K menor de D) se pierde la varianza de las componentes descartadas. Esta perdida es irreversible — no se pueden recuperar los datos originales exactamente desde la proyeccion.

El Scree Plot puede ser ambiguo

El "codo" en la grafica de sedimentacion no siempre es obvio — puede haber multiples codos o una caida gradual. Se usan criterios alternativos como varianza acumulada mayor al 90% o el test de Anderson-Rubin.

Supone distribucion Gaussiana

PCA es optimo bajo suposicion de normalidad multivariada. Con distribuciones multimodales o con colas pesadas, las componentes principales pueden no capturar la estructura mas relevante de los datos.

Loadings no implican causalidad

Un loading alto de una variable en PC1 solo indica covariacion, no que esa variable cause la varianza. En datos observacionales, variables confundidoras pueden tener loadings altos sin ser causalmente relevantes.

Patron (2D no lineal)

gamma (kernel RBF)

0.50

% Ruido

N puntos

120

Kernel RBF: K(x,z) = exp(-γ||x-z||²). Aumenta γ para fronteras mas locales, reduce para mas suaves.

PCA Lineal — PC1 vs PC2

Kernel PCA (RBF) — KPC1 vs KPC2

—

Gamma RBF

—

Var PCA lin

—

Var Kernel PC1

—

N puntos

📚 ¿Que estas viendo?

Kernel PCA aplica el "truco del kernel" para realizar PCA en un espacio de caracteristicas de alta (incluso infinita) dimension sin calcular explicitmamente las coordenadas en ese espacio. Con el kernel RBF (Radial Basis Function) K(x,z) = exp(-γ||x-z||²), el espacio implicito captura similitudes locales entre puntos — cercanos tienen kernel alto, lejanos cerca de cero.

El grafico izquierdo muestra la proyeccion PCA lineal: para datos con estructura no lineal (circulos, lunas, espiral) las clases quedan mezcladas porque no existe un hiperplano que las separe. El grafico derecho muestra Kernel PCA: al mapear los datos al espacio del kernel, la estructura no lineal se vuelve separable linealmente. El parametro gamma controla la localidad del kernel — gamma alto da fronteras muy irregulares (riesgo de overfitting), gamma bajo da proyecciones mas suaves.

⚠ Limitaciones de Kernel PCA

Costo O(N²) en memoria y tiempo

Kernel PCA requiere calcular y almacenar la matriz de kernel N×N. Con N=10,000 eso son 100 millones de valores — inviable en memoria. Para N grande se usan aproximaciones como Nystrom o Random Kitchen Sinks.

Eleccion de kernel y gamma critica

No existe un criterio automatico para elegir el kernel ni sus parametros — requiere validacion cruzada o conocimiento del dominio. Un gamma incorrecto puede dar una proyeccion peor que PCA lineal.

No tiene preimagen exacta

A diferencia de PCA lineal, no existe una formula cerrada para invertir la proyeccion de Kernel PCA. Reconstruir los datos originales desde el espacio reducido requiere aproximaciones iterativas con error residual.

Componentes sin interpretacion

Las componentes de Kernel PCA viven en el espacio implicito del kernel, no en el espacio original de las variables. No pueden interpretarse como combinaciones lineales de las variables originales.

Prediccion de nuevos puntos costosa

Para proyectar un nuevo punto x*, hay que calcular su kernel con todos los N puntos de entrenamiento. Con N grande esto es costoso y hace a Kernel PCA poco practico en produccion con datos en tiempo real.

Escalado requerido

El kernel RBF es sensible a la escala: con gamma fijo, variables de mayor magnitud dominan la distancia. Siempre normalizar los datos antes de aplicar Kernel PCA, igual que con PCA lineal.

Overfitting con gamma alto

Un gamma muy alto hace que cada punto sea su propio vecindario, capturando ruido en lugar de estructura. La proyeccion parece perfecta en entrenamiento pero no generaliza a datos nuevos.

No conserva distancias globales

Kernel PCA preserva similitudes locales (segun el kernel) pero puede distorsionar la geometria global. Puntos muy lejanos en el original pueden quedar cerca en la proyeccion si tienen alta similitud de kernel.

Perplexity

Dimensiones entrada (D)

Clusters (K)

Iteraciones

300

% Ruido

20%

N puntos

100

t-SNE puede tardar unos segundos con N grande e iteraciones altas.

PCA lineal (referencia) — PC1 vs PC2

t-SNE 2D — embedding aprendido

—

KL Divergencia

—

Iteraciones

—

Perplexity

—

Dims entrada

📚 ¿Que estas viendo?

t-SNE (t-distributed Stochastic Neighbor Embedding) aprende un embedding 2D que preserva la estructura de vecindad local de los datos en alta dimension. Para cada punto, convierte distancias en probabilidades usando una Gaussiana (en alta dim) y una distribucion t de Student (en 2D). Luego minimiza la divergencia KL entre ambas distribuciones mediante descenso de gradiente.

La distribucion t tiene colas mas pesadas que la Gaussiana — esto resuelve el "crowding problem": en 2D hay menos espacio para representar vecindarios que en alta dimension. El parametro perplexity controla el tamanio efectivo del vecindario local (~log2(perplexity) vecinos considerados). Perplexity baja preserva estructura local fina, perplexity alta preserva estructura global. Compara con PCA lineal para ver cuanto mejor separa t-SNE cuando las clases se solapan en las primeras componentes principales.

⚠ Limitaciones de t-SNE

No conserva distancias globales

t-SNE preserva vecindades locales pero distorsiona la estructura global. El tamanio y la distancia entre clusters en el embedding NO son interpretables — clusters grandes no son necesariamente mas densos ni mas cercanos en el original.

No determinista

La inicializacion aleatoria y la estocasticidad del gradiente hacen que cada ejecucion produzca un embedding diferente. Dos corridas con los mismos datos pueden verse muy distintas y ambas son "correctas".

Costo O(N²) por iteracion

La implementacion basica calcula pares de distancias N×N en cada iteracion. Con 1000 puntos eso es 1 millon de calculos por iteracion × cientos de iteraciones. Barnes-Hut t-SNE reduce a O(N log N) usando aproximaciones de arboles.

Perplexity es sensible

Perplexity baja puede crear muchos clusters pequenos artificiales; alta puede fusionar clusters reales. No hay un valor universal optimo — se recomienda probar 5-50 y comparar. Con N pequeno usar perplexity menor.

Solo para visualizacion

A diferencia de PCA, t-SNE no tiene una transformacion lineal que aplicar a nuevos datos. Cada nuevo punto requiere reejecutar el algoritmo completo. No es util como preprocesamiento para modelos downstream.

Clusters artificiales con pocos datos

Con N pequeno t-SNE puede crear clusters que no existen en los datos originales. El algoritmo fuerza la separacion de puntos en 2D aunque en alta dimension esten uniformemente distribuidos.

Convergencia lenta

t-SNE tipicamente necesita 250-1000 iteraciones para converger. Con hiperparametros inadecuados (learning rate, momentum) puede quedar atrapado en un minimo local malo o divergir. La exageracion temprana ayuda a salir de minimos locales.

No mide calidad del embedding

La KL divergencia mide el ajuste del modelo pero no la calidad de separacion de clases. Un KL bajo no implica que los clusters sean visualmente distintos. Se usan metricas alternativas como trustworthiness o continuity para evaluacion objetiva.

Nuri Data Science

PCA y Reduccion Dimensional