Clustering

Agrupamiento no supervisado: K-Means, DBSCAN y Gaussian Mixture en tiempo real

K clusters

Patron de datos

% Ruido

10%

N puntos

150

Animacion paso a paso

Scatter — puntos coloreados por cluster asignado ★ = centroide

—

Clusters

—

Iteraciones

—

Inercia (SSE)

—

Silhouette

Grafica del Codo — Inercia vs K

Silhouette score por cluster

📚 ¿Que estas viendo?

K-Means es un algoritmo iterativo que agrupa N puntos en K clusters. Empieza colocando K centroides al azar y repite dos pasos: (1) Asignacion — cada punto se asigna al centroide mas cercano; (2) Actualizacion — cada centroide se mueve al promedio de sus puntos asignados. El algoritmo converge cuando ningun punto cambia de cluster entre iteraciones.

La Inercia (SSE) mide la suma de distancias al cuadrado de cada punto a su centroide — menor inercia = clusters mas compactos. La Grafica del Codo ayuda a elegir K: busca el punto donde agregar mas clusters ya no reduce mucho la inercia. El Silhouette score (rango -1 a 1) mide que tan bien separados estan los clusters entre si — valores cercanos a 1 indican clusters bien definidos. Usa los botones de animacion para ver cada iteracion del algoritmo.

⚠ Limitaciones de K-Means

K debe conocerse de antemano

K-Means requiere especificar el numero de clusters antes de correr. En datos reales ese numero no se conoce — se necesita la grafica del codo, el silhouette score u otros criterios para estimarlo.

Sensible a la inicializacion

Si los centroides iniciales caen en posiciones desfavorables, el algoritmo puede converger a un optimo local malo. K-Means++ mejora la inicializacion eligiendo centroides mas separados entre si.

Solo detecta clusters esfericos

K-Means asume que los clusters son convexos y de tamanio similar. No puede detectar formas no convexas como anillos o lunas. Para eso existen DBSCAN o Gaussian Mixture con covarianza libre.

Muy sensible a outliers

Los centroides son promedios aritmeticos: un solo outlier extremo puede desplazar un centroide lejos de la masa de puntos. K-Medoids (PAM) usa puntos reales como centroides y es mas robusto.

Escala de variables importa

K-Means usa distancia Euclidiana. Si una variable tiene rango [0-1000] y otra [0-1], la primera domina completamente el agrupamiento. Siempre se debe estandarizar antes de aplicar K-Means.

Convergencia no garantiza optimo global

El algoritmo siempre converge pero no garantiza la mejor solucion posible. En la practica se corre varias veces con distintas semillas aleatorias y se elige la de menor inercia (parametro n_init en sklearn).

Asignacion dura (hard assignment)

Cada punto pertenece exactamente a un cluster. En datos con fronteras difusas esto puede ser artificialmente rigido. Gaussian Mixture Model ofrece asignacion suave (probabilidades de membresia).

La inercia siempre baja con K

Con K=N la inercia es 0 (cada punto es su propio cluster). Por eso no se puede optimizar K minimizando la inercia directamente — se necesita una penalizacion por complejidad como el BIC o el metodo del codo.

eps (radio)

0.50

min_samples

Patron de datos

% Ruido extra

N puntos

200

Leyenda de puntos

Core

Borde

Ruido

DBSCAN — clusters detectados automaticamente ✕ = puntos de ruido

—

Clusters detectados

—

Puntos ruido

—

% Clasificados

📚 ¿Que estas viendo?

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) agrupa puntos basandose en densidad local, no en distancia a centroides. Define dos parametros: eps — el radio de vecindad de cada punto — y min_samples — el numero minimo de vecinos para ser considerado punto core.

Un punto core (circulo lleno) tiene al menos min_samples vecinos en su radio eps. Un punto borde (circulo vacio) esta dentro del radio de un core pero no tiene suficientes vecinos propios. Un punto ruido (✕ gris) no pertenece a ningun cluster. La ventaja clave de DBSCAN es que detecta automaticamente el numero de clusters y puede encontrar formas arbitrarias como anillos y lunas. Ajusta eps y min_samples para ver como cambian las regiones densas detectadas.

⚠ Limitaciones de DBSCAN

eps y min_samples son criticos

Elegir eps incorrecto es facil: muy pequeno y todo se convierte en ruido, muy grande y todo colapsa a un unico cluster. No hay una formula automatica — se estima con la grafica de distancias al k-esimo vecino mas cercano.

Falla con densidades variables

DBSCAN usa un eps global. Si los clusters tienen densidades muy distintas (uno muy compacto y otro disperso), el mismo eps los trata de forma desigual. HDBSCAN resuelve esto con jerarquia de densidades.

Mal desempeno en alta dimension

En dimensiones altas la distancia Euclidiana pierde significado (curse of dimensionality) y todos los puntos quedan aproximadamente a la misma distancia, haciendo imposible definir un eps significativo.

Costo computacional O(N²)

La version basica requiere calcular distancias entre todos los pares de puntos. Con N=100,000 esto es 10 mil millones de operaciones. En la practica se usa un KD-Tree o Ball-Tree para reducirlo a O(N log N).

Puntos borde no deterministas

Un punto borde alcanzable desde dos clusters distintos puede asignarse a cualquiera dependiendo del orden de procesamiento. Esta ambiguedad es una limitacion conocida del algoritmo original.

No genera centroides

A diferencia de K-Means, DBSCAN no produce un representante por cluster. Para clasificar nuevos puntos no hay un modelo compacto — hay que correr el algoritmo de nuevo o usar la distancia al cluster mas cercano.

Ruido no siempre es ruido real

Los puntos marcados como ruido son simplemente de baja densidad con los parametros actuales. Cambiar eps o min_samples puede rescatarlos. No confundir puntos de ruido algoritmico con outliers estadisticos reales.

Sin garantia de clusters optimos

DBSCAN no minimiza ninguna funcion objetivo global como K-Means con la inercia. El resultado depende del orden de expansion y puede variar entre implementaciones con los mismos parametros.

K componentes

Patron de datos

% Ruido

10%

N puntos

150

Max iteraciones EM

GMM — asignacion por probabilidad maxima + elipses de covarianza elipse = 2σ

—

Componentes

—

Iteraciones EM

—

Log-Likelihood

—

BIC

📚 ¿Que estas viendo?

Gaussian Mixture Model (GMM) modela los datos como una superposicion de K distribuciones Gaussianas. A diferencia de K-Means, cada punto tiene una probabilidad de pertenencia a cada componente, no una asignacion dura. El algoritmo EM (Expectation-Maximization) alterna dos pasos: E-step — calcula la probabilidad de cada punto de pertenecer a cada Gaussiana (responsabilidades); M-step — actualiza los parametros de cada Gaussiana (media, covarianza, peso) maximizando la verosimilitud.

Las elipses en el scatter representan la forma de cada componente Gaussiana (contorno 2-sigma). Elipses alargadas indican componentes con correlacion entre variables. El BIC (Bayesian Information Criterion) penaliza el log-likelihood por la complejidad del modelo — valores menores indican un mejor balance entre ajuste y numero de parametros. Usalo para elegir el K optimo.

⚠ Limitaciones de Gaussian Mixture Model

Supuesto de normalidad

GMM asume que cada cluster sigue una distribucion Gaussiana. Si los datos reales tienen distribuciones multimodales, con colas pesadas o categoricas, el modelo puede producir componentes poco interpretables.

K debe especificarse igual que K-Means

El numero de componentes K no se aprende automaticamente. Se usa el BIC o AIC para comparar modelos con distintos K y elegir el que mejor equilibra ajuste y complejidad del modelo.

Sensible a la inicializacion

El algoritmo EM puede converger a optimos locales. Se recomienda inicializar con K-Means o correr multiples veces con semillas distintas. Una mala inicializacion puede hacer que dos componentes colapsen en la misma region.

Convergencia lenta en alta dimension

Estimar una matriz de covarianza completa requiere D*(D+1)/2 parametros por componente. Con D=100 variables eso es 5,050 parametros por Gaussiana — el modelo se vuelve inestable y necesita regularizacion.

Colapso de componentes (degeneracion)

Si una Gaussiana se ajusta a un solo punto, su varianza tiende a cero y el log-likelihood explota a infinito. Esto se controla con regularizacion (reg_covar en sklearn) o con covarianza diagonalmente restringida.

Interpretacion de responsabilidades

Las probabilidades de membresia (responsabilidades) pueden ser dificiles de interpretar cuando las Gaussianas se solapan mucho. En esos casos casi todos los puntos tienen probabilidades similares entre componentes.

BIC no es perfecto para elegir K

El BIC penaliza el numero de parametros pero asume que el modelo verdadero esta dentro del espacio de modelos considerados. Si los datos no son realmente Gaussianos, el K optimo segun BIC puede ser incorrecto.

Costo por iteracion mas alto que K-Means

Cada iteracion EM calcula probabilidades multivaridas para todos los N puntos y K componentes, y actualiza matrices de covarianza. Es significativamente mas lento que K-Means, especialmente con N grande y K alto.

Nuri Data Science

Clustering