¿En qué consiste el algoritmo K-Means?

El algoritmo K-Means es un método de agrupamiento no supervisado que asigna puntos de datos a K clusters basados en la similitud de características. Busca minimizar la varianza dentro de cada cluster.

¿Qué aplicaciones tiene el algoritmo K-Means en el análisis de datos?

El algoritmo K-Means se utiliza en el análisis de datos para segmentar clientes, agrupar documentos, comprimir imágenes, identificar patrones en datos genómicos y en tareas de minería de datos en general.

¿Cómo se selecciona el valor óptimo de K en el algoritmo K-Means?

El valor óptimo de K en el algoritmo K-Means se puede determinar mediante métodos como el codo (elbow method), el coeficiente de silueta (silhouette coefficient), o métodos de validación interna o externa.

El algoritmo K-Means (K-medias)

Published on:

enero 26, 2022

Published on:

Data Science

Blog » Data Science » El algoritmo K-Means (K-medias)

Imagínate que estás abriendo una pequeña librería. Tienes un montón de libros diferentes, y 3 estanterías. Tu objetivo es colocar libros similares en un estante. Lo que harías es recoger 3 libros, uno para cada estante para establecer un tema para cada estante. Estos libros dictarán ahora cuál de los libros restantes irá en cada estante.

Cada vez que tomas un libro nuevo de la pila, lo comparas con los primeros 3 libros, y pones este nuevo libro en el estante que tiene libros similares. Puedes repetir este proceso hasta que todos los libros hayan sido colocados.

Una vez que hayas terminado, podrías notar que cambiar el número de estantes y recoger diferentes libros iniciales para esos estantes, cambiando el tema para cada estante, aumentaría la eficacia con la que has agrupado los libros. Por lo tanto, repites el proceso con la esperanza de un mejor resultado.

Bueno, el algoritmo K Means trabaja de esa forma.

“K-means clustering es uno de los más simples y populares algoritmos sin supervición de machine learning.”

El nombre Clustering se refiere a cluster, que es una colección de puntos de datos agregados debido a ciertas similitudes.

El objetivo de K-Means es claro: agrupar observaciones similares para descubrir patrones que a simple vista se desconocen. Para conseguirlo, el algoritmo busca un número fijo (k) de clústeres en el dataset.

Una vez definido el número de clusters o K el modelo realiza sus propios cálculos y asigna un clúster a cada punto de datos. Su modelo calculará la distancia entre el punto de datos y todos los centroides, y será asignado al clúster con el centroide más cercano.

Algunos ejemplos de caso de uso son:

Segmento por historial de compras.
Segmento por actividades en la aplicación, sitio web o plataforma.
Definir a las personas en función de sus intereses.
Crear perfiles basados en la supervisión de actividades.
Agrupación de inventarios por actividades de ventas.
Agrupación de imágenes.

En resumen, K Means es un algoritmo maravilloso con muchos usos potenciales, tan versátil que puede ser utilizado para casi cualquier tipo de clustering de datos. Pero, por supuesto, hay que ser consciente de sus suposiciones y de la forma en que funciona si no se quiere ser guiado a resultados equivocados