Análisis de Componentes Principales

Published on:

Published on:

El Análisis de Componentes Principales (ACP) pertenece a la familia de técnicas conocidas como aprendizaje no supervisado, que busca extraer información mediante predictores, por ejemplo, identificar subgrupos. El método ACP ‘comprime’ la información proporcionada por múltiples variables en pocos componentes.

“Es un método estadístico que permite simplificar la complejidad de espacios muestrales con muchas dimensiones, mostrando su información de forma menos compleja en menos componentes que dimensiones.”

El ACP identifica patrones basados en la correlación entre características. Ayuda a encontrar las dimensiones de máxima variación en datos de alta dimensión y a proyectarlas a un nuevo subespacio de dimensiones iguales o inferiores a las originales. Los ejes ortogonales del nuevo subespacio (componentes principales) pueden interpretarse como las direcciones de máxima variación, dada la restricción de que los ejes de las nuevas características sean ortogonales entre sí.

En la figura 1, X1 y X2 son los ejes de las características originales y PC1 y PC2 son los componentes principales.

Un ejemplo muy interesante de la aplicación del ACP es el trabajo realizado en «Genes mirror geography within Europe», publicado en la revista Nature, en el que recopilaron información genética de 3.000 individuos europeos.

A pesar de los bajos niveles medios de diferenciación genética entre los europeos, encontraron una estrecha relación entre las distancias genéticas y geográficas. Lo más interesante es que con la aplicación del ACP surge un mapa geográfico de Europa como resumen bidimensional de todas las variables genéticas, observándose que la superposición entre los mapas es sorprendentemente precisa.

Si se amplía la imagen, el mapa revela incluso clusters genéticos diferenciados dentro de Suiza, basados en el idioma que habla la gente. Aun así, los conglomerados se superponen y, en general, los datos revelan un continuo genético entre los europeos, donde las fronteras del mapa genético son más borrosas que las de su contraparte geográfica. En lo que respecta a los genes, cuanto más cerca viven dos personas, más similar es su ADN. Este es un ejemplo muy claro sobre la aplicación de ACP. En la ciencia de datos es una técnica muy útil que ayuda en la compresión de datos con el fin de mantener la información más relevante. También puede mejorar el rendimiento predictivo mediante la reducción de la dimensionalidad.