Agregar variables de PCA

 In Blogs

Este post fue publicado originalmente en Data Mining con R por noreply@blogger.com (Enmanuel Santana)

Una forma de redefinir las variables  es usar Analisis de Componentes Principales (o PCA por Principal Component Analysis), que es una combinación lineal de las variables originales que busca resumir todas las variables en unas pocas variables combinadas. Muchas veces, agregar los componentes principales al data set mejora los resultados de los algoritmos predictivos, ya que se agrega otra representacion de los datos, donde las variables del PCA representan un hiperplano ortogonal, es deecir, variables no correlacionadas entre si. Para detalle del PCA ver nota y referencias publicadas AQUI.

El siguiente script calcula los componentes principales de un data set, y agrega únicamente los componentes principales para tener el 99% de la proporción de la variabilidad.

Conceptualmente seria así:

….

# LIBRERIA Y DATOS
# ----------------------------------------------------------------------
library(C50);
data(churn)
df <-  churnTrain
 
 
# ANALISIS DE COMPONENTES PRINCIPALES
# ----------------------------------------------------------------------
pca          <- prcomp(df[,6:19])
prop_acum    <- summary(pca)$importance[3,]
pca_v        <- prop_acum[prop_acum <= 0.999 ]
 
 
# Dataset Original + PCA
# ----------------------------------------------------------------------
df2          <- cbind(df, pca$x[,1:length(pca_v)])
Recommended Posts

Start typing and press Enter to search