Imputacion con RandomForest

 In Blogs

Este post fue publicado originalmente en Data Mining con R por noreply@blogger.com (Enmanuel Santana)

Si se tiene un data set con NA (datos faltantes, missing, etc..), puede usarse la función rfImpute del package randomForest para completar los NA de todas las variables.

Conceptualmente seria así:

# imputacion con rfImpute del package randomForest
 
 
library(randomForest);
# --------------------------------------------
## Crea valores NA aleatoriamente en data set iris.na
iris.na <- iris
for (i in 1:4) iris.na[sample(150, sample(50)), i] <- NA
 
# --------------------------------------------
## Imputa valores NA en nuevo data set
iris.imputed <- rfImpute(Species ~ ., iris.na)
NOTAS: 
La función rfImpute solo imputa variables numéricas y factores.
Para imputar solo una variable, ver método con regresión lineal publicado AQUI
El excel con imagenes se descarga AQUI

Referencia:
http://stackoverflow.com/questions/20537186/getting-predictions-after-rfimpute

 

Recommended Posts

Start typing and press Enter to search