Cantidad de variables en Random Forest

 In Blogs

Este post fue publicado originalmente en Data Mining con R por noreply@blogger.com (Enmanuel Santana)

Para saber la cantidad optima de variables en algoritmo randomForest (ver ejemplo de randomForest AQUI), puede usarse la función tuneRF que viene incluida en este package. Esta función gráfica el error OOB en cada iteración, aumentando la cantidad de variables en cada paso (para función de OOB ver nota publicada AQUI).

En el siguiente gráfico se puede identificar que al llegar a 8 variables se estabiliza el error:

El script:

library(randomForest);
library(MASS);data(Boston) # para data set
 
 
# Grafico del error OOB en cada iteracion
tuneRF(x = Boston,       # data set de entrenamiento 
       y = Boston$medv,  # variable a predecir
       mtryStart  = 1,   # cantidad de variables inicial 
       stepFactor = 2,   # incremento de variables
       ntreeTry   = 100, # cantidad arboles a ejecutar en cada iteracion
       improve    = .01  # mejora minina del OOB para seguir iteraciones
      )

Referencia
https://stat.ethz.ch/pipermail/r-help/2007-March/127679.html

Recommended Posts

Start typing and press Enter to search