Entendí que el bosque aleatorio y los árboles extremadamente aleatorios difieren en el sentido de que las divisiones de los árboles en el bosque aleatorio son deterministas mientras que son aleatorios en el caso de árboles extremadamente aleatorizados (para ser más precisos, la siguiente división es la mejor división entre las divisiones uniformes aleatorias en las variables seleccionadas para el árbol actual). Pero no entiendo completamente el impacto de estas diferentes divisiones en varias situaciones.

  • ¿Cómo se comparan en términos de sesgo / varianza?
  • ¿Cómo se comparan en presencia de variables irrelevantes?
  • ¿Cómo se comparan en presencia de variables correlacionadas?

Comentarios

  • ( a) ERT a veces puede estar más sesgado debido a divisiones menos óptimas / ERT a veces reducirá la varianza debido a una mayor descorrelación de árboles; (b) Supongo lo mismo, no estoy seguro; (c) Supongo que lo mismo, no estoy seguro. Extra: No llamaría determinista a la división de RF debido al muestreo de variables aleatorias y, por supuesto, los árboles tampoco se deben al bootstrapping.
  • ¿Qué es un uniform split?

Respuesta

Los árboles extra (aleatorios) (ET) artículo contiene un análisis de variación de sesgo. En la página 16, puede ver una comparación con varios métodos, incluido RF en seis pruebas (árbol c lasificación y regresión tres).

Ambos métodos son casi iguales, siendo la ET un poco peor cuando hay una gran cantidad de características ruidosas (en conjuntos de datos de alta dimensión).

Dicho esto, siempre que la selección de funciones (quizás manual) sea casi óptima, el rendimiento es aproximadamente el mismo, sin embargo, los ET pueden ser computacionalmente más rápidos.

Del artículo en sí:

El análisis del algoritmo y la determinación del valor óptimo de K en varias variantes de problemas de prueba han demostrado que el valor depende en principio de los problemas específicos, en particular proporción de atributos irrelevantes . […] El análisis de sesgo / varianza ha demostrado que los árboles adicionales funcionan disminuyendo la varianza y al mismo tiempo aumentando el sesgo . […] Cuando la aleatorización aumenta por encima del nivel óptimo, la varianza disminuye levemente mientras que el sesgo a menudo aumenta significativamente.

No hay una fórmula mágica como siempre.


Pierre Geurts, Damien Ernst, Louis Wehenke. «Árboles extremadamente aleatorizados»

Comentarios

  • Cualquier referencia (ya sea empírica o teórica) con respecto a que la ET sea un poco peor cuando hay una gran cantidad de ruidos ¿caracteristicas? ¿O se basa en la experiencia?
  • En mi experiencia, lo contrario es cierto: Extra-Trees funciona mejor con muchas características ruidosas. Con la salvedad de que debe tener un bosque grande (muchos estimadores, n_estimators en sklearn) y ajustar el número de características consideradas en cada división (max_features en sklearn) para que esto funcione. Un solo árbol extra se sobreajustará más que un solo árbol forestal aleatorio, pero si tiene muchos árboles extra, tenderán a sobreajustarse de diferentes maneras y no sobreajustarse. A menudo obtengo una mejora sustancial de hasta 3000 estimadores.
  • Como señaló @ramhiser, ET parece mantener un rendimiento más alto en presencia de características ruidosas. ¿Puedes agregar algunas referencias a tu respuesta?
  • ¿Los árboles en Árboles adicionales son siempre un ‘ muñón ‘ (solo una división) Leer otros artículos da esa impresión.

Answer

ExtraTreesClassifier es como un hermano de RandomForest pero con 2 importantes diferencias.

ingrese la descripción de la imagen aquí

Estamos la construcción de múltiples árboles de decisión. Para construir varios árboles, necesitamos varios conjuntos de datos. La mejor práctica es que no entrenamos los árboles de decisión en el conjunto de datos completo, sino solo en una fracción de los datos (alrededor del 80%) para cada árbol. En un bosque aleatorio, extraemos observaciones con reemplazo. Por lo tanto, podemos tener la repetición de observaciones en un bosque aleatorio. En un ExtraTreesClassifier, estamos dibujando observaciones sin reemplazo, por lo que no tendremos repetición de observaciones como en el bosque aleatorio.

La división es el proceso de convertir un nodo padre no homogéneo en 2 nodos secundarios homogéneos (el mejor posible). En RandomForest, selecciona la mejor división para convertir el padre en los dos nodos secundarios más homogéneos. En un ExtraTreesClassifier, selecciona una división aleatoria para dividir el nodo principal en dos nodos secundarios aleatorios.

Veamos algunos métodos de conjunto ordenados de varianza alta a baja, que terminan en ExtraTreesClassifier.

1.Árbol de decisión (alta varianza)

Un solo árbol de decisión suele sobreajustarse a los datos de los que está aprendiendo porque aprende de una sola vía de decisiones. Las predicciones de un solo árbol de decisiones generalmente no hacen predicciones precisas sobre nuevos datos.

2. Bosque aleatorio (variación media)

Los modelos de bosque aleatorio reducen el riesgo de sobreajuste al introducir aleatoriedad al:

  • construir múltiples árboles (n_estimators)
  • dibujar observaciones con reemplazo (es decir, una muestra de arranque)
  • dividir los nodos en la mejor división entre un subconjunto aleatorio de las características seleccionadas en cada nodo . Dividir es un proceso para convertir un nodo padre no homogéneo en 2 nodos hijos homogéneos (lo mejor posible).

3. Árboles adicionales (baja variación)

Árboles adicionales es como un bosque aleatorio, ya que crea varios árboles y divide nodos utilizando subconjuntos aleatorios de características, pero con dos diferencias clave: no arranca observaciones (lo que significa que muestra sin reemplazo) y los nodos se dividen en divisiones aleatorias, no en las mejores divisiones. Entonces, en resumen, ExtraTrees:

  • construye múltiples árboles con bootstrap = False por defecto, lo que significa que muestra sin reemplazo
  • los nodos se dividen en función de divisiones aleatorias entre un subconjunto aleatorio de las características seleccionadas en cada nodo

En Extra Trees, la aleatoriedad no proviene de arrancar los datos, sino que proviene de las divisiones aleatorias de todas las observaciones. ExtraTrees lleva el nombre de (árboles extremadamente aleatorios).

Comentarios

Respuesta

¡Muchas gracias por las respuestas! Como todavía tenía preguntas, realicé algunas simulaciones numéricas para tener más información sobre el comportamiento de estos dos métodos.

  • Extra los árboles parecen mantener un rendimiento más alto en presencia de características ruidosas.

La siguiente imagen muestra el rendimiento (evaluado con validación cruzada) a medida que se agregan al conjunto de datos columnas aleatorias irrelevantes para el objetivo. el objetivo es solo una combinación lineal de las tres primeras columnas. bosque aleatorio frente a árboles adicionales en presencia de variables irrelevantes

  • Cuando todas las variables son relevantes, ambos métodos parecen lograr el mismo rendimiento ce,

  • Los árboles adicionales parecen tres veces más rápidos que el bosque aleatorio (al menos, en la implementación de scikit learn)

Fuentes

Enlace al artículo completo: bosque aleatorio frente a árboles adicionales .

Comentarios

  • De su artículo vinculado: » En azul se presentan los resultados del bosque aleatorio y en rojo para los árboles adicionales. »

Respuesta

La respuesta es que depende. Le sugiero que intente tanto bosque aleatorio como árboles adicionales en su problema. Pruebe un bosque grande (1000 – 3000 árboles / estimadores, n_estimators en sklearn) y ajuste el número de características consideradas en cada división (max_features en sklearn), así como las muestras mínimas por división (min_samples_split en sklearn) y la profundidad máxima del árbol ( max_depth en sklearn). Dicho esto, debe tener en cuenta que sobreajuste puede ser una forma de sobreajuste.

Aquí hay dos problemas en los que trabajé personalmente donde árboles adicionales resultaron útiles con datos muy ruidosos:

Bosques de decisión para la clasificación de aprendizaje automático de conjuntos de características del fondo marino grandes y ruidosos

Una predicción eficiente de trastornos de proteínas distribuidas con muestras pegadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *