Jeg forstod, at tilfældige skove og ekstremt tilfældige træer adskiller sig i den forstand, at splittelsen af træerne i tilfældig skov er deterministisk, hvorimod de er tilfældige i tilfælde af ekstremt randomiserede træer (for at være mere præcis er den næste opdeling den bedste opdeling blandt tilfældige ensartede opdelinger i de valgte variabler for det aktuelle træ). Men jeg forstår ikke fuldt ud virkningen af disse forskellige splittelser i forskellige situationer.

  • Hvordan sammenligner de sig med hensyn til bias / varians?
  • Hvordan sammenligner de i tilstedeværelse af irrelevante variabler?
  • Hvordan sammenlignes de i nærvær af korrelerede variabler?

Kommentarer

  • ( a) ERT kan undertiden være mere forudindtaget på grund af mindre optimale opdelinger / ERT vil undertiden reducere varians på grund af yderligere dekorrelation af træer; (b) Jeg gætter det samme, ikke sikkert; (c) Jeg gætter det samme, ikke sikker. Jeg vil ikke kalde opdeling af RF deterministisk på grund af tilfældig variabel prøveudtagning, og træerne skyldes selvfølgelig hverken bootstrapping.
  • Hvad er en uniform split?

Svar

Ekstra- (randomiserede) træer (ET) artikel indeholder en bias-variansanalyse. På side 16 kan du se en sammenligning med flere metoder inklusive RF på seks tests (træ c lassifikation og tre regressioner.

Begge metoder er omtrent de samme, hvor ET er lidt værre, når der er et stort antal støjende funktioner (i højdimensionale datasæt).

Når det er sagt, forudsat at det (måske manuelle) funktionsvalg er næsten optimalt, er ydeevnen omtrent den samme, men ET kan dog beregnes hurtigere.

Fra selve artiklen:

Analysen af algoritmen og bestemmelsen af den optimale værdi af K på flere testproblemvarianter har vist, at værdien i princippet er afhængig af problemspecifikationer, især andel af irrelevante attributter . […] Bias / variansanalysen har vist, at Ekstra-træer virker ved at mindske variansen mens den samtidig øger bias . […] Når randomiseringen øges over det optimale niveau, falder variansen let, mens bias ofte stiger markant.

Ingen sølvkugle som altid.


Pierre Geurts, Damien Ernst, Louis Wehenke. “Ekstremt randomiserede træer”

Kommentarer

  • Eventuelle referencer (enten empirisk eller teoretisk) angående ET er lidt dårligere, når der er et stort antal støjende funktioner? Eller er dette baseret på erfaring?
  • Efter min erfaring er det modsatte tilfældet: Extra-Trees klarer sig bedre med mange støjende funktioner. Med forbehold for, at du skal have en stor skov (mange estimatorer, n_estimatorer i sklearn) og indstille antallet af funktioner, der overvejes ved hver split (max_features in sklearn) for at dette skal fungere. Et enkelt ekstra træ vil overdrive mere end et enkelt tilfældigt skovtræ, men hvis du har mange ekstra træer, vil de have tendens til at overfit på forskellige måder og ikke overfit. Jeg får ofte betydelig forbedring op til 3000 estimatorer.
  • Som @ramhiser påpegede, ser ET ud til at holde en højere ydeevne i nærvær af støjende funktioner. Kan du tilføje nogle referencer til dit svar?
  • Er træer i ekstra træer altid en ‘ stub ‘ (bare en split) ?? At læse andre artikler giver et sådant indtryk.

Svar

ExtraTreesClassifier er som en bror til RandomForest, men med 2 vigtige forskelle.

indtast billedebeskrivelse her

Vi er opbygning af flere beslutningstræer. For at bygge flere træer har vi brug for flere datasæt. Bedste praksis er, at vi ikke træner beslutningstræerne i det komplette datasæt, men vi træner kun på brøkdel af data (ca. 80%) for hvert træ. I en tilfældig skov tegner vi observationer med erstatning. Så vi kan gentage observationer i en tilfældig skov. I en ExtraTreesClassifier tegner vi observationer uden erstatning, så vi vil ikke gentage observationer som i tilfældig skov.

Opdelingen er processen med at konvertere en ikke-homogen forældrenode i 2 homogene underknudepunkter (bedst mulig). I RandomForest vælger den den bedste split for at konvertere forældren til de to mest homogene underknudepunkter. I en ExtraTreesClassifier vælger den en tilfældig split for at opdele forældreknudepunktet i to tilfældige underknudepunkter.

Lad os se på nogle ensemblemetoder, der er bestilt fra høj til lav varians, der slutter med ExtraTreesClassifier.

1.Beslutningstræ (høj variation)

Et enkelt beslutningstræ overfylder normalt de data, det lærer af, fordi det kun lærer af en vej af beslutninger. Forudsigelser fra et enkelt beslutningstræ giver normalt ikke nøjagtige forudsigelser på nye data.

2. Random Forest (Medium Variance)

Tilfældige skovmodeller reducerer risikoen for overmontering ved at indføre tilfældighed ved:

  • opbygning af flere træer (n_estimators)
  • tegning af observationer med erstatning (dvs. en bootstrapped prøve)
  • opdeling af noder på den bedste split blandt en tilfældig delmængde af de funktioner, der er valgt på hver node . Split er proces til at konvertere ikke-homogen overordnet node til 2 homogen underordnet node (bedst muligt).

3. Ekstra træer (lav variation)

Ekstra træer er som en tilfældig skov, idet den bygger flere træer og opdeler noder ved hjælp af tilfældige undergrupper af funktioner, men med to nøgleforskelle: det bootstrap ikke observationer (hvilket betyder, at det prøver uden udskiftning), og noder er delt på tilfældige opdelinger, ikke de bedste opdelinger. Så opsummeret, ExtraTrees:

  • bygger flere træer med bootstrap = Falsk som standard, hvilket betyder, at det prøver uden udskiftning
  • noder er opdelt baseret på tilfældige opdelinger i et tilfældigt undersæt af de funktioner, der er valgt på hver knude

I Ekstra træer kommer tilfældighed ikke fra bootstrapping af data, men kommer snarere fra tilfældige opdelinger af alle observationer. ExtraTrees er opkaldt efter (Extremely Randomized Trees).

Kommentarer

Svar

Mange tak for svarene! Da jeg stadig havde spørgsmål, udførte jeg nogle numeriske simuleringer for at få mere indsigt i opførslen af disse to metoder.

  • Ekstra træer ser ud til at holde en højere ydeevne i nærvær af støjende funktioner.

Billedet nedenfor viser ydeevnen (evalueret med krydsvalidering), da tilfældige kolonner, der er irrelevante for målet, føjes til datasættet. målet er kun en lineær kombination af de første tre kolonner. tilfældig skov vs ekstra træer i nærvær af irrelevante variabler

  • Når alle variabler er relevante, ser begge metoder ud til at opnå den samme præstation ce,

  • Ekstra træer virker tre gange hurtigere end den tilfældige skov (i det mindste i scikit-læringsimplementering)

Kilder

Link til hele artiklen: tilfældig skov vs ekstra træer .

Kommentarer

  • Fra din linkede artikel: ” I blåt præsenteres resultaterne fra den tilfældige skov og rødt for de ekstra træer. ”

Svar

Svaret er, at det afhænger. Jeg foreslår, at du prøver både tilfældig skov og ekstra træer på dit problem. Prøv stor skov (1000 – 3000 træer / estimatorer, n_estimatorer i sklearn), og indstil antallet af funktioner, der overvejes ved hver split (max_features in sklearn) samt de minimale prøver pr. Split (min_samples_split i sklearn) og den maksimale trædybde max_ dybde i sklearn). Når det er sagt, skal du huske på, at over tuning kan være en form for overmontering.

Her er to problemer, jeg personligt arbejdede med, hvor ekstra træer viste sig nyttige med meget støjende data:

Beslutningsskove til maskinindlæringsklassificering af store, støjende havbundbundssæt

En effektiv distribueret proteinforstyrrelsesforudsigelse med indsatte prøver

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *