Forskjellen mellom tilfeldig skog og ekstremt tilfeldige trær

Jeg forsto at tilfeldig skog og ekstremt tilfeldige trær er forskjellige i den forstand at splittene til trærne i tilfeldig skog er deterministisk mens de er tilfeldige i tilfelle ekstremt randomiserte trær (for å være mer nøyaktig, er neste oppdeling den beste delingen blant tilfeldige ensartede splittelser i de valgte variablene for det nåværende treet). Men jeg forstår ikke fullt ut effekten av disse forskjellige splittelsene i forskjellige situasjoner.

Hvordan sammenligner de seg når det gjelder skjevhet / varians?
Hvordan sammenligner de seg i tilstedeværelse av irrelevante variabler?
Hvordan sammenlignes de i nærvær av korrelerte variabler?

Kommentarer

( a) ERT kan noen ganger være mer partisk på grunn av mindre optimale splittelser / ERT vil noen ganger redusere varians på grunn av ytterligere dekorrelasjon av trær; (b) Jeg antar det samme, ikke sikkert; (c) Jeg antar det samme, ikke sikkert. Jeg vil ikke kalle splitting av RF deterministisk på grunn av tilfeldig variabel prøvetaking, og trærne skyldes selvfølgelig ikke bootstrapping.
Hva er en uniform split?

Svar

Ekstra- (Randomized) -Trees (ET) artikkel inneholder en bias-variansanalyse. På side 16 kan du se en sammenligning med flere metoder inkludert RF på seks tester (tre c lassifikasjon og tre regresjon).

Begge metodene er omtrent like, med ET som er litt verre når det er et høyt antall støyende funksjoner (i høydimensjonale datasett).

Når det er sagt, forutsatt at det (kanskje manuelle) funksjonsvalget er nær optimalt, er ytelsen omtrent den samme, men ET kan imidlertid være raskere beregningsmessig.

Fra selve artikkelen:

Analysen av algoritmen og bestemmelsen av den optimale verdien av K på flere testproblemvarianter har vist at verdien i prinsippet er avhengig av problemspesifikasjoner, spesielt andel irrelevante attributter . […] Bias / variansanalysen har vist at Extra-Trees fungerer ved å redusere variansen mens den samtidig øker bias . […] Når randomiseringen økes over det optimale nivået, reduseres variansen litt mens skjevheten ofte øker betydelig.

Ingen sølvkule som alltid.

Pierre Geurts, Damien Ernst, Louis Wehenke. «Ekstremt randomiserte trær»

Kommentarer

Eventuelle referanser (enten empirisk eller teoretisk) angående ET som er litt verre når det er et høyt antall støyende egenskaper? Eller er dette basert på erfaring?
Etter min erfaring er det motsatte: Extra-Trees gjør det bedre med mange støyende funksjoner. Med forbehold om at du må ha en stor skog (mange estimatorer, n_estimatorer i sklearn) og stille inn antall funksjoner som vurderes ved hver splittelse (max_features in sklearn) for at dette skal fungere. Et enkelt ekstra-tre vil overdrikke mer enn et enkelt tilfeldig skogstre, men hvis du har mange ekstra-trær, vil de ha en tendens til å overdrive på forskjellige måter og ikke overdrive. Jeg får ofte betydelig forbedring opp til 3000 estimatorer.
Som @ramhiser påpekte, ser ET ut til å holde høyere ytelse i nærvær av støyende funksjoner. Kan du legge til noen referanser til svaret ditt?
Er trær i ekstra trær alltid en ‘ stubbe ‘ (bare en splittelse) ?? Å lese andre artikler gir et slikt inntrykk.

Svar

ExtraTreesClassifier er som en bror til RandomForest, men med to viktige forskjeller.

Vi er bygge flere beslutningstrær. For å bygge flere trær trenger vi flere datasett. Beste praksis er at vi ikke trener beslutningstrærne i hele datasettet, men vi trener bare på brøkdel av data (rundt 80%) for hvert tre. I en tilfeldig skog tegner vi observasjoner med erstatning. Så vi kan få repetisjon av observasjoner i en tilfeldig skog. I en ExtraTreesClassifier tegner vi observasjoner uten erstatning, så vi vil ikke ha gjentakelse av observasjoner som i tilfeldig skog.

Delingen er prosessen med å konvertere en ikke-homogen foreldrenode i 2 homogene barneknuter (best mulig). I RandomForest velger den den beste splittelsen for å konvertere foreldrene til de to mest homogene barnekodene. I en ExtraTreesClassifier velger den en tilfeldig splittelse for å dele foreldernoden i to tilfeldige barneknuter.

La oss se på noen ensemblemetoder bestilt fra høy til lav varians, og slutter med ExtraTreesClassifier.

1.Beslutningstreet (høy variasjon)

Et enkelt beslutningstre overfaster vanligvis dataene det lærer av, fordi det bare lærer av en vei av avgjørelser. Spådommer fra et enkelt beslutningstreet gir vanligvis ikke nøyaktige spådommer på nye data.

2. Random Forest (Medium Variance)

Tilfeldige skogmodeller reduserer risikoen for overmontering ved å innføre tilfeldighet med:

bygge flere trær (n_estimators)
tegne observasjoner med erstatning (dvs. en bootstrapped prøve)
splitte noder på den beste delingen blant en tilfeldig delsett av funksjonene som er valgt på hver node . Split er prosess for å konvertere ikke-homogen foreldernode til 2 homogen undernode (best mulig).

3. Ekstra trær (lav variasjon)

Ekstra trær er som en tilfeldig skog, ved at den bygger flere trær og deler noder ved hjelp av tilfeldige undergrupper av funksjoner, men med to nøkkelforskjeller: det starter ikke observasjoner (som betyr at det sampler uten erstatning), og noder er delt på tilfeldige splitt, ikke best splitt. Så oppsummert, ExtraTrees:

bygger flere trær med bootstrap = False som standard, noe som betyr at det prøver uten erstatning
noder er delt basert på tilfeldige delinger blant et tilfeldig delsett av funksjonene som er valgt i hver node

I Ekstra trær kommer ikke tilfeldighet fra bootstrapping av data, men kommer fra tilfeldige splittelser av alle observasjoner. ExtraTrees er oppkalt etter (Extremely Randomized Trees).

Kommentarer

[Bootstrapping] ( no .wikipedia.org / wiki / Bootstrapping_ (statistikk) sampler med erstatning.

Svar

Tusen takk for svarene! Siden jeg fortsatt hadde spørsmål, utførte jeg noen numeriske simuleringer for å få mer innsikt i oppførselen til disse to metodene.

Ekstra trær ser ut til å holde en høyere ytelse i nærvær av støyende funksjoner.

Bildet nedenfor viser ytelsen (evaluert med kryssvalidering) når tilfeldige kolonner som ikke er relevante for målet blir lagt til datasettet. målet er bare en lineær kombinasjon av de tre første kolonnene.

Når alle variablene er relevante, ser begge metodene ut til å gi samme ytelse ce,
Ekstra trær virker tre ganger raskere enn den tilfeldige skogen (i det minste, i scikit lær implementering)

Kilder

Lenke til hele artikkelen: tilfeldig skog mot ekstra trær .

Kommentarer

Fra den lenke artikkelen din: » I blått presenteres resultatene fra den tilfeldige skogen og rødt for de ekstra trærne. »

Svar

Svaret er at det avhenger. Jeg foreslår at du prøver både tilfeldig skog og ekstra trær på problemet ditt. Prøv stor skog (1000 – 3000 trær / estimatorer, n_estimatorer i sklearn), og still inn antall funksjoner som vurderes ved hver splitting (max_features in sklearn), så vel som de minste prøvene per split (min_samples_split in sklearn) og maksimal tredybde max_dypth in sklearn). Når det er sagt, bør du huske at over tuning kan være en form for overmontering.

Her er to problemer jeg jobbet med personlig hvor ekstra trær viste seg å være nyttige med veldig støyende data:

Beslutningsskoger for maskinlæringsklassifisering av store, støyende havbunnsfunksjons p

En effektiv distribuert proteinforstyrrelsesforutsigelse med limte prøver

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

Legg igjen en kommentar Avbryt svar