Ik begreep dat willekeurig bos en extreem gerandomiseerde bomen verschillen in die zin dat de splitsingen van de bomen in het willekeurige bos deterministisch terwijl ze willekeurig zijn in het geval van extreem gerandomiseerde bomen (om nauwkeuriger te zijn, de volgende splitsing is de beste splitsing tussen willekeurige uniforme splitsingen in de geselecteerde variabelen voor de huidige boom). Maar ik begrijp de impact van deze verschillende splitsingen in verschillende situaties niet volledig.
- Hoe verhouden ze zich in termen van bias / variantie?
- Hoe verhouden ze zich tot aanwezigheid van irrelevante variabelen?
- Hoe verhouden ze zich in aanwezigheid van gecorreleerde variabelen?
Opmerkingen
Answer
The Extra- (Randomized) -Trees (ET) article bevat een bias-variantieanalyse. Op pagina 16 zie je een vergelijking met meerdere methoden, waaronder RF op zes tests (boom c lassification en three regressie).
Beide methoden zijn ongeveer hetzelfde, waarbij de ET een beetje slechter is wanneer er een groot aantal lawaaierige objecten is (in hoog dimensionale datasets).
Dat gezegd hebbende, mits de (misschien handmatige) feature selectie bijna optimaal is, zijn de prestaties ongeveer hetzelfde, maar ETs kunnen rekenkundig sneller zijn.
Uit het artikel zelf:
De analyse van het algoritme en de bepaling van de optimale waarde van K op verschillende testprobleemvarianten hebben aangetoond dat de waarde in principe afhankelijk is van probleemspecificaties, in het bijzonder de aandeel van irrelevante attributen . […] De bias / variantie-analyse heeft aangetoond dat Extra-Trees werken door afnemende variantie en tegelijkertijd toenemende bias . […] Wanneer de randomisatie wordt verhoogd tot boven het optimale niveau, neemt de variantie enigszins af, terwijl de bias vaak aanzienlijk toeneemt.
Geen wondermiddel zoals altijd.
Pierre Geurts, Damien Ernst, Louis Wehenke. “Extreem gerandomiseerde bomen”
Reacties
- Eventuele verwijzingen (empirisch of theoretisch) met betrekking tot ET is een beetje slechter wanneer er veel lawaai is Kenmerken? Of is dit gebaseerd op ervaring?
- In mijn ervaring is het tegenovergestelde waar: Extra-Trees doet het beter met veel lawaaierige functies. Met het voorbehoud dat je een groot forest moet hebben (veel schatters, n_estimators in sklearn) en het aantal features dat bij elke splitsing in aanmerking wordt genomen (max_features in sklearn) afstemt om dit te laten werken. Een enkele Extra-Tree zal meer dan een willekeurige bosboom overschaduwen, maar als je veel Extra-Trees hebt, zullen ze de neiging hebben om op verschillende manieren te overfit te zijn en niet te overdrijven. Ik krijg vaak substantiële verbeteringen tot wel 3000 schatters.
- Zoals @ramhiser opmerkte, lijkt ET betere prestaties te behouden in aanwezigheid van lawaaierige functies. Kun je wat verwijzingen aan je antwoord toevoegen?
- Zijn bomen in Extra Trees altijd een ‘ stronk ‘ (alleen een split) ?? Het lezen van andere artikelen geeft zon indruk.
Answer
ExtraTreesClassifier is als een broer van RandomForest maar met 2 belangrijke verschillen.
We zijn het bouwen van meerdere beslissingsbomen. Om meerdere bomen te bouwen, hebben we meerdere datasets nodig. De beste praktijk is dat we de beslissingsbomen niet trainen op de volledige dataset, maar we trainen alleen op een fractie van de gegevens (ongeveer 80%) voor elke boom. In een willekeurig bos tekenen we waarnemingen met vervanging. We kunnen dus herhaling krijgen van waarnemingen in een willekeurig bos. In een ExtraTreesClassifier tekenen we waarnemingen zonder vervanging, dus we zullen geen herhaling van waarnemingen hebben zoals in een willekeurig bos.
De splitsing is het proces van het converteren van een niet-homogeen bovenliggend knooppunt in 2 homogene kindknooppunten (best mogelijk). In RandomForest selecteert het de beste splitsing om de ouder om te zetten in de twee meest homogene kindknooppunten. In een ExtraTreesClassifier selecteert het een willekeurige splitsing om het bovenliggende knooppunt in twee willekeurige kindknooppunten te verdelen.
Laten we eens kijken naar enkele ensemblemethoden geordend van hoge naar lage variantie, eindigend op ExtraTreesClassifier.
1.Beslissingsboom (hoge variantie)
Een enkele beslissingsboom past meestal niet bij de gegevens waaruit hij leert, omdat hij leert van slechts één traject van beslissingen. Voorspellingen op basis van een enkele beslissingsboom maken meestal geen nauwkeurige voorspellingen over nieuwe gegevens.
2. Willekeurig forest (gemiddelde variantie)
Willekeurige forest-modellen verminderen het risico van overfitting door willekeur te introduceren door:
- meerdere bomen bouwen (n_estimators)
- waarnemingen tekenen met vervanging (dwz een bootstrapped sample)
- nodes splitsen op de beste splitsing onder een willekeurige subset van de objecten die op elk knooppunt zijn geselecteerd . Splitsen is een proces om niet-homogene bovenliggende knooppunten om te zetten in 2 homogene onderliggende knooppunten (best mogelijk).
3. Extra bomen (lage variantie)
Extra bomen is als een willekeurig bos, in die zin dat het meerdere bomen bouwt en knooppunten splitst met behulp van willekeurige subsets van features, maar met twee belangrijke verschillen: het bootstrap niet waarnemingen (wat betekent dat het monsters neemt zonder vervanging), en knooppunten worden gesplitst op willekeurige splitsingen, niet op de beste splitsingen. Dus samengevat, ExtraTrees:
- bouwt standaard meerdere bomen met bootstrap = False, wat betekent dat het monsters neemt zonder vervanging
- knooppunten worden opgesplitst op basis van willekeurige splitsingen in een willekeurige subset van de functies die op elk knooppunt zijn geselecteerd
In Extra Trees komt willekeur niet voort uit het bootstrappen van de gegevens, maar eerder uit de willekeurige splitsingen van alle waarnemingen. ExtraTrees is genoemd naar (Extremely Randomized Trees).
Reacties
- [Bootstrapping] ( nl .wikipedia.org / wiki / Bootstrapping_ (statistieken) bemonstert met vervanging.
Antwoord
Heel erg bedankt voor de antwoorden! Omdat ik nog steeds vragen had, heb ik een aantal numerieke simulaties uitgevoerd om meer inzicht te krijgen in het gedrag van deze twee methoden.
- Extra bomen lijken een hogere prestatie te behouden in aanwezigheid van lawaaierige functies.
De onderstaande afbeelding toont de prestatie (geëvalueerd met kruisvalidatie) aangezien willekeurige kolommen die niet relevant zijn voor het doel, aan de dataset worden toegevoegd. doel is slechts een lineaire combinatie van de eerste drie kolommen.
-
Als alle variabelen relevant zijn, lijken beide methoden dezelfde prestatie te bereiken ce,
-
Extra bomen lijken drie keer sneller dan het willekeurige bos (tenminste, in Scikit Learn-implementatie)
Bronnen
Link naar het volledige artikel: willekeurig bos versus extra bomen .
Reacties
- Van uw gelinkte artikel: ” In blauw worden de resultaten van het willekeurige bos weergegeven en rood voor de extra bomen. ”
Antwoord
Het antwoord is dat het ervan afhangt. Ik stel voor dat je zowel willekeurig bos als extra bomen voor je probleem probeert. Probeer groot bos (1000-3000 bomen / schatters, n_estimatoren in sklearn) en stem het aantal objecten af dat bij elke splitsing in aanmerking wordt genomen (max_features in sklearn), evenals het minimum aantal samples per splitsing (min_samples_split in sklearn) en de maximale boomdiepte ( max_depth in sklearn). Dat gezegd hebbende, moet u in gedachten houden dat over-tuning een vorm van overfitting kan zijn.
Hier zijn twee problemen waar ik persoonlijk aan heb gewerkt en waarbij extra bomen bleken nuttig met zeer luidruchtige gegevens:
Een efficiënte voorspelling van gedistribueerde eiwitaandoeningen met geplakte monsters
uniform split
?