Ero satunnaismetsien ja erittäin satunnaistettujen puiden välillä

Ymmärsin, että satunnainen metsä ja erittäin satunnaistetut puut eroavat toisistaan siinä mielessä, että satunnaisen metsän puiden halkeamat ovat deterministiset, kun taas ne ovat satunnaisia erittäin satunnaistettujen puiden tapauksessa (tarkemmin sanottuna seuraava jako on paras jako nykyisen puun valittujen muuttujien satunnaisissa yhtenäisissä jakoissa). Mutta en ymmärrä täysin näiden erilaisten halkeamien vaikutusta eri tilanteissa.

Kuinka he vertailevat puolueellisuudesta / varianssista?
Miten he vertailevat merkityksettömien muuttujien esiintyminen?
Kuinka ne vertailevat korreloivien muuttujien läsnä ollessa?

Kommentit

( a) ERT voi joskus olla enemmän puolueellinen vähemmän optimaalisten halkeamien vuoksi / ERT vähentää toisinaan varianssia puiden jatkokorrelaation takia; (b) luulen saman, ei varma; (c) luulen saman, epävarma. En kutsuisi radiotaajuuden jakamista deterministiseksi satunnaismuuttujien näytteenotosta johtuen, ja puut eivät tietenkään johdu myös bootstrappingistä.
Mikä on uniform split?

vastaus

Ylimääräiset (satunnaistetut) puut (ET) artikkeli sisältää bias-varianssianalyysin. Sivulla 16 näet vertailun useisiin menetelmiin, mukaan lukien radiotaajuus kuudella testillä (puu c lassifikaatio ja kolme regressiota).

Molemmat menetelmät ovat suunnilleen samat, ET: n ollessa hieman huonompi, kun meluisia ominaisuuksia on paljon (korkean ulottuvuuden datajoukoissa).

Siitä huolimatta, jos (ehkä manuaalinen) ominaisuuksien valinta on lähellä optimaalista, suorituskyky on suunnilleen sama, mutta ET: t voivat olla laskennallisesti nopeampia.

Itse artikkelista:

Algoritmin analyysi ja K: n optimaalisen arvon määrittäminen useilla testiongelmavaihtoehdoilla ovat osoittaneet, että arvo on periaatteessa riippuvainen ongelman yksityiskohdista, erityisesti epäolennaiset attribuutit . […] Bias / varianssianalyysi on osoittanut, että Extra-Trees toimii pienentämällä varianssia samalla kun lisäämällä puolueellisuutta . […] Kun satunnaistaminen kasvaa optimaalisen tason yläpuolelle, varianssi pienenee hieman, kun taas puolueellisuus lisääntyy usein merkittävästi.

Ei hopeamallia kuten aina.

Pierre Geurts, Damien Ernst, Louis Wehenke. ”Erittäin satunnaistetut puut”

Kommentit

Kaikki viitteet (joko empiiriset tai teoreettiset), jotka koskevat ET: tä, ovat hieman huonommat, kun melua on paljon ominaisuudet? Vai perustuuko tämä kokemukseen?
Kokemukseni mukaan on päinvastoin: Extra-Puut pärjäävät paremmin monilla meluisilla ominaisuuksilla. Varoituksella, että sinulla on oltava suuri metsä (monet estimaattorit, n_estimaattorit sklearnissa) ja viritä kussakin jaossa huomioon otettujen ominaisuuksien lukumäärä (max_features in sklearn) toimiakseen. Yksi Extra-Tree sopii yli useamman kuin yhden satunnaisen metsäpuun, mutta jos sinulla on paljon Extra-Puuta, heillä on taipumus ylikuntoa eri tavoin eikä sovittaa liikaa. Saan usein huomattavaa parannusta jopa 3000 estimaattoriin.
Kuten @ramhiser huomautti, ET näyttää olevan korkeampi suorituskyky meluisten ominaisuuksien läsnä ollessa. Voitko lisätä viitteitä vastaukseesi?
Onko ylimääräisten puiden puut aina ’ stump ’ (vain yksi jako) ?? Muiden artikkeleiden lukeminen antaa tällaisen vaikutelman.

Vastaus

ExtraTreesClassifier on kuin RandomForestin veli, mutta sillä on 2 tärkeää erot.

Olemme rakentaa useita päätöspuita. Useiden puiden rakentamiseen tarvitaan useita tietojoukkoja. Paras käytäntö on, että emme kouluta päätöspuita koko tietojoukossa, mutta koulutamme vain murto-osalla tietoja (noin 80%) kustakin puusta. Satunnaisessa metsässä piirrämme havainnot korvaamalla. Joten voimme toistaa havainnot satunnaisessa metsässä. ExtraTreesClassifierissä piirrämme havaintoja korvaamattomina, joten meillä ei ole toistoja havainnoista kuten satunnaisessa metsässä.

Jako on prosessi, jolla muunnetaan ei-homogeeninen vanhempi solmu. kahteen homogeeniseen lapsisolmuun (paras mahdollinen). RandomForestissa se valitsee parhaan jaon, jolla vanhempi muunnetaan kahdeksi homogeenisimmaksi lapsisolmuksi. ExtraTreesClassifierissa se valitsee satunnaisen jaon jakamaan vanhemman solmun kahteen satunnaisiin lapsisolmuun.

Tarkastellaan joitain kokonaisuusmenetelmiä, jotka on järjestetty suuresta varianssiin matalaan, päättyen ExtraTreesClassifieriin.

1.Päätöspuu (suuri varianssi)

Yksi päätöspuu ylittää yleensä oppimansa tiedot, koska se oppii vain yhdestä päätökset. Yhden päätöspuun ennusteet eivät yleensä tee tarkkoja ennusteita uusille tiedoille.

2. Satunnainen metsä (keskisuuri varianssi)

Satunnaiset metsämallit vähentävät ylikuormitusriskiä ottamalla käyttöön satunnaisuuden seuraavasti:

useiden puiden rakentaminen (n_estimaattorit)
havainnoiden piirtäminen korvaamalla (ts. käynnistysjohdotettu näyte)
solmujen jakaminen parhaalla jaolla jokaisessa solmussa valittujen ominaisuuksien satunnaisen osajoukon kesken . Split on prosessi, jolla muunnetaan ei-homogeeninen vanhempi solmu kahdeksi homogeeniseksi lapsisolmuksi (paras mahdollinen).

3. Ylimääräiset puut (matala varianssi)

Ylimääräiset puut ovat kuin satunnainen metsä, sillä ne rakentavat useita puita ja jakavat solmut käyttämällä satunnaisia osajoukkoja ominaisuuksia, mutta sillä on kaksi keskeistä eroa: se ei käynnistä havainnointia (eli se näytteitä ilman korvaamista), ja solmut jaetaan satunnaisiin jakoihin, eivät parhaisiin jakoihin. Joten yhteenvetona ExtraTrees:

rakentaa useita puita oletusarvoisesti bootstrap = False, mikä tarkoittaa, että se ottaa näytteet ilman korvaavia
solmut jaetaan satunnaisten osioiden perusteella satunnaisen alijoukon kesken jokaisessa solmussa valituista ominaisuuksista

Ylimääräisissä puissa satunnaisuus ei johdu tietojen käynnistämisestä, vaan pikemminkin kaikkien havaintojen satunnaisista osista. ExtraTrees on nimetty (erittäin satunnaistetuille puille).

Kommentit

[Bootstrapping] ( fi .wikipedia.org / wiki / Bootstrapping_ (tilastot) ottaa näytteitä korvaamalla .

Vastaa

Kiitos paljon vastauksista! Koska minulla oli vielä kysymyksiä, tein joitain numeerisia simulaatioita saadakseni lisää tietoa näiden kahden menetelmän toiminnasta.

Extra puut näyttävät säilyttävän korkeamman suorituskyvyn meluisten ominaisuuksien läsnä ollessa.

Alla olevassa kuvassa näkyy suorituskyky (arvioitu ristivalidoinnilla), koska tietojoukkoon lisätään satunnaisia sarakkeita, joilla ei ole merkitystä kohteen suhteen. kohde on vain kolmen ensimmäisen sarakkeen lineaarinen yhdistelmä.

Kun kaikki muuttujat ovat merkityksellisiä, molemmat menetelmät näyttävät saavuttavan saman suorituskyvyn ce,
Ylimääräiset puut näyttävät olevan kolme kertaa nopeammat kuin satunnainen metsä (ainakin scikit-oppimisen toteutuksessa)

Lähteet

Linkki koko artikkeliin: satunnainen metsä vs ylimääräiset puut .

kommentit

linkitetystä artikkelistasi: ” Sinisellä on esitetty satunnaisen metsän tulokset ja punaiset ylimääräiset puut. ”

Vastaa

Vastaus on, että se riippuu. Ehdotan, että kokeilet sekä satunnaisia metsiä että ylimääräisiä puita ongelmasi suhteen. Kokeile suurta metsää (1000-3000 puuta / estimaattoria, n_estimaattoreita sklearnissa) ja viritä kussakin osiossa huomioitujen ominaisuuksien määrä (sklearnin enimmäisominaisuudet) sekä vähimmäisnäytteet lohkoa kohti (min_samples_split in sklearn) ja puun enimmäissyvyys ( maks. syvyys sklearnissa). Sinun on kuitenkin pidettävä mielessä, että viritys voi olla eräänlainen yliasennus.

Tässä on kaksi ongelmaa, joiden kanssa työskentelin henkilökohtaisesti ylimääräiset puut osoittautuivat hyödyllisiksi erittäin meluisilla tiedoilla:

Päätösmetsät suurten, meluisten merenpohjan piirteiden koneoppimiseksi luokittelua varten

Tehokas hajautetun proteiinihäiriön ennustus liitetyillä näytteillä

Kommentit

vastaus

Kommentit

Vastaus

Kommentit

Vastaa

kommentit

Vastaa

Vastaa Peruuta vastaus