Megértettem, hogy a Véletlenszerű Erdő és a Rendkívül Véletlenszerű Fák abban az értelemben különböznek egymástól, hogy a Véletlen Erdőben a fák hasadásai determinisztikusak, míg véletlenszerűek egy rendkívül véletlenszerű fák esetében (hogy pontosabb legyen, a következő osztás a legjobb osztás a véletlenszerű egyenletes hasítások között az aktuális fa kiválasztott változóiban). De nem értem teljesen ennek a különböző szétválásnak a hatását a különböző helyzetekben.
- Hogyan viszonyulnak az elfogultság / szórás szempontjából?
- Hogyan hasonlítanak össze irreleváns változók jelenléte?
- Hogyan viszonyulnak egymással összefüggő változók jelenlétében?
Megjegyzések
Válasz
Az extra- (véletlenszerű) -fák (ET) cikk torzítás-variancia elemzést tartalmaz. A 16. oldalon összehasonlítást láthat több módszerrel, beleértve az RF-t hat teszten (c lasifikáció és három regresszió).
Mindkét módszer nagyjából megegyezik, az ET valamivel rosszabb, ha nagy a zajos tulajdonságok száma (nagy dimenziós adathalmazokban).
Mindazonáltal, feltéve, hogy a (lehet, hogy manuális) funkciók kiválasztása a lehető legközelebb van, a teljesítmény nagyjából megegyezik, azonban az ET számítási szempontból gyorsabb lehet.
Magából a cikkből:
Az algoritmus elemzése és a K optimális értékének meghatározása több tesztprobléma-változatnál megmutatta, hogy az érték elvileg függ a probléma sajátosságaitól, különösen a a irreleváns attribútumok aránya. […] Az elfogultság / variancia elemzés kimutatta, hogy az Extra-Fák csökkentik a varianciát és ugyanakkor növelik az elfogultságot . […] Ha a randomizációt az optimális szint fölé emelik, a szórás kissé csökken, míg az elfogultság gyakran jelentősen megnő.
Nincs ezüstgolyó, mint mindig.
Pierre Geurts, Damien Ernst, Louis Wehenke. “Rendkívül randomizált fák”
Megjegyzések
- Bármely utalás (akár empirikus, akár elméleti) az ET vonatkozásában kissé rosszabb, ha nagy a zajszint jellemzők? Vagy ez tapasztalaton alapszik?
- Tapasztalataim szerint éppen az ellenkezője igaz: Az Extra-Fák jobban járnak sok zajos tulajdonsággal. Azzal a figyelmeztetéssel, hogy nagy erdővel kell rendelkeznie (sok becslő, n_becslő a sklearn-ben), és be kell hangolnia az egyes osztásoknál figyelembe vett funkciók számát (max_features in sklearn), hogy ez működjön. Egyetlen extra fa több mint egy véletlenszerű erdőfát képes túlteljesíteni, de ha sok extra fája van, akkor többféleképpen hajlamosak túlteljesíteni, és nem túlzott mértékben. Gyakran jelentős javulást érek el, akár 3000 becslőig.
- Ahogy @ramhiser rámutatott, úgy tűnik, hogy az ET magasabb teljesítményt nyújt zajos funkciók jelenlétében. Hozzáadhat néhány utalást a válaszához?
- Az Extra fák fái mindig ‘ tuskó ‘ (csak egy osztás) ?? Más cikkek elolvasása ilyen benyomást kelt.
Válasz
Az ExtraTreesClassifier olyan, mint a RandomForest testvére, de 2 fontos különbségek.
több döntési fa építése. Több fa felépítéséhez több adatkészletre van szükségünk. A legjobb gyakorlat az, hogy a döntési fákat nem a teljes adathalmazon képezzük ki, hanem az egyes fákra vonatkozó adatok töredékén (kb. 80%) edzünk. Egy véletlenszerű erdőben helyettesítéssel vonjuk le a megfigyeléseket. Így megismételhetjük megfigyelések véletlenszerű erdőben. Egy ExtraTreesClassifier-ben megfigyeléseket készítünk pótlás nélkül, így nem kell megismételnünk a megfigyeléseket, mint a véletlenszerű erdőben.
A felosztás egy nem homogén szülőcsomópont átalakításának folyamata. 2 homogén gyermekcsomópontra (a lehető legjobb). A RandomForest alkalmazásban kiválasztja a legjobb felosztást, hogy a szülőt a két leghomogénebb gyermekcsomópontká alakítsa. Az ExtraTreesClassifierben egy véletlenszerű felosztást választ ki, hogy a szülőcsomópontot két véletlenszerű gyermekcsomópontra osztja.
Nézzünk meg néhány olyan együttes módszert, amely magas és alacsony variancia között van rendezve, az ExtraTreesClassifier végződéssel.
1.Döntési fa (nagy variancia)
Egyetlen döntési fa általában túlteljesíti azokat az adatokat, amelyekből tanul, mert csak a döntéseket. Az egyetlen döntési fa előrejelzései általában nem jó előrejelzéseket adnak az új adatokról.
2. Véletlenszerű erdő (közepes variancia)
A véletlenszerű erdőmodellek a véletlenszerűség bevezetésével csökkentik a túlfeszültség kockázatát:
- több fa építése (n_estimátorok)
- megfigyelések rajzolása helyettesítéssel (azaz bootstrapped minta)
- a csomópontok felosztása a legjobb felosztáson az egyes csomópontokban kiválasztott jellemzők véletlenszerű részhalmaza között . A felosztás a nem homogén szülőcsomópont 2 homogén gyermekcsomópontokká alakítása (a lehető legjobb).
3. Extra fák (alacsony eltérés)
Az Extra fák olyanok, mint egy véletlenszerű erdő, mivel több fát épít és csomópontokat oszt szét a jellemzőkkel, de két fő különbséggel: nem indítja el a megfigyeléseket (ez azt jelenti, hogy pótlás nélkül mintákat vesz), és a csomópontok véletlenszerű osztásokra vannak osztva, nem pedig a legjobb osztásokra. Összefoglalva tehát: ExtraTrees:
- alapértelmezés szerint több fát épít a bootstrap = False értékkel, ami azt jelenti, hogy pótlás nélkül mintákat készít
- a csomópontok véletlenszerű felosztás alapján oszlanak meg egy véletlenszerű részhalmaz között az egyes csomópontokban kiválasztott funkciók közül
Az Extra fákban a véletlenszerűség nem az adatok bootstrapeléséből származik, hanem az összes megfigyelés véletlenszerű felosztásából származik. Az ExtraTrees a (Rendkívül Randomizált Fák) nevet kapta.
Megjegyzések
- [Bootstrapping] ( hu A .wikipedia.org / wiki / Bootstrapping_ (statisztika) mintát vesz cserével .
Válasz
Nagyon köszönöm a válaszokat! Mivel még mindig voltak kérdéseim, néhány numerikus szimulációt hajtottam végre, hogy minél több betekintést nyerjek e két módszer viselkedésébe.
- Extra úgy tűnik, hogy a fák nagyobb teljesítményt nyújtanak zajos funkciók jelenlétében.
Az alábbi kép a teljesítményt mutatja (keresztellenőrzéssel értékelve), mivel a célpont szempontjából lényegtelen véletlen oszlopok kerülnek az adatkészletbe. A cél csak az első három oszlop lineáris kombinációja.
-
Ha az összes változó releváns, úgy tűnik, hogy mindkét módszer ugyanazt a teljesítményt éri el ce,
-
Az extra fák háromszor gyorsabbnak tűnnek, mint a véletlenszerű erdők (legalábbis a scikit megtanulja a megvalósítást)
Források
Link a teljes cikkhez: véletlenszerű erdő vs extra fák .
Megjegyzések
- A linkelt cikkből: ” Kék színben mutatják a véletlenszerű erdő eredményeit, piros pedig az extra fákat. ”
Válasz
A válasz az, hogy ez függ. Javaslom, próbáljon ki véletlenszerű erdőt és extra fákat is a problémáján. Próbáljon ki nagy erdőt (1000 – 3000 fa / becslő, n_becslő a sklearn-ben), és hangolja be az egyes hasításoknál figyelembe vett funkciók számát (max_features a sklearn-ben), valamint az osztásonkénti minimális mintákat (min_samples_split in sklearn) és a maximális fa mélységet max_depth in sklearn). Ennek ellenére ne feledje, hogy a hangolás a túlillesztés egyik formája lehet.
Íme két probléma, amin személyesen dolgoztam: az extra fák nagyon zajos adatokkal hasznosnak bizonyultak:
Döntési erdők a nagy, zajos tengerfenék jellemzőkészletek gépi tanulási osztályozásához
Hatékony elosztott fehérjezavar előrejelzés beillesztett mintákkal
uniform split
?