Am înțeles că Pădurea aleatoare și copacii extrem de aleatori diferă în sensul că despărțirile copacilor din pădurea aleatorie sunt deterministe, întrucât sunt aleatorii în cazul unui arbore extrem de aleatorizat (pentru a fi mai precis, următoarea împărțire este cea mai bună împărțire între împărțirile uniforme aleatorii în variabilele selectate pentru arborele curent). Dar nu înțeleg pe deplin impactul acestor diferențieri diferite în diferite situații.

  • Cum se compară în termeni de părtinire / varianță?
  • Cum se compară în prezența variabilelor irelevante?
  • Cum se compară în prezența variabilelor corelate?

Comentarii

  • ( a) ERT poate fi uneori mai părtinitoare datorită scindărilor mai puțin optime / ERT va reduce uneori varianța din cauza decorelării ulterioare a copacilor; (b) Cred că același lucru, nu sunt sigur; (c) Cred că același lucru, nu sunt sigur. Nu aș numi divizarea RF deterministică din cauza eșantionării variabile aleatorii, iar copacii nu sunt, bineînțeles, nici datorită bootstrapping-ului.
  • Ce este un uniform split?

Răspuns

The Extra- (Randomized) -Trees (ET) articolul conține o analiză a varianței de părtinire. La pagina 16 puteți vedea o comparație cu mai multe metode, inclusiv RF pe șase teste (arborele c clasificare și regresie cu trei).

Ambele metode sunt aproximativ aceleași, ET fiind puțin mai rău atunci când există un număr mare de caracteristici zgomotoase (în seturi de date cu dimensiuni ridicate).

Acestea fiind spuse, cu condiția ca selecția (poate manuală) a caracteristicilor să fie aproape optimă, performanța este aproximativ aceeași, cu toate acestea, ET-urile pot fi mai rapide din punct de vedere al calculului.

Din articolul în sine:

Analiza algoritmului și determinarea valorii optime a lui K pe mai multe variante de testare au arătat că valoarea este, în principiu, dependentă de specificul problemei, în special de proporția de atribute irelevante . […] Analiza bias / varianță a arătat că Extra-Trees funcționează prin varianță descrescătoare în timp ce în același timp crește bias . […] Când randomizarea crește peste nivelul optim, varianța scade ușor, în timp ce tendința crește adesea semnificativ.

Fără glonț de argint ca întotdeauna.


Pierre Geurts, Damien Ernst, Louis Wehenke. „Copaci extrem de randomizați”

Comentarii

  • Orice referințe (fie empirice, fie teoretice) referitoare la ET fiind un pic mai rele atunci când există un număr mare de zgomotoase Caracteristici? Sau se bazează pe experiență?
  • Din experiența mea, este adevărat opusul: extra-copacii fac mai bine cu multe caracteristici zgomotoase. Cu avertismentul că trebuie să aveți o pădure mare (mulți estimatori, n_estimatori în sklearn) și reglați numărul de caracteristici luate în considerare la fiecare împărțire (max_features în sklearn) pentru ca acest lucru să funcționeze. Un singur extra-copac va îmbrăca mai mult decât un singur copac de pădure aleatoriu, dar dacă aveți mulți extra-copaci, vor avea tendința de a se îmbrăca în moduri diferite și nu de a-i îmbrăca. Obțin adesea îmbunătățiri substanțiale până la 3000 de estimatori.
  • După cum a subliniat @ramhiser, ET par să păstreze o performanță mai mare în prezența caracteristicilor zgomotoase. Puteți adăuga câteva referințe la răspunsul dvs.?
  • Copacii din copacii suplimentari sunt întotdeauna un ‘ butuc ‘ (doar o scindare) ?? Citirea altor articole oferă o astfel de impresie.

Răspuns

ExtraTreesClassifier este ca un frate al RandomForest, dar cu 2 importante diferențe.

introduceți descrierea imaginii aici

Suntem construirea mai multor arbori de decizie. Pentru construirea mai multor copaci, avem nevoie de mai multe seturi de date. Cea mai bună practică este că nu antrenăm arborii de decizie pe setul de date complet, ci ne antrenăm doar pe fracțiunea de date (aproximativ 80%) pentru fiecare copac. Într-o pădure aleatorie, desenăm observații cu înlocuire. Deci, putem avea repetarea observații într-o pădure aleatorie. Într-un ExtraTreesClassifier, desenăm observații fără înlocuire, deci nu vom avea repetări de observații ca în pădure aleatorie.

Împărțirea este procesul de conversie a unui nod părinte neomogen în 2 noduri omogene (cel mai bun posibil). În RandomForest, selectează cea mai bună împărțire pentru a converti părintele în cele două cele mai omogene noduri copil. Într-un ExtraTreesClassifier, selectează o împărțire aleatorie pentru a împărți nodul părinte în două noduri copil aleatorii.

Să vedem câteva metode de ansamblu ordonate de la varianță mare la scăzută, care se termină în ExtraTreesClassifier.

1.Arborele decizional (Varianță ridicată)

Un singur arbore decizional se potrivește, de obicei, cu datele din care învață, deoarece învață dintr-o singură cale de decizii. Predicțiile dintr-un singur arbore de decizie nu fac de obicei predicții exacte cu privire la datele noi.

2. Pădurea aleatorie (Varianță medie)

Modelele de pădure aleatorii reduc riscul de supraadaptare prin introducerea aleatoriei prin:

  • construirea mai multor copaci (n_estimatori)
  • desenarea observațiilor cu înlocuire (adică un eșantion bootstrapped)
  • împărțirea nodurilor pe cea mai bună împărțire dintr-un subset aleatoriu de caracteristici selectate la fiecare nod . Împărțirea este procesul de conversie a nodului părinte neomogen în 2 noduri omogene (cel mai bun posibil).

3. Copaci suplimentari (varianță scăzută)

Copacii suplimentari este ca o pădure aleatorie, prin aceea că construiește mai mulți copaci și împarte noduri folosind subseturi aleatorii de caracteristici, dar cu două diferențe cheie: nu bootstrap observațiile (ceea ce înseamnă că eșantionează fără înlocuire), iar nodurile sunt împărțite pe împărțiri aleatorii, nu pe cele mai bune împărțiri. Deci, în rezumat, ExtraTrees:

  • construiește mai mulți copaci cu bootstrap = False în mod implicit, ceea ce înseamnă că eșantionează fără înlocuire
  • nodurile sunt împărțite pe baza împărțirilor aleatorii între un subset aleatoriu dintre caracteristicile selectate la fiecare nod

În copacii suplimentari, aleatoritatea nu provine din bootstrapping-ul datelor, ci mai degrabă provine din împărțirile aleatorii ale tuturor observațiilor. ExtraTrees este numit pentru (Arbori extrem de aleatori).

Comentarii

Răspuns

Vă mulțumesc foarte mult pentru răspunsuri! Deoarece încă aveam întrebări, am efectuat câteva simulări numerice pentru a avea mai multe informații despre comportamentul acestor două metode.

  • Extra copacii par să păstreze o performanță mai mare în prezența unor caracteristici zgomotoase.

Imaginea de mai jos arată performanța (evaluată cu validare încrucișată), deoarece coloanele aleatorii irelevante pentru țintă sunt adăugate la setul de date. ținta fiind doar o combinație liniară a primelor trei coloane. pădure aleatorie vs copaci suplimentari în prezența variabilelor irelevante

  • Când toate variabilele sunt relevante, ambele metode par să obțină aceeași performanță ce,

  • Copacii suplimentari par de trei ori mai rapizi decât pădurea aleatorie (cel puțin, în implementarea scikit learn)

Surse

Link către articolul complet: pădure aleatorie vs copaci suplimentari .

Comentarii

  • Din articolul dvs. legat: ” În albastru sunt prezentate rezultatele din pădurea aleatoare și roșu pentru copacii suplimentari. ”

Răspuns

Răspunsul este că depinde. Vă sugerez să încercați atât pădure aleatorie, cât și copaci suplimentari pe problema dvs. Încercați pădurea mare (1000 – 3000 de copaci / estimatori, n_estimatori în sklearn) și reglați numărul de caracteristici luate în considerare la fiecare împărțire (max_features în sklearn), precum și eșantioanele minime pe despărțire (min_samples_split în sklearn) și adâncimea maximă a copacului ( max_depth în sklearn). Acestea fiind spuse, ar trebui să rețineți că supraacordarea poate fi o formă de supraadaptare.

Iată două probleme la care am lucrat personal unde copacii suplimentari s-au dovedit utili cu date foarte zgomotoase:

Păduri de decizie pentru clasificarea învățării automate a seturilor de caracteristici mari, zgomotoase de pe fundul mării

O predicție eficientă a tulburărilor de proteine distribuite cu probe lipite

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *