Mi a Hat mátrix és tőkeáttétel a klasszikus többszörös regresszióban? Mi a szerepük? És miért használják őket?
Kérjük, magyarázza meg őket, vagy adjon kielégítő könyv / cikk hivatkozásokat, hogy megértse őket.
Megjegyzések
- Ezen a webhelyen sok olyan bejegyzés található meg, amelyek a tőkeáttételt említik. Kezdheti néhányuk böngészésével: stats.stackexchange.com/search?q=leverage+
Válasz
A kalapmátrix, $ \ bf H $ , az a vetületi mátrix, amely kifejezi a a megfigyelések a $ \ bf y $ független változóban, a modellmátrix oszlopvektorainak lineáris kombinációi, $ \ bf X $ , amely tartalmazza a megfigyelések mindegyik változót, amelyre regresszál.
Természetesen $ \ bf y A $ általában nem a $ \ bf X $ oszlopterében fekszik, és különbség lesz ennek a vetületnek, $ \ bf \ hat Y $ , és a $ \ bf Y $ tényleges értékei. Ez a különbség a maradék vagy a $ \ bf \ varepsilon = YX \ beta $ :
A becsült együtthatók, $ \ bf \ hat \ beta_i $ geometriai értelemben az oszlopvektorok lineáris kombinációjaként értendők (változók megfigyelései $ \ bf x_i $ ), amelyek szükségesek a vetített vektor előállításához -container “> $ \ bf \ hat Y $ . Megvan az a $ \ bf H \, Y = \ hat Y $ ; ezért a mnemónikus, " a H az y-re helyezi a kalapot. "
A kalapmátrix kiszámítása : $ \ bf H = X (X ^ TX) ^ {- 1} X ^ T $ .
És a becsült $ \ bf \ hat \ beta_i $ együtthatók természetesen $ \ bf (X ^ TX) ^ {- 1} X ^ T $ .
Az adatkészlet minden pontja megpróbálja maga felé húzni a szokásos legkisebb négyzetek (OLS) vonalat. A regresszorértékek szélső pontjainál távolabbi pontok azonban nagyobb befolyással bírnak. Íme egy példa egy rendkívül aszimptotikus pontra (piros színnel), amely valóban elhúzza a regressziós vonalat attól, ami logikusabb lenne:
Tehát hol van a kapcsolat e két fogalom között: Egy adott sor tőkeáttételi pontszáma vagy Az adatkészlet megfigyelése a kalapmátrix átlójának megfelelő bejegyzésében található. Tehát a $ i $ megfigyeléshez a tőkeáttételi pontszám a $ \ bf H_ {ii} $ mappában található. A kalapmátrix ezen bejegyzése közvetlen hatással lesz arra, hogy a $ y_i $ bejegyzés hogyan eredményez $ \ hat y_i $ (a $ i \ text {-th} $ megfigyelés $ y_i $ span magas kihasználtsága > saját előrejelzési értékének meghatározásakor $ \ hat y_i $ ):
Mivel a kalapmátrix vetületi mátrix, sajátértékei $ 0 $ és $ 1 $ . Ebből következik, hogy a nyom (átlós elemek összege – ebben az esetben $ 1 $ “s összege) lesz az oszloptér rangsora, míg” ll ahány nulla a nulltér dimenziója. Ennélfogva a kalapmátrix átlójában az érték kevesebb lesz, mint egy (trace = sajátértékek), és egy bejegyzés akkor tekinthető magas tőkeáttételnek, ha $ > 2 \ sum_ {i = 1} ^ {n} h_ {ii} / n $ és $ n $ sorok száma.
A modellmátrixban egy kiugró adatpont tőkeáttétele manuálisan is kiszámítható, mínusz a kiugró érték maradványának aránya, ha a tényleges kiugró értéket az OLS modell tartalmazza maradék ugyanahhoz a ponthoz, ha az illesztett görbét kiszámítják a kiugró értéknek megfelelő sor hozzáadása nélkül: $$ tőkeáttétel = 1- \ frac {\ text {maradék OLS kiugrással}} {\ text {maradék OLS kiugró érték nélkül}} $ $ R-ben a hatvalues()
függvény minden pontra visszaadja ezeket az értékeket.
Az első adatpont használata a az {mtcars}
adatkészlet R-ben:
fit = lm(mpg ~ wt, mtcars) # OLS including all points X = model.matrix(fit) # X model matrix hat_matrix = X%*%(solve(t(X)%*%X)%*%t(X)) # Hat matrix diag(hat_matrix)[1] # First diagonal point in Hat matrix fitwithout1 = lm(mpg ~ wt, mtcars[-1,]) # OLS excluding first data point. new = data.frame(wt=mtcars[1,"wt"]) # Predicting y hat in this OLS w/o first point. y_hat_without = predict(fitwithout1, newdata=new) # ... here it is. residuals(fit)[1] # The residual when OLS includes data point. lev = 1 - (residuals(fit)[1]/(mtcars[1,"mpg"] - y_hat_without)) # Leverage all.equal(diag(hat_matrix)[1],lev) #TRUE