Hatova matice a využití v klasické vícenásobné regrese

Co je Hatova matice a využití v klasické vícenásobné regrese? Jaké jsou jejich role? A proč je používat?

Vysvětlete je nebo uveďte uspokojivé odkazy na knihy / články, abyste jim porozuměli.

Komentáře

Na tomto webu je spousta příspěvků zmiňujících pákový efekt. Můžete začít procházením některých z nich: stats.stackexchange.com/search?q=leverage+

Odpověď

Matice klobouku, $ \ bf H $ , je projekční matice, která vyjadřuje hodnoty pozorování v nezávislé proměnné $ \ bf y $ , pokud jde o lineární kombinace vektorů sloupců matice modelu, $ \ bf X $ , který obsahuje pozorování pro každou z více proměnných, na které se vracíte.

Přirozeně $ \ bf y $ obvykle nebude ležet v prostoru sloupců $ \ bf X $ a mezi touto projekcí bude rozdíl, $ \ bf \ hat Y $ a skutečné hodnoty $ \ bf Y $ . Tento rozdíl je zbytkový nebo $ \ bf \ varepsilon = YX \ beta $ :

Odhadované koeficienty, $ \ bf \ hat \ beta_i $ jsou geometricky chápány jako lineární kombinace vektorů sloupců (pozorování proměnných $ \ bf x_i $ ) nezbytných k vytvoření promítaného vektoru $ \ bf H \, Y = \ hat Y $ ; proto mnemotechnická pomůcka, " H staví klobouk na y. "

Matice klobouku se počítá jako : $ \ bf H = X (X ^ TX) ^ {- 1} X ^ T $ .

A odhadovaný $ \ bf \ hat \ beta_i $ koeficienty se přirozeně počítají jako $ \ bf (X ^ TX) ^ {- 1} X ^ T $ .

Každý bod datové sady se snaží přitáhnout k sobě obyčejnou linii nejmenších čtverců (OLS). Avšak body dále v extrémních hodnotách regresoru budou mít větší páku. Zde je příklad extrémně asymptotického bodu (červeně), který ve skutečnosti vytáhne regresní linii od toho, co by bylo logičtější:

Takže, kde je spojení mezi těmito dvěma koncepty: pákový efekt konkrétního řádku nebo pozorování v datové sadě najdete v odpovídajícím záznamu v úhlopříčce kloboukové matice. Pro pozorování $ i $ bude tedy pákové skóre nalezeno v $ \ bf H_ {ii} $ . Tato položka v kloboukové matici bude mít přímý vliv na způsob, jakým bude při vstupu $ y_i $ $ \ hat y_i $ (vysoký vliv $ i \ text {-th} $ pozorování $ y_i $ při určování vlastní predikční hodnoty $ \ hat y_i $ ):

Protože klobouková matice je projekční matice, její vlastní hodnoty jsou $ 0 $ a $ 1 $ . Z toho tedy vyplývá, že stopa (součet diagonálních prvků – v tomto případě součet $ 1 $ „s) bude hodností prostoru sloupců, zatímco tam bude tolik nul jako dimenze prázdného prostoru. Proto budou hodnoty v úhlopříčce kloboukové matice menší než jedna (trace = součet vlastních čísel) a položka bude považována za vysokou páku, pokud $ > 2 \ sum_ {i = 1} ^ {n} h_ {ii} / n $ , přičemž $ n $ je počet řádků.

Využití odlehlého datového bodu v matici modelu lze také ručně vypočítat jako jedno mínus poměr zbytku pro odlehlejší hodnotu, když je skutečná odlehlá hodnota zahrnuta v modelu OLS přes reziduální pro stejný bod, když se vypočítá přizpůsobená křivka bez zahrnutí řádku odpovídajícího odlehlé hodnotě: $$ Leverage = 1- \ frac {\ text {residual OLS with outlier}} {\ text {residual OLS without outlier}} $$ V R funkce hatvalues() vrací tyto hodnoty pro každý bod.

Použití prvního datového bodu v datová sada {mtcars} v R:

 fit = lm(mpg ~ wt, mtcars) # OLS including all points X = model.matrix(fit) # X model matrix hat_matrix = X%*%(solve(t(X)%*%X)%*%t(X)) # Hat matrix diag(hat_matrix)[1] # First diagonal point in Hat matrix fitwithout1 = lm(mpg ~ wt, mtcars[-1,]) # OLS excluding first data point. new = data.frame(wt=mtcars[1,"wt"]) # Predicting y hat in this OLS w/o first point. y_hat_without = predict(fitwithout1, newdata=new) # ... here it is. residuals(fit)[1] # The residual when OLS includes data point. lev = 1 - (residuals(fit)[1]/(mtcars[1,"mpg"] - y_hat_without)) # Leverage all.equal(diag(hat_matrix)[1],lev) #TRUE

Komentáře

Odpověď

Napsat komentář Zrušit odpověď na komentář