Dělám regrese v aplikaci Excel a mám fiktivní proměnné pro Quarter (sezónní hodnoty) P hodnoty pro Q2 a Q3 jsou významné, ale moje hodnota Q1 P se zdá příliš vysoký. Nemohu „přesně vytáhnout Q1 … Co mám dělat?

Tady je můj výstup.

Intercept Pvalue 1.3208E-08 PRD1 Pvalue .00002834 Q1 Pvalue .6863222747 <-- this one concerns me Q2 Pvalue 6.22284E-06 Q3 Pvalue 1.22817E-07 PRD2 Pvalue 0.115615524 

Komentáře

  • To může být zřejmé někomu, kdo má více znalostí, ale pokud můj uživatel tohoto výstupu zobrazí prognózu pro Q1, ' to nebude zbytečné nebo v nejlepším případě špatné? Je ' v pořádku ponechat v koeficientech ' s na základě položek s vysokými hodnotami P? Pomozte mi abych pochopil. Bojuji s tím, jak zvládnout tyto typy problémů.
  • Přemýšlím, jestli zahrnutí položky s vysokou hodnotou P zničí celý regresní model? Obvykle znovu spustím regresi bez toho, aby nějaká položka vytáhla vysoká hodnota P, ale v tomto případě ' s Q1 a já nemůžu ' přesně mít Q2 3 a 4 bez Q1 .. ~ zmatený
  • Toto není ' t mimo téma, ale může to být duplikát něčeho?
  • Musí to tam být, ale někdo jiný bude ha Hledám, protože teď je tu pozdě v noci. Ale problém je v tom, že dummy pro různé čtvrti skutečně tvoří společně jednu proměnnou (v tomto případě se čtyřmi možnými hodnotami, takže ji potřebujete tři dummy, aby ji reprezentovaly. Tyto tři figuríny společně tvoří v proměnné (v R takové proměnné se nazývají " faktory ". Neměli byste se dívat na jednotlivé t-hodnoty pro každý koeficient, ale postavit jeden F-test pro úplnou proměnnou (která bude mít tři stupně volnosti).
  • S faktory, jako jsou čtvrtiny, by se mělo vždy zacházet jako s totalitou. Nechte IT dovnitř se všemi jeho figurínami, nebo jej úplně vypusťte. jeden z jednotlivých koeficientů je nevýznamný je nonissue

odpověď

Odpověď na vaši hlavní otázku: Pokud interpretujeme tento výstup znamená, že účinek figuríny Q1 se významně neliší od 0, to znamená, že účinek v Q1 je v zásadě stejný jako v Q4, což je vaše reference kategorie. Existují tedy pouze silné důkazy o tom, že fiktivní hodnota je důležitá pro Q2 a Q3.

V komentáři píšete

Zajímá vás, jestli zahrnutí položky s vysokou hodnotou P zničí celý regresní model? Obvykle znovu spustím regresi, aniž by položka vytáhla vysokou hodnotu P, ale v tomto případě je to Q1 a já nemůžu přesně mít Q2 3 a 4 bez Q1 .. ~ zmatený

To není skvělé. Pokud vás zajímá, zda jsou některé, pokud vůbec nějaké, prediktory užitečné při předpovídání určitého výsledku, je dobré začít nástroji, jako je laso nebo elastická čistá regrese. Tyto metody se hodí k penalizovaným modelům vašich dat, které filtrují špatné prediktory bez problémy s více srovnáními. Tato témata jsou podrobně diskutována jinde na tomto webu.

Komentáře

  • " to není ' t skvělé " což znamená, že Q1 v mém modelu není ' t skvělé? Jediným nástrojem, který máme k dispozici, je Excel s modulem regresní analýzy VBA toolpak. S tím se říká, že koeficient pro Q1 není ' t 0, takže pokud dovolím svým uživatelům vybrat Q1, bude předpovídat něco jiného, než kdyby moji uživatelé předpovídali pro Q4. Takže jsem se zabýval povolením tohoto, protože vím, že hodnota P je pro Q1 tak vysoká.
  • " Různé " nefunguje ' neznamená to špatně.
  • ale změna, díky které je " odlišná " je poháněn vstupem s bláznivě vysokou hodnotou P. Vypadá to, že bych neměl ' povolit ovlivnění prognózy. To je ' v podstatě celá moje otázka. Na základě vašeho příspěvku usuzuji, že bych se toho neměl ' obávat, ale nejsem si úplně jistý, zda rozumím, proč ne.
  • Měli byste se pokusit pochopit, ale alespoň se nebojte! Vaše starosti bez porozumění by to mohly jen zhoršit.
  • @JohnsonJason, Návrh použít LASSO nebo elastickou síť je v pořádku v případě, že cílem je předpověď . Všimněte si však, že vysvětlující modelování a prediktivní modelování řeší různé problémy; pěkný přehled je uveden v Shmueli " Vysvětlit nebo předpovědět " (2010). Jelikož OP to nedělá výslovně, měl bych si toho všimnout.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *