Vzpomínám si, že jsem seděl ve statistických kurzech jako podřadné slyšení o tom, proč byla extrapolace špatný nápad. Kromě toho existuje celá řada online zdrojů, které se k tomu vyjadřují. Je zde také zmínka zde .

Může mi někdo pomoci pochopit, proč je extrapolace špatný nápad? Pokud ano, jak je to tak, že prognostické techniky nejsou statisticky neplatné?

Komentáře

  • @Firebug Mark Twain k tomu měl co říci. Příslušná pasáž je uvedena na konci mé odpovědi na stránce stats.stackexchange.com/a/24649/919 .
  • @whuber I hádejte, že to nyní není ‚ přesně extrapolační. Řekněme, že správně trénujeme a ověřujeme algoritmus pro předpovídání dat do funkce o jeden týden. Při správném převzorkování (a vyladění, pokud je třeba vyladit hyperparametry), pak ‚ nevidím, co je ‚ špatné že máte odpověď a měli byste také znát důvěru této odpovědi. Nyní, pokud trénujete svůj algoritmus každý týden, nemůžete ‚ očekávat, že budete přesně předpovídat jeden rok do budoucnosti. Omlouváme se za možnou nejasnost.
  • @Firebug Není třeba se omlouvat – vaše poznámky obsahují užitečné objasňující informace. Když je čtu, navrhují, aby “ extrapolate “ mohl mít v nastavení prognóz více interpretací. Jedním z nich je, že to vyžaduje “ extrapolaci “ času. Ale když se podíváte na standardní modely časových řad, zejména ty, kde čas není explicitní kovariát, předpovídají budoucí hodnoty z hlediska předchozích hodnot . Když tyto předchozí hodnoty zůstanou v rozmezí minulých předchozích hodnot, model neprovede žádnou extrapolaci vůbec! V tom může spočívat rozlišení zjevného paradoxu.
  • xkcd.com/605
  • jsem ‚ jsem zklamaný, jak dlouho trvalo, než se povinný xkcd objevil

Odpověď

Pro extrapolaci se často používá regresní model, tj. predikce odpovědi na vstup, který leží mimo rozsah hodnot proměnné prediktoru použité k přizpůsobení modelu. Nebezpečí spojené s extrapolací je znázorněno na následujícím obrázku. graf znázorňující extrapolovanou čáru pokračující nahoru, kde

true “ hodnota klesá

Regresní model je „konstrukčně“ interpolační model a neměl by být používán pro extrapolaci, pokud to není správně oprávněné.

Komentáře

  • Toto je hrozný příklad proti extrapolaci. Přímá přímka regrese odpovídá datovým bodům mnohem lépe než vaše křivka true funkce.
  • “ Přímá přímka regrese odpovídá datovým bodům mnohem lépe než vaše křivka true funkce “ Toto tvrzení je nepravdivé. Funkce RSS pro skutečnou regresní funkci je menší než RSS pro jednoduchou regresní čáru,
  • Bod přijatý a můžete (měli byste) mít pravdu. Soudě podle várky bodů však nelze odvodit skutečnou funkci.
  • Přesně. A proto může být extrapolace špatný nápad.
  • “ Regresní model je „konstrukcí“ interpolační model “ – > Myslím, že s interpolací můžeme mít přesně stejný problém (i když je ‚ méně pravděpodobné, že k němu dojde)

Odpověď

Tento xkcd komiks to vysvětluje vše.

mg src = „https://i.stack.imgur.com/4QwTj.png“ alt = „xkcd comic“ title = „Autor ve třetím trimestru ve vás budou stovky dětí. „>

Pomocí datových bodů, které má Cueball (muž s holí), extrapoloval, že žena bude mít„ čtyři desítky „manželé do konce příštího měsíce a pomocí této extrapolace dospěli k závěru, že budeme hromadně kupovat svatební dort.

Upravit 3: Pro ty z vás, kteří říkají „nemá dostatek datových bodů“, re „s další komiks xkcd :

mg src =“ https://i.stack.imgur.com/7oDyK.png „alt =“ xkcd comic „title =“ Ačkoli 100 let je déle než mnoho našich zdrojů. „>

Zde je použití slovo „udržitelné“ v průběhu času je zobrazeno na semilogaritmickém grafu a při extrapolaci datových bodů dostáváme nepřiměřené odhady, jak často se slovo „udržitelné“ v budoucnu vyskytne.

Upravit 2: Pro ty z vás, kteří říkají „potřebujete také všechny minulé datové body“, ještě jeden komiks xkcd: mg src = „https://i.stack.imgur.com/JTTW1.png“ alt = „xkcd komiks“ title = „2031: Google brání otočení střešní skenovací elektronové mikroskopy na svých vozech Street View a tvrdí, že ‚ neodhalí nic, co by nemůže být viděn žádným chodcem, který skenuje váš dům elektronovým mikroskopem.“>

Zde máme všechny minulé datové body, ale nedokážeme přesně předpovědět rozlišení Google Earth. Toto je také semi-log graf.

Upravit: Někdy i ten nejsilnější z (r = .9979 v tomto případě) jsou korelace prostě špatné.


Pokud extrapolujete bez dalších podpůrných důkazů, porušujete také korelace neznamená příčinu ; další velký hřích ve světě statistik.

Pokud však extrapolujete X s Y, musíte se ujistit, že dokážete přesně (stačí k uspokojení vaše požadavky) předpovídejte X pouze s pouze Y. Téměř vždy existuje více faktorů než dopad X.

I chtěl bych sdílet odkaz na další odpověď , která to vysvětluje slovy Nassima Nicholase Taleba.

Komentáře

  • xkcd má vtip o všech možných matematických / statistických problémech, se kterými se můžete setkat, že? ‚ že?
  • Tuto myšlenku lze také použít jako argument proti interpolaci: “ včera v noci jste měli 0,5 manžela „.
  • @JiK Pokud víš jen to, že teď jednu má, a před dvěma dny žádný neměla, není to špatný odhad 😉
  • Udržitelné udržitelné Udržitelné udržitelné udržitelné udržitelné Udržitelné udržitelné. en.wikipedia.org/wiki/…
  • více xkcd, lidi!

Odpověď

“ Predikce je velmi obtížná, zvláště pokud “ s about the future „. Citát je v nějaké formě přičítán mnoha lidem . Omezuji v následujícím “ extrapolace “ na “ předpověď mimo známý rozsah “ a v jednorozměrném prostředí extrapolace ze známé minulosti do neznámé budoucnosti.

Co je tedy s extrapolací špatně. Nejprve není snadné modelovat minulost . Zadruhé, je těžké vědět, zda lze použít model z minulosti pro budoucnost . Za oběma tvrzeními se skrývají hluboké otázky o kauzalitě nebo ergodicita , dostatek vysvětlujících proměnných atd., Které jsou zcela závislé na velikosti písmen. Špatné je, že je obtížné zvolit jediné extrapolační schéma, které funguje dobře v různých kontextech, bez mnoha dalších informací.

Tento obecný nesoulad je jasně ilustrován v Soubor kvartetů Anscombe zobrazený níže. Lineární regrese je také (mimo $ x $ -koordinovaný rozsah) instancí extrapolace. Stejná čára regresuje čtyři sady bodů se stejnou standardní statistikou. Základní modely jsou však zcela odlišné: první je zcela standardní. Druhým je chyba parametrického modelu (vhodnější by mohl být polynom druhého nebo třetího stupně), třetí ukazuje dokonalé přizpůsobení s výjimkou jedné hodnoty (odlehlé?), Čtvrté nedostatek plynulých vztahů (hystereze?).

kvartet Anscombe

Nicméně prognózy lze do určité míry opravit . Přidáním dalších odpovědí může několik ingrediencí pomoci při praktické extrapolaci:

  1. Vzorky můžete vážit podle jejich vzdálenosti (index $ n $ ) k umístění $ p $ , kam chcete extrapolovat. Použijte například rostoucí funkci $ f_p (n) $ (s $ p \ ge n $ ) jako exponenciální vážení nebo vyhlazování nebo posuvná okna vzorků, aby se starším hodnotám přidělil menší význam.
  2. Můžete použít několik extrapolačních modelů a zkombinovat je nebo vybrat nejlepší ( Kombinace předpovědí , J. Scott Armstrong, 2001).V poslední době existuje řada prací na jejich optimální kombinaci (v případě potřeby mohu uvést reference).

V poslední době jsem byl zapojen do projektu extrapolace hodnot pro komunikaci simulace subsystémy v reálném čase. Dogma v této doméně byla, že extrapolace může způsobit nestabilitu. Ve skutečnosti jsme si uvědomili, že kombinace dvou výše uvedených složek byla velmi účinná, bez znatelné nestability (zatím bez formálního důkazu: CHOPtrey: kontextová online polynomiální extrapolace pro vylepšenou vícejádrovou simulaci komplexní systémy , Simulace, 2017). A extrapolace fungovala s jednoduchými polynomy, s velmi nízkou výpočetní zátěží, většina operací se počítá předem a ukládá se do vyhledávacích tabulek.

Nakonec, jak extrapolace naznačuje vtipné kresby, následující je zpětná účinek lineární regrese:

Zábava s láskou a lineární regrese

Komentáře

  • +1 Pěkná odpověď. Podle tohoto webu se zdá nepravděpodobné, že by to řekl Bohr. Zdá se pravděpodobnější, že jde o neobvyklé, ale obecné dánské přísloví.
  • @ usεr11852 Je nepravděpodobné, že by “ někdy řekl, že „? Proto jsem řekl “ připsaný „, měl bych být opatrnější?
  • Nikdy jsem neřekl kdykoli část. Udělal jsem tento komentář, protože vzhledem k tomu, že přísloví se zdá být mnohem pravděpodobnější dánským příslovím, přisuzovat jej konkrétnímu (extrémně emblematickému) Danovi se zdá trochu přehnaně účtováno – zejména vzhledem k tomu, že neexistují žádné záznamy o Bohrovi, který to řekl. Původním autorem může být nejmenovaný rybář komentující zítra ‚ s úlovek! Fandím tady malému chlápkovi! : D
  • Velmi obtížné je také modelovat legendy z minulých citací.
  • Otázka určitě používá obě slova: celý bod je, zda “ prognóza “ musí být považována za formu “ extrapolace. “ Podle vašeho úvodního komentáře, zdá se, že definujete extrapolaci jako použití minulosti k “ modelování budoucnosti. “ Dokud nenabídnete jasné a odlišné definice každého z nich, vaše odpověď by mohla být nepochopena.

Odpověď

Ačkoli by model mohl být „ dobrý“ “, s extrapolací nad rámec dat je nutné zacházet skepticky. Důvodem je, že v mnoha případech se extrapolace (bohužel a nevyhnutelně) opírá o neprověřitelné předpoklady o chování dat nad rámec jejich pozorované podpory.

Při extrapolaci je třeba provést dvě volání úsudku: Zaprvé, z kvantitativního hlediska , jak platný je model mimo rozsah dat? Zadruhé, z kvalitativního hlediska, jak pravděpodobný je bod $ x_ {out} $ ležící mimo sledovaný rozsah vzorku, aby byl členem populace, kterou pro vzorek předpokládáme? Protože obě otázky znamenají určitý stupeň nejednoznačnosti, extrapolace je také považována za nejednoznačnou techniku. Pokud máte důvody akceptovat, že tyto předpoklady platí, pak je extrapolace obvykle platnou inferenční procedurou.

Dalším upozorněním je, že mnoho neparametrických technik odhadu nativně extrapolaci neumožňuje. Tento problém je zvláště patrný v případě vyhlazení splajnu, kde již neexistují žádné uzly, které by ukotveného splajnu ukotvily.

Dovolte mi zdůraznit, že extrapolace není daleko od zla. Například numerické metody široce používané ve statistikách (například Aitkenův delta-kvadratický proces a Richardson “ s Extrapolace ) jsou v zásadě extrapolační schémata založená na myšlence, že základní chování funkce analyzované pro pozorovaná data zůstává stabilní napříč podporou této funkce.

Komentáře

  • Altho je možné psát ochranná opatření pro Wynn $ \ varepsilon $ (výpočetně užitečné zobecnění Aitken $ \ Delta ^ 2 $) a Richardsonovu extrapolaci, může a stane se, že předpoklady, z nichž tyto vycházejí algoritmy nejsou příliš dobře uspokojeny sekvencemi, které jsou do něj vloženy. Při použití těchto metod extrapolace se sekvencemi nejistého původu bude mít dostatečně paranoidní obvykle k dispozici dvě nebo více těchto metod zrychlení konvergence a bude důvěřovat výsledkům, pouze pokud na alespoň dvě z těchto koncepčně velmi odlišných metod souhlasí e ve svých výsledcích.

Odpověď

Na rozdíl od ostatních odpovědí říkám, že se nic neděje s extrapolací, pokud není použita bezduchým způsobem.Nejprve si všimněte, že extrapolace je :

proces odhadování nad rámec původního rozsah pozorování, hodnota proměnné na základě jejího vztahu s jinou proměnnou.

… takže je velmi široký pojem a mnoho různých metod, od jednoduché lineární extrapolace , až po lineární regresi, polynomiální regresi nebo dokonce některé pokročilé metody předpovídání časových řad. extrapolace, predikce a prognóza ve skutečnosti úzce souvisí. Ve statistikách často vytváříme předpovědi a předpovědi . To je také odkaz, na který odkazujete:

Od prvního dne statistik nás učíme, že extrapolace je velké ne-ne, ale přesně taková je prognóza.

Mnoho metod extrapolace se používají k vytváření předpovědí, navíc často jednoduché metody fungují docela dobře s malými vzorky, takže je možné je upřednostnit pak ty komplikované. Problémem je, jak si všimli jiné odpovědi, když nesprávně použijete metodu extrapolace.

Mnoho studií například ukazuje, že věk sexuální iniciace se v západních zemích časem snižuje. Podívejte se na graf níže o věku prvního pohlavního styku v USA. Pokud bychom slepě použili lineární regresi k předpovědi věku prvního pohlavního styku, předpovídali bychom, že v určitém počtu let klesne pod nulu (v souladu s tím, že k prvnímu manželství a prvnímu narození dojde někdy po smrti) … Pokud byste však potřebovali provést roční prognóza, pak „hádám, že lineární regrese by vedla k docela přesným krátkodobým předpovědím trendu.

zde zadejte popis obrázku

(zdroj guttmacher.org )

Další skvělý příklad pochází ze zcela jiné domény, protože jde o “ extrapolaci “ pro test provedený v aplikaci Microsoft Excel, jak je uvedeno níže (Nevím, jestli je to již opraveno nebo ne). Neznám autora tohoto obrázku, pochází od Giphy .

zde zadejte popis obrázku

Všechny modely jsou špatné , extrapolace je také špatné, protože by vám neumožnilo provádět přesné předpovědi. Jako další matematické / statistické nástroje vám umožní provádět přibližné předpovědi. Míra jejich přesnosti závisí na kvalitě údajů, které máte k dispozici, metodách vhodných pro váš problém, předpokladech, které jste vytvořili při definování modelu, a mnoha dalších faktorech. To ale neznamená, že takové metody nemůžeme použít. Můžeme, ale musíme si pamatovat jejich omezení a měli bychom posoudit jejich kvalitu pro daný problém.

Komentáře

  • Když data, která použijete pro regresi, skončí na začátku 80. let, můžete si pravděpodobně snadno otestovat, jak dlouho po tomto datu by extrapolace fungovala.
  • @gerrit Souhlasím, ale bohužel jsem ‚ nebyl schopen najít vhodná data. Pokud by mi to ale někdo mohl ukázat, rád bych ‚ aktualizoval svoji odpověď pro takové srovnání.
  • V tomto případě extrapolace selže, vzhledem k tomu, že věk prvního pohlaví v posledních několika letech poskočil. (Ale data za to vždy zaostávají rok narození o několik desetiletí, z důvodů, které by měly být zřejmé.)

Odpověď

Moc se mi líbí příklad od Nassima Taleba (který byl adaptací dřívějšího příkladu od Bertranda Russella):

Zvažte krůtu, která je krmení každý den. Každé krmení upevní víru ptáka, že je obecným pravidlem života, aby jej každý den krmili přátelští členové lidské rasy „hledající na své nejlepší zájmy“, jak by řekl politik. ve středu před Dnem díkůvzdání se Turecku stane něco neočekávaného. Vyvolá to revizi víry.

Některé matematické analogy jsou následující:

  • znalost prvních několika Taylorových koeficientů funkce nemusí vždy zaručit, že následující koeficienty budou následovat váš předpokládaný vzorec.

  • znalost počáteční podmínky diferenciální rovnice ne vždy zaručují znalost jejího asymptotického chování (např. Lorenzovy rovnice, někdy zkreslené do tzv. „motýlího efektu“)

Tady je pěkné MO vlákno k této záležitosti.

Komentáře

  • … a Taleb samozřejmě musí poukázat na morální poučení: “ don ‚ nebude krocan „! v této souvislosti: don ‚ nebudu neopatrným extrapolátorem a nepoddávám se hříchu arogance.
  • @ uoɥʇʎPʎzɐɹC, nebyl jsem ‚ Nepožadujete to, ale děkuji!
  • Don ‚ Opravdu nepoužívejte křížově ověřenou reputaci – a vaši odpověď nikdo neviděl a bylo to vážně dobré. Užijte si to!

Odpovědět

Pokud budete, zvažte následující příběh.

Já nezapomeňte také sedět na kurzu Statistiky a profesor nám řekl, že extrapolace je špatný nápad. Pak nám během příští hodiny řekl, že to byl opět špatný nápad; ve skutečnosti to řekl dvakrát.

Po zbytek semestru mi bylo špatně, ale byl jsem si jist, že jsem nemohl přijít o spoustu materiálu, protože ten poslední týden ten chlap určitě musí mít nedělal nic jiného, než opakovaně říkal lidem, že extrapolace je špatný nápad.

Kupodivu jsem na zkoušce nedosáhl velmi vysokého skóre.

Komentáře

  • Otázka se ptá “ co je špatného na extrapolaci? „. Hledáme odpovědi, které by uváděly důvody, proč by extrapolace mohla být špatným nápadem.
  • @RobertLong: Je to vlastně jakási meta / vtipná odpověď a ‚ docela podobné xkcd.com/605 – přesto je možná lepší jako komentář než odpověď.
  • @NeilSlater: Měli jste zveřejnit příspěvek váš komentář jako odpověď … 🙂
  • @RobertLong: Toto je ten druh odpovědi. Má jednoduše podobenství.
  • Není jasné, že váš model je exponenciální.

Odpovědět

Otázka není jen statistická, je také epistemologická. Extrapolace je jedním ze způsobů, jak se učíme o povaze, je to forma indukce . Řekněme, že máme údaje o elektrické vodivosti materiálu v rozmezí teplot od 0 do 20 stupňů Celsia, co můžeme říci o vodivosti při 40 stupních Celsia?

Je to úzce spjato s malými odvození vzorku: co můžeme říci o celé populaci z měření provedených na malém vzorku? Začalo to Gosset jako Guiness , který přišel se Studentskými t-distribucemi. Před ním se statistici neobtěžovali přemýšlet o malých vzorcích za předpokladu, že velikost vzorku může být vždy velká. Byl v Guinnes a musel se vypořádat se vzorky piva, aby rozhodl, co dělat s celou várkou piva k odeslání.

Takže v praxi (podnikání), strojírenství a vědě musíme vždy nějakým způsobem extrapolovat. Může to být extrapolace malých vzorků na velké, nebo z omezeného rozsahu vstupních podmínek na širší soubor podmínek, od co se děje v urychlovači na to, co se stalo s černou dírou miliardy kilometrů daleko atd. Je to obzvláště důležité ve vědě, protože se to skutečně učíme studiem rozdílů mezi našimi odhady extrapolace a skutečnými měřeními. Často najdeme nové jevy, když jsou rozdíly velké nebo konzistentní.

proto říkám, že s extrapolací není problém. Je to něco, co musíme dělat každý den. Je to prostě obtížné.

Odpověď

Samotná extrapolace nemusí být nutně zlá, ale je to proces, který je vhodný pro závěry, které jsou nerozumnější než interpolace.

  • Extrapolace se často provádí za účelem prozkoumání hodnot daleko od oblasti vzorkování. Pokud vzorkuji 100 hodnot od 0 do 10 a poté trochu extrapoluji, pouze na 11, můj nový bod je pravděpodobně 10krát dále od jakéhokoli datového bodu, než by se kdy mohla dostat jakákoli interpolace. To znamená, že že mnohem více prostoru pro to, aby se proměnná vymkla z rukou (kvalitativně). Všimněte si, že jsem záměrně zvolil pouze malou extrapolaci. Může se to mnohem zhoršit
  • Extrapolace musí být provedena pomocí křivek, které byly určeny k provedení extrapolace. Například mnoho polynomiálních přizpůsobení je pro extrapolaci velmi špatných, protože výrazy, které se chovají dobře v rozsahu vzorkování, mohou explodovat, jakmile jej opustíte. Dobrá extrapolace závisí na „dobrém odhadu“ toho, co se stane mimo oblast vzorku. Což mě přivádí k …
  • Extrapolace je často extrémně obtížná kvůli přítomnosti fázových přechodů. Mnoho procesů, které si člověk může přát extrapolovat, má rozhodně nelineární vlastnosti, které nejsou dostatečně exponované v oblasti vzorku. Aeronautika kolem rychlosti zvuku je vynikajícím příkladem. Mnoho extrapolací z nižších rychlostí se rozpadne, jakmile dosáhnete a překročíte rychlost přenosu informací ve vzduchu.K tomu často dochází také u měkkých věd, kde samotná politika může ovlivnit její úspěšnost. Keynesiánská ekonomie extrapolovala, jak by se ekonomika chovala při různých úrovních inflace, a předpovídala nejlepší možný výsledek. Bohužel se vyskytly efekty druhého řádu a výsledkem nebyla ekonomická prosperita, ale spíše jedny z nejvyšších měr inflace, jaké USA zaznamenaly.
  • Lidé mají rádi extrapolace. Obecně řečeno, lidé opravdu chtějí, aby někdo nahlédl do křišťálové koule a řekl jim budoucnost. Přijmou překvapivě špatné extrapolace jednoduše proto, že jsou to všechny informace, které mají. To samo o sobě nemusí samotnou extrapolaci učinit špatnou, ale při jejím používání by se mělo rozhodně počítat.

ro maximální extrapolaci zvažte projekt Manhattan. Fyzici tam byli nuceni pracovat s extrémně malými testy, než vytvořili skutečnou věc. Prostě neměli dost uranu na to, aby při zkouškách plýtval. Dělali, co mohli, a byli chytří. Když však došlo k závěrečnému testu, bylo rozhodnuto, že každý vědec rozhodne, jak daleko od výbuchu chtějí být, když vybuchne. Existovaly podstatné rozdíly v názorech na to, jak daleko je „bezpečné“, protože všichni vědci věděli, že extrapolují dost daleko od svých testů. Existovala dokonce i netriviální úvaha, že by mohli atomovou bombou zapálit atmosféru, což je problém, který spočívá také v podstatné extrapolaci!

Odpověď

Spousta dobrých odpovědí, chci jen zkusit syntetizovat to, co považuji za jádro problému: je nebezpečné extrapolovat nad rámec procesu generování dat, který vedl k odhadu vzorku. Někdy se tomu říká „strukturální změna“.

Prognózy přicházejí s předpoklady, hlavní je to, že proces generování dat je (tak blízko, jak je podstatný rozdíl) stejný jako ten, který generoval vzorek (kromě proměnných rhs, jejichž změny vy explicitně zohlednit v modelu). Pokud dojde ke strukturální změně (tj. Díkůvzdání v příkladu Taleba), jsou všechny sázky vypnuty.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *