Hva er galt med ekstrapolering?

Jeg husker jeg satt på statistikkurs som en undergrad høring om hvorfor ekstrapolering var en dårlig idé. Videre er det en rekke kilder på nettet som kommenterer dette. Det er også en omtale av det her .

Kan noen hjelpe meg med å forstå hvorfor ekstrapolering er en dårlig idé? Hvis det er, hvordan er det at prognoseteknikker ikke er ugyldige?

Kommentarer

@Firebug Mark Twain hadde noe å si om det. Den aktuelle delen siteres nær slutten av svaret mitt på stats.stackexchange.com/a/24649/919 .
@whuber I antar at det ikke er ‘ t akkurat ekstrapolering som tenker på det nå. Si, vi trener riktig og validerer en algoritme for å forutsi data en uke i funksjonen. Gjør riktig sampling (og tuning, hvis det er hyperparametere som skal innstilles), så kan jeg ‘ t se hva ‘ er galt hvis det, du har et svar, og du bør også vite tilliten til det svaret. Nå, hvis du trener algoritmen din i løpet av en uke til uke, kan du ‘ ikke forvente å forutsi nøyaktig ett år i fremtiden. Beklager den mulige forvirringen.
@Firebug Ingen grunn til å be om unnskyldning – kommentarene dine inneholder nyttig avklarende informasjon. Når jeg leser dem, foreslår de at » ekstrapolering » kan ha flere tolkninger i en prognoseinnstilling. Det ene er at det innebærer en » ekstrapolering » av tiden. Men når du ser på standard tidsseriemodeller, spesielt de der tid ikke er et eksplisitt kovariat, de forutsier fremtidige verdier når det gjelder tidligere verdier . Når disse tidligere verdiene holder seg innenfor områdene fra tidligere verdier, utfører modellen ingen ekstrapolering i det hele tatt! Det kan ligge en oppløsning av det tilsynelatende paradokset.
xkcd.com/605
Jeg ‘ er skuffet over hvor lang tid det tok før den obligatoriske xkcd dukket opp

Svar

En regresjonsmodell brukes ofte til ekstrapolering, dvs. forutsi responsen på en inngang som ligger utenfor rekkevidden til verdiene til prediktorvariabelen som brukes for å passe modellen. Faren forbundet med ekstrapolering er illustrert i følgende figur.

true » verdi synker

Regresjonsmodellen er «av konstruksjon» en interpolasjonsmodell, og skal ikke brukes til ekstrapolering, med mindre dette er riktig rettferdiggjort.

Kommentarer

Dette er et forferdelig eksempel mot ekstrapolering. Den rette regresjonslinjen passer til datapunkter mye bedre enn den svingete virkelige funksjonen din.
» Den rette regresjonslinjen passer til datapunkter mye bedre enn den svingete sanne funksjonen din » Denne påstanden er usann. RSS for den virkelige regresjonsfunksjonen er mindre enn RSS for den enkle regresjonslinjen,
Punktet tatt, og du kan (bør) ha rett. Men å dømme ut fra antall poeng, er det ingen måte man kan utlede den sanne funksjonen.
Nøyaktig. Og det er derfor ekstrapolering kan være en dårlig idé.
» Regresjonsmodellen er «av konstruksjon» en interpolasjonsmodell » – > Jeg antar at vi kan ha nøyaktig samme problem med interpolering (selv om det ‘ er mindre sannsynlig å skje)

Svar

Denne xkcd-tegneserien forklarer det alle.

mg src = «https://i.stack.imgur.com/4QwTj.png» alt = «xkcd comic» title = «Av tredje trimester vil det være hundrevis av babyer inni deg. «>

Ved hjelp av datapunktene Cueball (mannen med pinnen) har, har han ekstrapolert at kvinnen vil ha» fire dusin «ektemenn i slutten av neste måned, og brukte denne ekstrapolasjonen for å føre til konklusjonen om å kjøpe bryllupskaken i bulk.

Rediger 3: For de av dere som sier «han har ikke nok datapunkter», han re «s en annen xkcd-tegneserie :

mg src =» https://i.stack.imgur.com/7oDyK.png «alt =» xkcd comic «title =» Selv om 100 år er lengre enn mange av våre ressurser. «>

Her er bruken av ordet «bærekraftig» over tid vises på en semi-log plott, og ekstrapolering av datapunktene får vi et urimelig estimat på hvor ofte ordet «bærekraftig» vil forekomme i fremtiden.

Rediger 2: For de av dere som sier «du trenger alle tidligere datapunkter også», enda en xkcd-tegneserie: mg src = «https://i.stack.imgur.com/JTTW1.png» alt = «xkcd comic» title = «2031: Google forsvarer den svingende takmonterte skanningelektronmikroskoper på Street View-bilene og sier at de ‘ ikke ‘ ikke avslører noe som ikke kunne ‘ kan ikke sees av en fotgjenger som skanner huset ditt med et elektronmikroskop.»>

Her har vi alle tidligere datapunkter, men vi klarer ikke å forutsi nøyaktig oppløsningen på Google Earth. Vær oppmerksom på at dette også er en semiloggraf.

Rediger: Noen ganger, til og med den sterkeste av (r = .9979 i dette tilfellet) korrelasjoner er rett og slett feil.

Hvis du ekstrapolerer uten andre bevis, støtter du også korrelasjon innebærer ikke årsakssammenheng ; en annen stor synd i statistikkens verden.

Hvis du ekstrapolerer X med Y, må du imidlertid sørge for at du kan nøyaktig (nok til å tilfredsstille dine krav) forutsi X med bare Y. Nesten alltid er det flere faktorer enn innvirkning X.

_{I vil dele en lenke til et annet svar som forklarer det med ordene til Nassim Nicholas Taleb.}

Kommentarer

xkcd har en vits om alle mulige matematikk- / statistikkproblemer man kan støte på, gjør ‘ det ikke?
Denne ideen kan like godt brukes som et argument mot interpolering: » i går kveld hadde du 0,5 ektemenn «.
@JiK Hvis alt du vet er at hun har en nå, og for to dager siden hadde hun ingen, er det ikke et dårlig estimat 😉
Bærekraftig bærekraftig Bærekraftig bærekraftig bærekraftig bærekraftig Bærekraftig bærekraftig. no.wikipedia.org/wiki/…
mer xkcd, folk!

Svar

» Forutsigelse er veldig vanskelig, spesielt hvis det » s om fremtiden «. Sitatet tilskrives mange mennesker i noen form . Jeg begrenser i det følgende » ekstrapolering » til » prediksjon utenfor det kjente området «, og i en endimensjonal setting, ekstrapolering fra en kjent fortid til en ukjent fremtid.

Så hva er galt med ekstrapolering. Først, det er ikke lett å modellere fortiden . For det andre, er det vanskelig å vite om en modell fra fortiden kan brukes for fremtiden . Bak begge påstandene bor dype spørsmål om kausalitet eller ergodisitet , tilstrekkelig med forklaringsvariabler, etc. som er ganske store og små bokstaver. Det som er galt, er at det er vanskelig å velge et enkelt ekstrapoleringsskjema som fungerer bra i forskjellige sammenhenger, uten mye ekstra informasjon.

Denne generelle mismatchen er tydelig illustrert i Anscombe kvartett datasett vist nedenfor. Den lineære regresjonen er også (utenfor $ x $ -koordinatområdet) en forekomst av ekstrapolering. Den samme linjen trekker tilbake fire sett med poeng, med samme standardstatistikk. Imidlertid er de underliggende modellene ganske forskjellige: den første er ganske standard. Den andre er en parametrisk modellfeil (en andre eller tredje graders polynom kan være bedre egnet), den tredje viser perfekt passform bortsett fra en verdi (outlier?), Den fjerde mangel på glatte forhold (hysterese?).

Imidlertid kan prognoser rettes til en viss grad . Ved å legge til andre svar kan et par ingredienser hjelpe praktisk ekstrapolering:

Du kan veie prøvene i henhold til avstanden (indeks $ n $ ) til stedet $ p $ der du vil å ekstrapolere. Bruk for eksempel en økende funksjon $ f_p (n) $ (med $ p \ ge n $ ) , som eksponentiell vekting eller utjevning , eller skyvevinduer av prøver, for å gi mindre betydning til eldre verdier.
Du kan bruke flere ekstrapolasjonsmodeller, og kombinere dem eller velge de beste ( Kombinere prognoser , J. Scott Armstrong, 2001).Nylig har det vært en rekke arbeider med deres optimale kombinasjon (jeg kan gi referanser om nødvendig).

Nylig har jeg vært involvert i et prosjekt for ekstrapolering av verdier for kommunikasjon av simulering delsystemer i sanntidsmiljø. Dogmen i dette domenet var at ekstrapolering kan føre til ustabilitet. Vi skjønte faktisk at å kombinere de to ovennevnte ingrediensene var veldig effektiv, uten merkbar ustabilitet (uten et formelt bevis ennå: CHOPtrey: kontekstuell online polynomisk ekstrapolering for forbedret flerkjerners co-simulering av komplekse systemer , Simulering, 2017). Og ekstrapolasjonen fungerte med enkle polynomer, med en veldig lav beregningsbyrde, de fleste av operasjonene ble beregnet på forhånd og lagret i oppslagstabeller.

Til slutt, som ekstrapolering antyder morsomme tegninger, er følgende det bakover effekt av lineær regresjon:

Kommentarer

+1 Fint svar. I følge dette nettstedet virker det lite sannsynlig at Bohr sa det. Det virker mer sannsynlig å være et uvanlig, men generisk dansk ordtak.
@ usεr11852 Usannsynlig at han » noen gang sa at «? Derfor skal jeg si » tilskrevet «, skal jeg være mer forsiktig?
Jeg sa aldri noensinne del. Jeg kom med denne kommentaren fordi gitt at ordtaket virker mye mer sannsynlig å være et dansk ordtak, tilskrives det en bestemt (ekstremt emblematisk) dansker, virker det litt overfakturering – spesielt gitt at det ikke er noen opptegnelser om at Bohr sa det. Den opprinnelige forfatteren kan være en navnløs fisker som kommenterer morgendagens ‘ fangst! Jeg har rot etter den lille fyren her! : D
Svært vanskelig å modellere fortidens legender også.
Sikkert bruker spørsmålet begge ordene: hele poenget er om » prognoser » må betraktes som en form for » ekstrapolering. » I følge din innledning kommentarer, ser det ut til at du definerer ekstrapolering som å bruke fortiden til å » modellere fremtiden. » Inntil du tilbyr klare og tydelige definisjoner av hver, svaret ditt kan bli misforstått.

Svar

Selv om passformen til en modell kan være « god «, må ekstrapolering utenfor rekkevidden av data behandles skeptisk. Årsaken er at i mange tilfeller er ekstrapolering (dessverre og uunngåelig) avhengig av utestable antagelser om oppførselen til dataene utover deres observerte støtte.

Ved ekstrapolering må man gjøre to dømmekall: For det første, fra et kvantitativt perspektiv. , hvor gyldig er modellen utenfor dataområdet? For det andre, fra et kvalitativt perspektiv, hvor sannsynlig er et punkt $ x_ {out} $ som ligger utenfor det observerte utvalgsområdet for å være medlem av befolkningen vi antar for prøven? Fordi begge spørsmålene medfører en viss grad av tvetydighet, blir ekstrapolering også betraktet som en tvetydig teknikk. Hvis du har grunner til å akseptere at disse antagelsene holder, er ekstrapolering vanligvis en gyldig inferensiell prosedyre.

En ekstra advarsel er at mange ikke-parametriske estimeringsteknikker ikke tillater ekstrapolering naturlig. Dette problemet er spesielt merkbart når det gjelder glidning av spline der det ikke er flere knuter for å forankre den monterte spline.

La meg understreke at ekstrapolering langt fra er ond. For eksempel numeriske metoder som er mye brukt i statistikk (for eksempel Aitkens delta-kvadrerte prosess og Richardson » s Extrapolation ) er i hovedsak ekstrapolasjonsskjemaer basert på ideen om at den underliggende atferden til funksjonen som er analysert for de observerte dataene, forblir stabil på tvers av funksjonens støtte.

Kommentarer

Selv om det er mulig å skrive beskyttelsesforanstaltninger for Wynn $ \ varepsilon $ (den beregningsnyttige generaliseringen av Aitken $ \ Delta ^ 2 $) og Richardson ekstrapolering, kan det og skjer at forutsetningene som ligger til grunn for disse algoritmer er ikke veldig godt fornøyd med sekvenser som blir matet til den. Når du bruker disse ekstrapolasjonsmetodene med sekvenser med usikker herkomst, vil den tilstrekkelig paranoide vanligvis ha to eller flere av disse konvergensakselerasjonsmetodene tilgjengelig for testing, og vil bare stole på resultatene hvis minst to av disse konseptuelt veldig forskjellige metodene er enige e i resultatene.

Svar

I motsetning til andre svar, vil jeg si at det ikke er noe galt med ekstrapolering så langt den ikke brukes på tankeløs måte.Legg først merke til at ekstrapolering er :

prosessen med å estimere, utover originalen observasjonsområde, verdien av en variabel på grunnlag av dens forhold til en annen variabel.

… så den er veldig god em> bred sikt og mange forskjellige metoder som spenner fra enkel lineær ekstrapolering , til lineær regresjon, polynomregresjon, eller til og med noen avanserte tidsserieprognosemetoder som passer slik definisjon. Faktisk er ekstrapolering, spådommer og prognoser nært beslektet. I statistikk lager vi ofte spådommer og prognoser . Dette er også hva lenken du henviser til sier:

Vi får opplæring fra dag 1 i statistikk som ekstrapolering er et stort nei-nei, men det er akkurat det som er prognoser.

Mange ekstrapoleringsmetoder brukes for å lage spådommer, dessuten fungerer ofte noen enkle metoder ganske bra med små prøver, så kan være å foretrekke deretter de kompliserte. Problemet er, som lagt merke til i andre svar, når du bruker ekstrapolasjonsmetoden feil.

For eksempel viser mange studier at alderen på seksuell innvielse avtar over tid i vestlige land. Ta en titt på et plot nedenfor om alder for første samleie i USA. Hvis vi blindt brukte lineær regresjon for å forutsi alderen til første samleie, ville vi forutsi at den skulle gå under null noen år (følgelig med første ekteskap og første fødsel som skjedde en gang etter døden) … ett-års-prognose, så antar jeg at lineær regresjon vil føre til ganske nøyaktige kortsiktige spådommer for trenden.

(kilde guttmacher.org )

Et annet godt eksempel kommer fra et helt annet domene, siden det handler om » ekstrapolering » for test utført av Microsoft Excel, som vist nedenfor (Jeg vet ikke om dette allerede er løst eller ikke). Jeg kjenner ikke forfatteren av dette bildet, det kommer fra Giphy .

Alle modeller tar feil , ekstrapolering er også feil, siden det ikke vil gjøre deg i stand til å presise spådommer. Som andre matematiske / statistiske verktøy vil det gjøre deg i stand til å lage tilnærmede spådommer. Omfanget av hvor nøyaktige de vil være, avhenger av kvaliteten på dataene du har, ved hjelp av metoder som er tilstrekkelige for problemet ditt, forutsetningene du gjorde mens du definerte modellen din og mange andre faktorer. Men dette betyr ikke at vi ikke kan bruke slike metoder. Vi kan, men vi må huske på begrensningene og bør vurdere kvaliteten for et gitt problem.

Kommentarer

Når dataene du bruker for regresjon slutter på begynnelsen av 1980-tallet, kan du sannsynligvis enkelt teste hvor lenge utover den datoen ekstrapolering ville fungere.
@gerrit Jeg er enig, men Dessverre klarte jeg ikke ‘ å finne passende data. Men hvis noen kunne peke det til meg, ville jeg ‘ gjerne oppdatere svaret mitt for en slik sammenligning.
I dette tilfellet mislykkes ekstrapolering, gitt at alderen på første kjønn har hoppet de siste årene. (Men data for dette blir alltid fødselsåret et par tiår, av grunner som burde være åpenbare.)

Svar

Jeg liker eksemplet av Nassim Taleb (som var en bearbeiding av et tidligere eksempel av Bertrand Russell):

Vurder en kalkun som er matet hver dag. Hver eneste fôring vil styrke fuglens tro på at det er den generelle livsregelen å bli matet hver dag av vennlige medlemmer av menneskeheten «som ser etter sitt beste», som en politiker vil si. På ettermiddagen kl. onsdagen før Thanksgiving vil noe uventet skje med kalkunen. Det vil medføre en revisjon av troen.

Noen matematiske analoger er følgende:

kunnskap om de første Taylor-koeffisientene til en funksjon garanterer ikke alltid at de påfølgende koeffisientene vil følge det antatte mønsteret ditt.
kunnskap om en differensialligning «de innledende forholdene garanterer ikke alltid kunnskap om dens asymptotiske oppførsel (f.eks. Lorenzs ligninger, noen ganger forvrengt til den såkalte» sommerfugleeffekten «)

Her er en fin MO-tråd om saken.

Kommentarer

… og selvfølgelig må Taleb påpeke den moralske leksjonen: » don ‘ t være en kalkun «! I denne sammenhengen: don ‘ t være en uforsiktig ekstrapolator, og ikke ‘ t bukke under for hubrisens synd.
@ uoɥʇʎPʎzɐɹC, jeg var ikke ‘ t ber om det, men takk!
don ‘ t har virkelig bruk for kryssvalidert rykte – og ingen så svaret ditt og det var veldig godt. Kos deg!

Svar

Tenk på følgende historie, hvis du vil.

Jeg husker også å ha sittet på et statistikk-kurs, og professoren fortalte oss at ekstrapolering var en dårlig idé. Så under neste klasse fortalte han oss at det var en dårlig idé igjen; faktisk sa han det to ganger.

Jeg var syk resten av semesteret, men jeg var sikker på at jeg ikke kunne ha savnet mye materiale, for den siste uken må fyren sikkert ha ikke gjort annet enn å fortelle folk igjen og igjen hvordan ekstrapolering var en dårlig idé.

Merkelig nok, fikk jeg ikke poeng veldig høyt på eksamen.

Kommentarer

Spørsmålet stiller » hva er galt med ekstrapolering? «. Vi ser etter svar som gir grunner til at ekstrapolering kan være en dårlig idé.
@RobertLong: Det ‘ er faktisk et slags meta / vits svar, og ganske lik xkcd.com/605 – fremdeles kanskje bedre som en kommentar enn et svar.
@NeilSlater: Du burde ha postet kommentaren din som svar … 🙂
@RobertLong: Dette er den slags svar. Den har rett og slett form av en lignelse.
Det er ikke klart at modellen din er eksponentiell.

Svar

Spørsmålet er ikke bare statistisk, det er også epistemologisk. Ekstrapolering er en av måtene vi lærer om naturen, det er en form for induksjon . La oss si at vi har data for elektrisk ledningsevne til et materiale i et temperaturområde fra 0 til 20 Celsius, hva kan vi si om ledningsevnen ved 40 grader Celsius?

Det er nært knyttet til små prøveinnledning: hva kan vi si om hele populasjonen fra målinger utført på et lite utvalg? Dette ble startet av Gosset as Guiness , som kom med Student t-distribusjoner. Før ham brydde statistikere seg ikke om å tenke på små prøver forutsatt at prøvestørrelsen alltid kan være stor. Han var på Guinnes og måtte håndtere prøver av øl for å bestemme hva han skulle gjøre med hele ølpartiet. p>

Så i praksis (business), ingeniørfag og naturvitenskap må vi alltid ekstrapolere på noen måter. Det kan være å ekstrapolere små prøver til store, eller fra et begrenset utvalg av inngangsbetingelser til et bredere sett med forhold, fra hva som skjer i gasspedalen til det som skjedde med et svart hull flere milliarder miles unna osv. Det er spesielt viktig i vitenskapen, som vi virkelig lærer ved å studere avvikene mellom våre estimater for ekstrapolering og faktiske målinger. Ofte finner vi nye fenomener når avvikene er store eller konsistente.

Derfor sier jeg at det ikke er noe problem med ekstrapolering. Det er noe vi må gjøre hver dag. Det er bare vanskelig.

Svar

Ekstrapolering i seg selv er ikke nødvendigvis ond, men det er en prosess som egner seg til konklusjoner som er mer urimelige enn du kommer til med interpolering.

Ekstrapolering gjøres ofte for å utforske verdier ganske langt fra det samplede området. Hvis jeg prøver 100 verdier fra 0-10, og deretter ekstrapolerer bare litt, bare til 11, er det nye punktet mitt sannsynlig 10 ganger lenger unna noe datapunkt enn noen interpolasjon noen gang kan komme. Dette betyr at det er at mye mer plass for en variabel å komme ut av hånden (kvalitativt). Merk at jeg med vilje bare valgte en mindre ekstrapolering. Det kan bli langt verre
Ekstrapolering må gjøres med kurvetilpasninger som var ment å gjøre ekstrapolering. For eksempel er mange polynomtilpasninger veldig dårlige for ekstrapolering fordi termer som oppfører seg godt over det utvalgte området kan eksplodere når du forlater det. God ekstrapolering avhenger av et «godt gjetning» om hva som skjer utenfor det samplede området. Som bringer meg til …
Det er ofte ekstremt vanskelig å bruke ekstrapolering på grunn av tilstedeværelsen av faseoverganger. Mange prosesser som man kan ønske å ekstrapolere på, har avgjort ikke-lineære egenskaper som ikke er tilstrekkelig eksponert over det samplede området. Luftfart rundt lydhastigheten er et utmerket eksempel. Mange ekstrapolasjoner fra lavere hastigheter faller fra hverandre når du når og overskrider informasjonsoverføringshastigheten i luften.Dette skjer også ganske ofte med myke vitenskaper, hvor selve politikken kan påvirke suksessen til politikken. Keynesiansk økonomi ekstrapolerte hvordan økonomien ville oppføre seg med forskjellige inflasjonsnivåer, og spådde et best mulig resultat. Dessverre var det andre ordens effekter, og resultatet var ikke økonomisk velstand, men noen av de høyeste inflasjonene USA har sett.
Folk liker ekstrapolasjoner. Generelt vil folk virkelig at noen skal kikke inn i en krystallkule og fortelle dem fremtiden. De vil akseptere overraskende dårlige ekstrapoleringer bare fordi det er all informasjonen de har. Dette gjør kanskje ikke at ekstrapolering i seg selv er dårlig, men det er absolutt noe man bør ta hensyn til når man bruker den.

For å oppnå ytterligere ekstrapolering, bør du vurdere Manhattan-prosjektet. Fysikerne der ble tvunget til å jobbe med ekstremt småskala tester før de konstruerte den virkelige tingen. De hadde rett og slett ikke nok uran til å kaste bort på tester. De gjorde så godt de kunne, og de var smarte. Da den endelige testen skjedde, ble det imidlertid bestemt at hver forsker ville bestemme hvor langt borte fra eksplosjonen de ville være når den gikk. Det var betydelige meningsforskjeller om hvor langt borte var «trygt» fordi alle forskere visste at de ekstrapolerte ganske langt fra testene sine. Det var til og med en ikke-triviell vurdering av at de kunne sette atmosfæren i brann med atombomben, et spørsmål som også ble lagt til ro med betydelig ekstrapolering!

Svar

Mange gode svar her, jeg vil bare prøve å syntetisere det jeg ser som kjernen i saken: det er farlig å ekstrapolere utover den datagenereringsprosessen som ga opphav til estimeringsutvalget. Dette kalles noen ganger en «strukturell endring».

Prognoser kommer med antakelser, den viktigste er at data genererer prosessen er (så nær som ikke gjør noen signifikant forskjell) den samme som den som genererte prøven (bortsett fra rhs variablene, hvis endringer du eksplisitt redegjør for i modellen). Hvis det oppstår en strukturendring (dvs. Thanksgiving i Talebs eksempel), er alle spill av.

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

Svar

Svar

Legg igjen en kommentar Avbryt svar