Jeg husker, at jeg sad i statistik-kurser som en undergrad høring om, hvorfor ekstrapolering var en dårlig idé. Der er desuden en række kilder online, som kommenterer dette. Der er også en omtale af det her .

Kan nogen hjælpe mig med at forstå, hvorfor ekstrapolering er en dårlig idé? Hvis det er, hvordan er det, at forudsigelsesteknikker ikke er statistisk ugyldige?

Kommentarer

  • @Firebug Mark Twain havde noget at sige om det. Den relevante passage er citeret i slutningen af mit svar på stats.stackexchange.com/a/24649/919 .
  • @whuber I gæt det er ‘ t nøjagtigt ekstrapolering tænker på det nu. Sig, vi træner korrekt og validerer en algoritme til at forudsige data en uge i funktionen. Udfører den korrekte resampling (og tuning, hvis der er hyperparametre, der skal indstilles), så kan jeg ‘ t se, hvad ‘ er forkert, hvis at du har et svar, og du skal også kende tilliden til det svar. Nu, hvis du træner din algoritme i en uge til uge basis, kan du ‘ ikke forvente at forudsige nøjagtigt et år i fremtiden. Undskyld for den mulige forvirring.
  • @Firebug Ingen grund til at undskylde – dine bemærkninger indeholder nyttige afklarende oplysninger. Som jeg læser dem, foreslår de at ” ekstrapolering ” kan have flere fortolkninger i en prognoseindstilling. Den ene er, at den involverer en ” ekstrapolering ” af tiden. Men når man ser på standard tidsseriemodeller, især dem, hvor tiden ikke er en eksplicit kovariat, forudsiger de fremtidige værdier i form af tidligere værdier . Når disse tidligere værdier forbliver inden for intervaller fra tidligere tidligere værdier, udfører modellen slet ingen ekstrapolering! Deri kan der være en opløsning af det tilsyneladende paradoks.
  • xkcd.com/605
  • Jeg ‘ er skuffet over, hvor lang tid det tog for den obligatoriske xkcd at vises

Svar

En regressionsmodel bruges ofte til ekstrapolering, dvs. forudsige svaret på et input, der ligger uden for værdiområdet for forudsigelsesvariablen, der bruges til at passe til modellen Faren forbundet med ekstrapolering er illustreret i den følgende figur. graf, der viser den ekstrapolerede linje, der fortsætter opad, hvor

sand ” værdi falder

Regressionsmodellen er “ved konstruktion” en interpolationsmodel og bør ikke bruges til ekstrapolering, medmindre dette er korrekt retfærdiggjort.

Kommentarer

  • Dette er et forfærdeligt eksempel mod ekstrapolering. Den lige regressionslinie passer til datapunkter meget bedre end din kurvede ægte funktion.
  • ” Den lige regressionslinie passer til datapunkter meget bedre end din kurvede ægte funktion ” Denne erklæring er falsk. RSS for den ægte regressionsfunktion er mindre end RSS for den enkle regressionslinje,
  • Punkt taget, og du kan (skulle) have ret. Men at dømme ud fra antallet af punkter er der ingen måde, man kan udlede den sande funktion.
  • Præcis. Og det er derfor ekstrapolering kan være en dårlig idé.
  • ” Regressionsmodellen er “af konstruktion” en interpolationsmodel ” – > Jeg antager, at vi kan have nøjagtigt det samme problem med interpolering (selvom det ‘ er mindre tilbøjelige til at ske)

Svar

Denne xkcd-tegneserie forklarer det alle.

mg src = “https://i.stack.imgur.com/4QwTj.png” alt = “xkcd comic” title = “Af tredje trimester vil der være hundreder af babyer inde i dig. “>

Ved hjælp af datapunkterne, som Cueball (manden med pinden) har, har han ekstrapoleret, at kvinden vil have” fire dusin “mænd i slutningen af næste måned og brugte denne ekstrapolering til at føre til konklusionen om at købe bryllupskagen i bulk.

Rediger 3: For dem af jer, der siger “han har ikke nok datapunkter”, han re “s en anden xkcd-tegneserie :

mg src =” https://i.stack.imgur.com/7oDyK.png “alt =” xkcd comic “title =” Skønt 100 år er længere end mange af vores ressourcer. “>

Her er brugen af ordet “bæredygtig” over tid vises på et semi-log plot, og ekstrapolering af datapunkterne får vi et urimeligt skøn over, hvor ofte ordet “bæredygtig” vil forekomme i fremtiden.

Rediger 2: For dem af jer, der siger “du har også brug for alle tidligere datapunkter”, endnu en xkcd-tegneserie: mg src = “https://i.stack.imgur.com/JTTW1.png” alt = “xkcd comic” title = “2031: Google forsvarer det drejelige tagmonterede scanningselektronmikroskoper på sine Street View-biler og siger, at de ‘ ikke ‘ ikke afslører noget, der ikke kunne ‘ ses ikke af enhver fodgænger, der scanner dit hus med et elektronmikroskop.”>

Her har vi alle tidligere datapunkter, men vi forudsiger ikke nøjagtigt opløsningen af Google Earth. Bemærk, at dette også er en semi-log-graf.

Rediger: Nogle gange, endda den stærkeste af (r = .9979 i dette tilfælde) korrelationer er bare forkerte.


Hvis du ekstrapolerer uden andet bevismateriale, overtræder du også korrelation betyder ikke årsagssammenhæng ; en anden stor synd i statistikverdenen.

Hvis du ekstrapolerer X med Y, skal du dog sørge for at du kan nøjagtigt (nok til at tilfredsstille dine krav) forudsiger X med kun Y. Næsten altid er der flere faktorer end påvirkning X.

I vil gerne dele et link til et andet svar , der forklarer det med Nassim Nicholas Talebs ord.

Kommentarer

  • xkcd har en vittighed om alle mulige matematiske / statistiske problemer, man kan støde på, gør det ikke ‘?
  • Denne idé kan lige så godt bruges som et argument mod interpolering: ” i går aftes havde du 0,5 ægtemænd “.
  • @JiK Hvis alt hvad du ved er, at hun har en nu, og for to dage siden havde hun ingen, er det ikke et dårligt skøn 😉
  • Bæredygtig bæredygtig Bæredygtig bæredygtig bæredygtig bæredygtig Bæredygtig bæredygtig. da.wikipedia.org/wiki/…
  • mere xkcd, folk!

Svar

” Forudsigelse er meget vanskelig, især hvis den ” s om fremtiden “. Citatet tilskrives mange mennesker i en eller anden form . Jeg begrænser i det følgende ” ekstrapolering ” til ” forudsigelse uden for det kendte interval ” og i en endimensionel indstilling ekstrapolering fra en kendt fortid til en ukendt fremtid.

Så hvad er der galt med ekstrapolering. Først skal det er ikke let at modellere fortiden . For det andet er det svært at vide, om en model fra fortiden kan bruges for fremtiden . Bag begge påstande ligger dybe spørgsmål om kausalitet eller ergodicitet , tilstrækkelighed med forklarende variabler osv., Der er helt afhængige af store og små bogstaver. Hvad der er galt, er, at det er svært at vælge et enkelt ekstrapoleringsskema, der fungerer fint i forskellige sammenhænge uden meget ekstra information.

Denne generiske mismatch er tydeligt illustreret i Anscombe-kvartetdatasæt vist nedenfor. Den lineære regression er også (uden for $ x $ -koordinatområdet) en forekomst af ekstrapolering. Den samme linje mindsker fire sæt punkter med den samme standardstatistik. De underliggende modeller er dog helt forskellige: den første er ret standard. Den anden er en parametrisk modelfejl (en anden eller tredje grad polynom kan være bedre egnet), den tredje viser en perfekt pasform bortset fra en værdi (outlier?), Den fjerde mangel på glatte relationer (hysterese?).

Anscombe-kvartet

Imidlertid kan prognoser rettes i nogen grad . Tilføjelse til andre svar kan et par ingredienser hjælpe med praktisk ekstrapolering:

  1. Du kan veje prøverne i henhold til deres afstand (indeks $ n $ ) til det sted $ p $ hvor du vil at ekstrapolere. Brug f.eks. En stigende funktion $ f_p (n) $ (med $ p \ ge n $ ) , som eksponentiel vægtning eller udjævning eller glidende vinduer i prøver for at give mindre betydning til ældre værdier.
  2. Du kan bruge flere ekstrapoleringsmodeller og kombinere dem eller vælge de bedste ( Kombination af prognoser , J. Scott Armstrong, 2001).For nylig har der været et antal værker om deres optimale kombination (jeg kan give referencer, hvis det er nødvendigt).

For nylig har jeg været involveret i et projekt til ekstrapolering af værdier til kommunikation af simulering delsystemer i et realtidsmiljø. Dogmen i dette domæne var, at ekstrapolering kan forårsage ustabilitet. Vi indså faktisk, at kombinationen af de to ovennævnte ingredienser var meget effektiv uden mærkbar ustabilitet (uden et formelt bevis endnu: CHOPtrey: kontekstuel online polynomial ekstrapolering til forbedret multi-core co-simulering af komplekse systemer , Simulation, 2017). Og ekstrapoleringen fungerede med enkle polynomer med en meget lav beregningsbyrde, hvor de fleste operationer blev beregnet på forhånd og lagret i opslagstabeller.

Endelig, som ekstrapolering antyder sjove tegninger, er følgende det bagud effekt af lineær regression:

Sjov med kærlighed og lineær regression

Kommentarer

  • +1 Dejligt svar. Ifølge dette websted synes det usandsynligt, at Bohr sagde det. Det synes mere sandsynligt at være et ualmindeligt men generisk dansk ordsprog.
  • @ usεr11852 Usandsynligt, at han ” nogensinde har sagt, at “? Derfor sagde jeg ” tilskrevet “, skal jeg være mere forsigtig?
  • Jeg sagde aldrig nogensinde del. Jeg fremsatte denne kommentar, for i betragtning af at ordsprogene synes meget mere sandsynligt at være et dansk ordsprog, tilskrives det en bestemt (ekstremt emblematisk) dansker, der virker lidt for overfakturering – især i betragtning af at der ikke er nogen optegnelser om, at Bohr siger det. Den originale forfatter kan være en unavngiven fisker, der kommenterer i morgen ‘ s fangst! Jeg er rodfæstet for den lille fyr her! : D
  • Meget svært at modellere fortidens citater også.
  • Spørgsmålet bruger bestemt begge ord: hele pointen er, om ” forudsigelse ” skal betragtes som en form for ” ekstrapolering. ” Ifølge din introduktion kommentarer, du ser ud til at definere ekstrapolering som fortid til ” model for fremtiden. ” Indtil du tilbyder klare og tydelige definitioner af hver, dit svar kan blive misforstået.

Svar

Selvom en model passer til “ god “, skal ekstrapolering ud over dataområdet behandles skeptisk. Årsagen er, at ekstrapolering (desværre og uundgåeligt) i mange tilfælde er afhængig af utestable antagelser om opførelsen af dataene ud over deres observerede støtte.

Ved ekstrapolering skal man foretage to dømmekald: For det første fra et kvantitativt perspektiv , hvor gyldig er modellen uden for dataområdet? For det andet, fra et kvalitativt perspektiv, hvor sandsynligt er et punkt $ x_ {out} $, der ligger uden for det observerede prøveområde for at være medlem af den population, vi antager for prøven? Fordi begge spørgsmål medfører en vis grad af tvetydighed, betragtes ekstrapolering også som en tvetydig teknik. Hvis du har grunde til at acceptere, at disse antagelser holder, er ekstrapolering normalt en gyldig inferentiel procedure.

En yderligere advarsel er, at mange ikke-parametriske estimeringsteknikker ikke tillader ekstrapolering naturligt. Dette problem er især mærkbart i tilfælde af splineudjævning, hvor der ikke er flere knuder til at forankre den monterede spline.

Lad mig understrege, at ekstrapolering langt fra er ond. F.eks. Numeriske metoder, der er meget anvendte i statistikker (for eksempel Aitken “s delta-squared process og Richardson” s Extrapolation ) er i det væsentlige ekstrapoleringsskemaer baseret på ideen om, at den underliggende opførsel af den funktion, der er analyseret for de observerede data, forbliver stabil på tværs af funktionens understøttelse.

Kommentarer

  • Selvom det er muligt at skrive beskyttelsesforanstaltninger for Wynn $ \ varepsilon $ (den beregningsmæssigt nyttige generalisering af Aitken $ \ Delta ^ 2 $) og Richardson ekstrapolering, det kan og sker, at de antagelser, der ligger til grund for disse algoritmer er ikke særlig tilfredse med sekvenser, der tilføres det. Når man bruger disse ekstrapolationsmetoder med sekvenser med usikker herkomst, vil den tilstrækkeligt paranoide normalt have to eller flere af disse konvergensaccelerationsmetoder ved hånden til test og vil kun stole på resultaterne, hvis mindst to af disse konceptuelt meget forskellige metoder er enige e i deres resultater.

Svar

I modsætning til andre svar vil jeg sige, at der ikke er noget galt med ekstrapolering for så vidt den ikke bruges på tankeløs måde.Bemærk først, at ekstrapolering er :

estimeringsprocessen ud over originalen observationsområde, værdien af en variabel på baggrund af dens forhold til en anden variabel.

… så det er meget bred sigt og mange forskellige metoder, der spænder fra simpel lineær ekstrapolering til lineær regression, polynomial regression eller endda nogle avancerede tidsserieprognosemetoder passer til en sådan definition. Faktisk er ekstrapolering, forudsigelse og prognose nært beslægtede. I statistikker foretager vi ofte forudsigelser og prognoser . Dette er også hvad linket du henviser til siger:

Vi læres fra dag 1 i statistikker, ekstrapolering er et stort nej-nej, men det er præcis, hvad prognoser er.

Mange ekstrapoleringsmetoder bruges til at give forudsigelser, desuden fungerer nogle enkle metoder ofte ret godt med små prøver, så det kan foretrækkes derefter de komplicerede. Problemet er, som bemærket i andre svar, når du bruger forkert ekstrapolationsmetode.

For eksempel viser mange undersøgelser, at alderen på seksuel indvielse falder over tid i vestlige lande. Se på et plot nedenfor om alderen for første samleje i USA. Hvis vi blindt brugte lineær regression til at forudsige alderen for første samleje, ville vi forudsige, at det ville gå under nul i et antal år (i overensstemmelse hermed med første ægteskab og første fødsel, der skete på et tidspunkt efter døden) … Men hvis du havde brug for at gøre prognose for et år fremad, så gætter jeg på, at lineær regression ville føre til ret nøjagtige kortsigtede forudsigelser for tendensen.

indtast billedbeskrivelse her

(kilde guttmacher.org )

Et andet godt eksempel kommer fra et helt andet domæne, da det handler om ” ekstrapolering ” til test udført af Microsoft Excel, som vist nedenfor (Jeg ved ikke, om dette allerede er løst eller ej). Jeg kender ikke forfatteren af dette billede, det kommer fra Giphy .

indtast billedebeskrivelse her

Alle modeller er forkerte , ekstrapolering er også forkert, da det ikke giver dig mulighed for at komme med præcise forudsigelser. Som andre matematiske / statistiske værktøjer giver det dig mulighed for at forudsige omtrentlige forudsigelser. Omfanget af, hvor nøjagtige de vil være, afhænger af kvaliteten af de data, du har, ved hjælp af metoder, der er passende til dit problem, de antagelser, du gjorde, mens du definerede din model og mange andre faktorer. Men det betyder ikke, at vi ikke kan bruge sådanne metoder. Det kan vi, men vi er nødt til at huske på deres begrænsninger og bør vurdere deres kvalitet for et givet problem.

Kommentarer

  • Når de data, du bruger til regression, slutter i begyndelsen af 1980erne, kan du sandsynligvis let teste, hvor længe ud over den dato, ekstrapolering ville fungere.
  • @gerrit Jeg er enig, men Desværre kunne jeg ‘ ikke finde passende data. Men hvis nogen kunne pege det på mig, ville jeg ‘ gerne opdatere mit svar til en sådan sammenligning.
  • I dette tilfælde mislykkes ekstrapolering, i betragtning af at alderen på det første køn er steget de sidste mange år. (Men data for dette forsinker altid fødselsåret med et par årtier af grunde, der burde være åbenlyse.)

Svar

Jeg kan godt lide eksemplet af Nassim Taleb (som var en tilpasning af et tidligere eksempel af Bertrand Russell):

Overvej en kalkun, der er fodres hver dag. Hver eneste fodring vil styrke fuglens overbevisning om, at det er den almindelige livsregel, der fodres hver dag af venlige medlemmer af menneskeheden, der “holder øje med dens bedste interesser”, som en politiker ville sige. onsdag før Thanksgiving sker der noget uventet med kalkunen. Det vil medføre en revision af troen.

Nogle matematiske analoger er følgende:

  • kendskab til de første få Taylor-koefficienter for en funktion garanterer ikke altid, at de efterfølgende koefficienter følger dit formodede mønster.

  • kendskab til en differentialligning “indledende betingelser garanterer ikke altid viden om dens asymptotiske opførsel (f.eks. Lorenzs ligninger, undertiden forvrænget i den såkaldte” sommerfugleffekt “)

Her er en dejlig MO-tråd om sagen.

Kommentarer

  • … og selvfølgelig skal Taleb påpege den moralske lektion: ” don ‘ t være en kalkun “! I denne sammenhæng: don ‘ t være en skødesløs ekstrapolator og don ‘ t bukke under for hubrisens synd.
  • @ uoɥʇʎPʎzɐɹC, jeg var ikke ‘ t beder om det, men tak!
  • don ‘ t har virkelig brug for krydsvalideret ry – og ingen så dit svar og det var virkelig godt. Nyd!

Svar

Overvej følgende historie, hvis du vil.

Jeg husker også at have siddet i et statistik-kursus, og professoren fortalte os, at ekstrapolering var en dårlig idé. Så under den næste klasse fortalte han os, at det var en dårlig idé igen; faktisk sagde han det to gange.

Jeg var syg resten af semesteret, men jeg var sikker på, at jeg ikke kunne have gået glip af en masse materiale, for den sidste uge må fyren helt sikkert have har ikke gjort andet end at fortælle folk igen og igen, hvordan ekstrapolering var en dårlig idé.

Mærkeligt nok scorede jeg ikke meget højt på eksamen.

Kommentarer

  • Spørgsmålet stiller ” hvad er der galt med ekstrapolering? “. Vi leder efter svar, der giver grunde til, at ekstrapolering kan være en dårlig idé.
  • @RobertLong: Det ‘ er faktisk en slags meta / joke svar, og temmelig ligner xkcd.com/605 – stadig måske bedre som en kommentar end et svar.
  • @NeilSlater: Du skulle have sendt din kommentar som svar … 🙂
  • @RobertLong: Dette er den slags svar. Det har simpelthen form af en lignelse.
  • Det er ikke klart, at din model er eksponentiel.

Svar

Spørgsmålet er ikke kun statistisk, det er også epistemologisk. Ekstrapolering er en af måderne, vi lærer om naturen på, det er en form for induktion . Lad os sige, at vi har data for et materiales elektriske ledningsevne i temperaturintervaller fra 0 til 20 Celsius, hvad kan vi sige om ledningsevnen ved 40 grader Celsius?

Det er tæt relateret til små prøveinferens: hvad kan vi sige om hele populationen fra målinger udført på en lille prøve? Dette blev startet af Gosset as Guiness , der kom op med Student t-distributioner. Før ham gik ikke statistikere med at tænke på små prøver, forudsat at prøvestørrelsen altid kan være stor. Han var i Guinnes og måtte håndtere prøver af øl for at beslutte, hvad de skulle gøre med hele den mængde øl, der skulle sendes.

Så i praksis (forretning), ingeniørvidenskab og videnskab er vi altid nødt til at ekstrapolere på nogle måder. Det kan være at ekstrapolere små prøver til store eller fra et begrænset udvalg af inputbetingelser til et bredere sæt betingelser, fra hvad der foregår i acceleratoren til hvad der skete med et sort hul milliarder af miles væk osv. Det er dog især vigtigt inden for videnskab, da vi virkelig lærer ved at studere uoverensstemmelser mellem vores ekstrapolationsestimater og faktiske målinger. Ofte finder vi nye fænomener, når uoverensstemmelserne er store eller konsistente.

Derfor siger jeg, at der ikke er noget problem med ekstrapolering. Det er noget, vi skal gøre hver dag. Det er bare svært.

Svar

Ekstrapolering i sig selv er ikke nødvendigvis ond, men det er en proces, der egner sig til konklusioner, som er mere urimelige, end du når frem til med interpolation.

  • Ekstrapolering udføres ofte for at udforske værdier ret langt fra det samplede område. Hvis jeg sampler 100 værdier fra 0-10 og derefter ekstrapolerer lidt ud, blot til 11, er mit nye punkt sandsynligvis 10 gange længere væk fra ethvert datapunkt, end nogen interpolation nogensinde kunne komme. Dette betyder, at der er så meget mere plads til en variabel for at komme ud af hånden (kvalitativt). Bemærk, at jeg med vilje kun valgte en mindre ekstrapolering. Det kan blive langt værre
  • Ekstrapolering skal udføres med kurvetilpasninger, der var beregnet til ekstrapolering. For eksempel er mange polynomiske tilpasninger meget dårlige til ekstrapolering, fordi udtryk, der opfører sig godt over det samplede interval, kan eksplodere, når du forlader det. God ekstrapolering afhænger af et “godt gæt” for, hvad der sker uden for det stikprøveområde. Hvilket bringer mig til …
  • Det er ofte ekstremt vanskeligt at bruge ekstrapolering på grund af tilstedeværelsen af faseovergange. Mange processer, som man måske ønsker at ekstrapolere på, har bestemt ikke-lineære egenskaber, som ikke er tilstrækkeligt eksponeret over det samplede område. Luftfart omkring lydhastigheden er et glimrende eksempel. Mange ekstrapoleringer fra lavere hastigheder falder fra hinanden, når du når og overstiger informationsoverførselshastigheden i luften.Dette sker også ofte med bløde videnskaber, hvor selve politikken kan påvirke politikens succes. Keynesiansk økonomi ekstrapolerede, hvordan økonomien ville opføre sig med forskellige inflationsniveauer, og forudsagde det bedst mulige resultat. Desværre var der andenordens virkninger, og resultatet var ikke økonomisk velstand, men snarere nogle af de højeste inflationsrater, som USA har set.
  • Folk som ekstrapolationer. Generelt vil folk virkelig have nogen til at kigge ind i en krystalkugle og fortælle dem fremtiden. De accepterer overraskende dårlige ekstrapoleringer simpelthen fordi det er al den information, de har. Dette gør måske ikke ekstrapolering i sig selv dårlig i sig selv, men det er bestemt noget, man bør tage højde for, når man bruger det.

For det ultimative inden for ekstrapolering skal du overveje Manhattan-projektet. Fysikerne der blev tvunget til at arbejde med ekstremt små skalaer, før de konstruerede den rigtige ting. De havde simpelthen ikke nok uran til at spilde på test. De gjorde det bedste de kunne, og de var kloge. Men da den sidste test fandt sted, blev det besluttet, at hver videnskabsmand ville beslutte, hvor langt væk fra eksplosionen, de ønskede at være, da den gik. Der var væsentlige meningsforskelle om, hvor langt væk der var “sikkert”, fordi alle forskere vidste, at de ekstrapolerede ret langt fra deres test. Der var endda en ikke-triviel overvejelse om, at de kunne sætte atmosfæren i brand med atombomben, og et spørgsmål blev også lagt i hvile med betydelig ekstrapolering!

Svar

Mange gode svar her, jeg vil bare prøve at syntetisere det, jeg ser som kernen i emnet: det er farligt at ekstrapolere ud over den datagenereringsproces, der gav anledning til estimeringsprøven. Dette kaldes undertiden en “strukturel ændring”.

Prognoser kommer med antagelser, hvor den vigtigste er, at data genereringsprocessen er (så tæt som ikke betyder nogen væsentlig forskel) den samme som den, der genererede prøven (undtagen rhs-variablerne, hvis ændringer du udtrykkeligt redegør for i modellen). Hvis der sker en strukturændring (dvs. Thanksgiving i Talebs eksempel), er alle væddemål slået fra.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *