Jag kommer ihåg att jag satt i statistikkurser som en undergradssamling om varför extrapolering var en dålig idé. Dessutom finns det en mängd olika källor online som kommenterar detta. Det nämns också här .

Kan någon hjälpa mig att förstå varför extrapolering är en dålig idé? Om det är, hur är det så att prognosmetoder inte är statistiskt ogiltiga?

Kommentarer

  • @Firebug Mark Twain hade något att säga om det. Den aktuella delen citeras i slutet av mitt svar på stats.stackexchange.com/a/24649/919 .
  • @whuber I antar att det inte är ’ t exakt extrapolering som tänker på det nu. Säg, vi tränar och validerar en algoritm ordentligt för att förutsäga data en vecka i funktionen. Gör rätt omprovtagning (och inställning, om det finns hyperparametrar att ställa in), då kan jag ’ t se vad ’ är fel om att du har ett svar och du bör också veta förtroendet för det svaret. Om du tränar din algoritm på en vecka till vecka-bas kan du ’ inte förvänta dig att förutsäga exakt ett år i framtiden. Ledsen för den möjliga förvirringen.
  • @Firebug Du behöver inte be om ursäkt – dina kommentarer innehåller användbar förtydligande information. När jag läser dem föreslår de att ” extrapolering ” kan ha flera tolkningar i en prognosinställning. Det ena är att det innebär en ” extrapolering ” av tiden. Men när man tittar på vanliga tidsseriemodeller, särskilt de där tiden inte är ett uttryckligt samvariat, förutsäger de framtida värden i termer av tidigare värden . När de tidigare värdena ligger inom intervallet för tidigare tidigare värden, utför modellen ingen extrapolering alls! Det kan ligga en upplösning av den uppenbara paradoxen.
  • xkcd.com/605
  • Jag ’ är besviken över hur lång tid det tog för den obligatoriska xkcd att visas

Svar

En regressionsmodell används ofta för extrapolering, dvs förutsäga svaret på en ingång som ligger utanför intervallet för värdena för den prediktorvariabel som används för att passa modellen. Faran i samband med extrapolering illustreras i följande bild. diagram som visar den extrapolerade linjen fortsätter uppåt där

true ” värde minskar

Regressionsmodellen är ”av konstruktion” en interpoleringsmodell och ska inte användas för extrapolering, om inte detta är korrekt motiverat.

Kommentarer

  • Detta är ett hemskt exempel mot extrapolering. Den raka regressionslinjen passar datapunkter mycket bättre än din kurviga sanna funktion.
  • ” Den raka regressionslinjen passar datapunkter mycket bättre än din kurviga sanna funktion ” Detta uttalande är falskt. RSS för den sanna regressionsfunktionen är mindre än RSS för den enkla regressionslinjen,
  • Punkt tas och du kan (borde) ha rätt. Men att döma av antalet poäng finns det inget sätt att dra slutsatsen om den sanna funktionen.
  • Exakt. Och det är därför extrapolering kan vara en dålig idé.
  • ” Regressionsmodellen är ”av konstruktion” en interpoleringsmodell ” – > Jag antar att vi kan ha exakt samma problem med interpolering (även om det ’ är mindre benägna att hända)

Svar

Denna xkcd-serie förklarar det alla.

mg src = ”https://i.stack.imgur.com/4QwTj.png” alt = ”xkcd comic” title = ”Av tredje trimestern kommer det att finnas hundratals barn inuti dig. ”>

Med hjälp av datapunkterna som Cueball (mannen med pinnen) har, har han extrapolerat att kvinnan kommer att ha” fyra dussin ”män i slutet av nästa månad och använde denna extrapolering för att leda till slutsatsen att man köpte bröllopstårta i bulk.

Redigera 3: För er som säger ”han har inte tillräckligt med datapunkter”, han re ”s en annan xkcd-serie :

mg src =” https://i.stack.imgur.com/7oDyK.png ”alt =” xkcd comic ”title =” Även om 100 år är längre än många av våra resurser. ”>

Här är användningen av ordet ”hållbart” över tiden visas på en halvlogg-plot, och extrapolering av datapunkterna får vi en orimlig uppskattning av hur ofta ordet ”hållbar” kommer att inträffa i framtiden.

Redigera 2: För dig som säger ”du behöver alla tidigare datapunkter också”, ännu en xkcd-komik: mg src = ”https://i.stack.imgur.com/JTTW1.png” alt = ”xkcd comic” title = ”2031: Google försvarar det vridbara takmonterade avsökningselektronmikroskop på sina Street View-bilar och säger att de ’ inte ’ t avslöjar något som inte kunde ’ ses inte av någon fotgängare som skannar ditt hus med ett elektronmikroskop.”>

Här har vi alla tidigare datapunkter men vi misslyckas med att förutsäga upplösningen av Google Earth. Observera att detta också är ett halvloggdiagram.

Redigera: Ibland, även den starkaste av (r = .9979 i detta fall) korrelationer är helt enkelt felaktiga.


Om du extrapolerar utan andra stödjande bevis bryter du också mot korrelation innebär inte orsakssamband ; en annan stor synd i statistikvärlden.

Om du extrapolerar X med Y måste du dock se till att du kan noggrant (tillräckligt för att tillfredsställa dina krav) förutsäga X med endast Y. Nästan alltid finns det flera faktorer än påverkan X.

I vill dela en länk till ett annat svar som förklarar det med Nassim Nicholas Talebs ord.

Kommentarer

  • xkcd har ett skämt om alla möjliga matematiska / statistiska problem man kan stöta på, är det inte ’?
  • Denna idé kan lika gärna användas som ett argument mot interpolering: ” igår kväll hade du 0,5 män ”.
  • @JiK Om allt du vet är att hon har en nu och för två dagar sedan hade hon ingen, det är inte en dålig uppskattning 😉
  • Hållbar hållbar Hållbar hållbar hållbar hållbar hållbar Hållbar hållbar. sv.wikipedia.org/wiki/…
  • mer xkcd, människor!

Svar

” Förutsägelse är mycket svårt, särskilt om det ” s om framtiden ”. Citatet tillskrivs många människor i någon form . Jag begränsar i följande ” extrapolering ” till ” förutsägelse utanför det kända intervallet ”, och i en endimensionell miljö, extrapolering från ett känt förflutet till en okänd framtid.

Så vad är fel med extrapolering. Först det är inte lätt att modellera det förflutna . För det andra är det svårt att veta om en modell från det förflutna kan användas för framtiden . Bakom båda påståendena finns djupa frågor om kausalitet eller ergodicitet , tillräcklighet för förklarande variabler, etc. som är ganska skiftberoende. Vad som är fel är att det är svårt att välja ett enda extrapoleringsschema som fungerar bra i olika sammanhang utan mycket extra information.

Detta generiska fel är tydligt illustrerat i Anscombe-kvartettdataset visas nedan. Den linjära regressionen är också (utanför $ x $ -koordinatintervallet) en förekomst av extrapolering. Samma linje minskar fyra uppsättningar poäng, med samma standardstatistik. De underliggande modellerna är dock helt annorlunda: den första är ganska standard. Den andra är ett parametriskt modellfel (en andra eller tredje gradens polynom kan vara bättre lämpad), den tredje visar en perfekt passform förutom ett värde (outlier?), Den fjärde bristen på smidiga förhållanden (hysteres?).

Anscombe-kvartett

Prognoser kan dock rättas till viss del . När du lägger till andra svar kan ett par ingredienser hjälpa till med extrapolering:

  1. Du kan väga proverna beroende på deras avstånd (index $ n $ ) till den plats $ p $ där du vill att extrapolera. Använd till exempel en ökande funktion $ f_p (n) $ (med $ p \ ge n $ ) , som exponentiell viktning eller utjämning , eller skjutfönster för prover, för att ge äldre värden mindre vikt.
  2. Du kan använda flera extrapoleringsmodeller och kombinera dem eller välja de bästa ( Kombinera prognoser , J. Scott Armstrong, 2001).Nyligen har det gjorts ett antal verk om deras optimala kombination (jag kan ge referenser om det behövs).

Nyligen har jag varit involverad i ett projekt för extrapolering av värden för kommunikation av simulering delsystem i en realtidsmiljö. Dogmen i denna domän var att extrapolering kan orsaka instabilitet. Vi insåg faktiskt att kombinera de två ovanstående ingredienserna var mycket effektiv, utan märkbar instabilitet (utan ett formellt bevis ännu: CHOPtrey: kontextuell online polynomisk extrapolering för förbättrad flerkärnig samsimulering av komplexa system , Simulation, 2017). Och extrapolationen fungerade med enkla polynom, med en mycket låg beräkningsbörda, de flesta av operationerna beräknades i förväg och lagrades i uppslagstabeller.

Slutligen, som extrapolering föreslår roliga ritningar, är följande bakåt effekt av linjär regression:

Kul med kärlek och linjär regression

Kommentarer

  • +1 Snyggt svar. Enligt denna webbplats verkar det osannolikt att Bohr sa det. Det verkar mer sannolikt att vara ett ovanligt men generiskt dansk ordspråk.
  • @ usεr11852 Osannolikt att han ” någonsin sagt att ”? Därför sa jag ” tillskrivs ”, ska jag vara mer försiktig?
  • Jag sa aldrig att någonsin del. Jag gjorde den här kommentaren eftersom med tanke på att ordspråket verkar mycket mer sannolikt att vara ett dansk ordspråk, att tillskriva det till en viss (extremt emblematisk) dansker verkar lite överfakturering – särskilt med tanke på att det inte finns några register över Bohr som säger det. Den ursprungliga författaren kan vara en namnlös fiskare som kommenterar morgondagens ’ s fångst! Jag rotar efter den lilla killen här! : D
  • Mycket svårt att modellera tidigare citattecken också.
  • Visst använder frågan båda orden: hela poängen är om ” prognos ” måste betraktas som en form av ” extrapolering. ” Enligt din inledning kommentarer, du verkar definiera extrapolering som att använda det förflutna för att ” modellera framtiden. ” Tills du erbjuder tydliga och tydliga definitioner av var och en, ditt svar kan missförstås.

Svar

Även om passformen för en modell kan vara ” bra ”, måste extrapolering bortom dataens räckvidd behandlas skeptiskt. Anledningen är att extrapolering i många fall (tyvärr och oundvikligen) förlitar sig på otestabla antaganden om uppförandet av uppgifterna bortom deras observerade stöd.

Vid extrapolering måste man göra två domskall: För det första ur ett kvantitativt perspektiv , hur giltig är modellen utanför dataområdet? För det andra, ur ett kvalitativt perspektiv, hur troligt är en punkt $ x_ {out} $ som ligger utanför det observerade urvalet för att vara en medlem av den befolkning som vi antar för urvalet? Eftersom båda frågorna medför en viss tvetydighet anses extrapolering också vara en tvetydig teknik. Om du har skäl att acceptera att dessa antaganden håller, är extrapolering vanligtvis ett giltigt slutsatsprocedur.

En ytterligare varning är att många icke-parametriska uppskattningstekniker inte tillåter extrapolering nativt. Detta problem är särskilt märkbart i fallet med splineutjämning där det inte finns fler knutar för att förankra den monterade spline.

Låt mig betona att extrapolering är långt ifrån ont. Till exempel numeriska metoder som används i stor utsträckning i statistik (till exempel Aitken ”delta-kvadratprocess och Richardson” s Extrapolation ) är i huvudsak extrapoleringsscheman baserade på tanken att det underliggande beteendet hos den analyserade funktionen för de observerade data förblir stabil över funktionens stöd.

Kommentarer

  • Även om det är möjligt att skriva skydd för Wynn $ \ varepsilon $ (den beräkningsbara användbara generaliseringen av Aitken $ \ Delta ^ 2 $) och Richardson extrapolering, kan det och händer att antagandena bakom dessa algoritmer är inte särskilt nöjda med sekvenser som matas till den. När man använder dessa extrapoleringsmetoder med sekvenser med osäker härkomst kommer den tillräckligt paranoida vanligtvis att ha två eller flera av dessa konvergensaccelereringsmetoder till hands för testning och kommer bara att lita på resultaten om minst två av dessa begreppsmässigt mycket olika metoder är överens e i deras resultat.

Svar

I motsats till andra svar skulle jag säga att det inte är något fel med extrapolering så långt det inte används på ett tankelöst sätt.Lägg först märke till att extrapolering är :

uppskattningsprocessen, bortom originalet observationsintervall, värdet på en variabel på grundval av dess förhållande till en annan variabel.

… så det är mycket vidsträckt och många olika metoder som sträcker sig från enkel linjär extrapolering till linjär regression, polynomregression eller till och med några avancerade tidsserieprognosmetoder passar en sådan definition. Faktum är att extrapolering, förutsägelse och prognos är nära besläktade. I statistik gör vi ofta förutsägelser och prognoser . Detta är också vad länken du refererar till säger:

Vi lär oss från dag 1 i statistik som extrapolering är ett stort nej-nej, men det är precis vad prognosen är.

Många extrapoleringsmetoder används för att göra förutsägelser, dessutom fungerar ofta vissa enkla metoder ganska bra med små prover, så det kan föredras sedan de komplicerade. Problemet är, som noterats i andra svar, när du använder felaktigt extrapoleringsmetod.

Till exempel visar många studier att åldern för sexuell initiering sjunker över tid i västländerna. Ta en titt på en tomt under ungefär ålder för första samlag i USA. Om vi blindt använde linjär regression för att förutsäga åldern vid första samlag skulle vi förutsäga att det skulle gå under noll vid ett antal år (följaktligen med första äktenskap och första födelse som inträffar någon gång efter döden) … Men om du behövde göra prognos för ett år framåt, då antar jag att linjär regression skulle leda till ganska exakta kortsiktiga förutsägelser för trenden.

ange bildbeskrivning här

(källa guttmacher.org )

Ett annat bra exempel kommer från en helt annan domän, eftersom det handlar om ” extrapolering ” för test utfört av Microsoft Excel, som visas nedan (Jag vet inte om detta redan är fixat eller inte). Jag känner inte författaren till den här bilden, den kommer från Giphy .

ange bildbeskrivning här

Alla modeller har fel , extrapolering är också fel, eftersom det inte skulle göra det möjligt för dig att göra exakta förutsägelser. Som andra matematiska / statistiska verktyg gör det att du kan göra ungefärliga förutsägelser. Hur omfattande de kommer att vara beror på kvaliteten på den data du har, med metoder som är lämpliga för ditt problem, de antaganden du gjorde när du definierade din modell och många andra faktorer. Men det betyder inte att vi inte kan använda sådana metoder. Vi kan, men vi måste komma ihåg deras begränsningar och bör bedöma deras kvalitet för ett visst problem.

Kommentarer

  • När uppgifterna du använder för regression slutar i början av 1980-talet kan du förmodligen enkelt testa hur länge efter det datumet extrapolering skulle fungera.
  • @gerrit Jag håller med, men tyvärr kunde jag ’ inte hitta lämpliga data. Men om någon kunde peka på det så skulle jag ’ gärna uppdatera mitt svar för en sådan jämförelse.
  • I det här fallet misslyckas extrapolering, med tanke på att åldern av första kön har hoppat under de senaste åren. (Men data för detta försenar alltid födelseåret med några decennier, av skäl som borde vara uppenbara.)

Svar

Jag gillar ganska exemplet av Nassim Taleb (som var en anpassning av ett tidigare exempel av Bertrand Russell):

Tänk på en kalkon som är matas varje dag. Varje utfodring kommer att stärka fågelns övertygelse om att det är den allmänna regeln för livet att matas varje dag av vänliga medlemmar av mänskligheten och ”se upp för sitt bästa”, som en politiker skulle säga. onsdagen före Thanksgiving kommer något oväntat att hända med kalkon. Det kommer att medföra en översyn av tron.

Några matematiska analoger är följande:

  • kunskap om de första Taylor-koefficienterna för en funktion garanterar inte alltid att de efterföljande koefficienterna följer ditt antagna mönster.

  • kunskap om en differentiell ekvations initiala villkor garanterar inte alltid kunskap om dess asymptotiska beteende (t.ex. Lorenzs ekvationer, ibland förvrängda i den så kallade ”fjärilseffekten”)

Här är en trevlig MO-tråd om saken.

Kommentarer

  • … och naturligtvis måste Taleb påpeka den moraliska lektionen: ” don ’ t vara en kalkon ”! I detta sammanhang: don ’ t vara en slarvig extrapolator och don ’ t ge efter för hubrisens synd.
  • @ uoɥʇʎPʎzɐɹC, jag var inte ’ t ber om det, men tack!
  • don ’ t har verkligen nytta av korsvaliderat rykte – och ingen såg ditt svar och det var riktigt bra. Njut!

Svara

Fundera över följande berättelse, om du vill.

Jag kommer också ihåg att vi satt i en statistik-kurs, och professorn sa att extrapolering var en dålig idé. Under nästa lektion sa han till oss att det var en dålig idé igen; faktiskt sa han det två gånger.

Jag var sjuk resten av terminen, men jag var säker på att jag inte kunde ha missat mycket material, för den senaste veckan måste killen säkert ha inte gjort annat än att berätta för människor om och om igen hur extrapolering var en dålig idé.

Konstigt nog gjorde jag inte poäng mycket högt på provet.

Kommentarer

  • Frågan ställer ” vad är fel med extrapolering? ”. Vi letar efter svar som ger skäl till varför extrapolering kan vara en dålig idé.
  • @RobertLong: Det ’ är faktiskt ett slags meta / skämtsvar och ganska lik xkcd.com/605 – ändå kanske bättre som en kommentar än ett svar.
  • @NeilSlater: Du borde ha skrivit din kommentar som svar … 🙂
  • @RobertLong: Detta är den typen av svar. Den har helt enkelt formen av en liknelse.
  • Det är inte klart att din modell är exponentiell.

Svar

Frågan är inte bara statistisk, den är också epistemologisk. Extrapolering är ett av sätten vi lär oss om naturen, det är en form av induktion . Låt oss säga att vi har data för elektriskt ledningsförmåga hos ett material i temperaturintervaller från 0 till 20 Celsius, vad kan vi säga om konduktiviteten vid 40 grader Celsius?

Det är nära relaterat till små provinferens: vad kan vi säga om hela populationen från mätningar som utförs på ett litet urval? Detta startades av Gosset as Guiness , som kom med Student t-distributioner. Före honom brydde sig statistiker inte om att tänka på små prover under förutsättning att provstorleken alltid kan vara stor. Han var i Guinnes och var tvungen att ta itu med prover av öl för att bestämma vad han skulle göra med hela satsen öl som ska skickas.

Så i praktiken (affärer), teknik och naturvetenskap måste vi alltid extrapolera på vissa sätt. Det kan vara att extrapolera små prover till stora, eller från ett begränsat intervall av ingångsförhållanden till en bredare uppsättning villkor, från vad som händer i gaspedalen till vad som hände med ett svart hål miljarder mil bort osv. Det är dock särskilt viktigt inom vetenskapen, eftersom vi verkligen lär oss genom att studera avvikelserna mellan våra extrapoleringsuppskattningar och faktiska mätningar. Ofta hittar vi nya fenomen när skillnaderna är stora eller konsekventa.

Därför säger jag att det inte finns något problem med extrapolering. Det är något vi måste göra varje dag. Det är bara svårt.

Svar

Extrapolering i sig är inte nödvändigtvis ond, men det är en process som lämpar sig för slutsatser som är mer orimliga än du når med interpolering.

  • Extrapolering görs ofta för att utforska värden ganska långt från den samplade regionen. Om jag samplar 100 värden från 0-10 och sedan extrapolerar ut lite, bara till 11, är min nya punkt sannolikt tio gånger längre bort från vilken datapunkt som någon interpolering någonsin skulle kunna få. Det betyder att det finns så mycket mer utrymme för en variabel att komma ur hand (kvalitativt). Observera att jag medvetet bara valde en mindre extrapolering. Det kan bli mycket värre
  • Extrapolering måste göras med kurvpassningar som var avsedda att göra extrapolering. Till exempel är många polynompassningar mycket dåliga för extrapolering eftersom termer som beter sig väl över det samplade intervallet kan explodera när du lämnar det. Bra extrapolering beror på en ”bra gissning” om vad som händer utanför det samplade området. Vilket leder mig till …
  • Det är ofta extremt svårt att använda extrapolering på grund av närvaron av fasövergångar. Många processer som man kanske vill extrapolera på har bestämt olinjära egenskaper som inte är tillräckligt exponerade över det samplade området. Aeronautik kring ljudhastigheten är ett utmärkt exempel. Många extrapoleringar från lägre hastigheter faller sönder när du når och överstiger hastigheten för informationsöverföring i luften.Detta inträffar också ganska ofta med mjuk vetenskap, där själva policyn kan påverka policys framgång. Keynesiansk ekonomi extrapolerade hur ekonomin skulle bete sig med olika inflationsnivåer och förutspådde bästa möjliga resultat. Tyvärr fanns det andra ordningens effekter och resultatet var inte ekonomiskt välstånd utan snarare några av de högsta inflationstakten som USA har sett.
  • Människor gillar extrapoleringar. Generellt sett vill folk verkligen att någon ska kika in i en kristallkula och berätta för framtiden. De kommer att acceptera överraskande dåliga extrapoleringar helt enkelt för att det är all information de har. Detta gör kanske inte att extrapolering i sig är dålig i sig, men det är definitivt något man bör ta hänsyn till när man använder den.

För det ultimata inom extrapolering, överväga Manhattan-projektet. Fysikerna där tvingades arbeta med extremt småskaliga tester innan de konstruerade den riktiga saken. De hade helt enkelt inte tillräckligt med uran för att slösa bort på tester. De gjorde så gott de kunde och de var smarta. Men när det slutliga testet inträffade bestämdes det att varje forskare skulle bestämma hur långt borta från sprängningen de ville vara när det gick. Det fanns betydande meningsskiljaktigheter om hur långt borta som var ”säkert” eftersom alla forskare visste att de extrapolerade ganska långt från sina tester. Det fanns till och med ett icke-trivialt övervägande att de skulle sätta atmosfären i brand med kärnbomben, en fråga som också vilades med betydande extrapolering!

Svar

Massor av bra svar här, jag vill bara försöka syntetisera det jag ser som kärnan i frågan: det är farligt att extrapolera bortom den datagenereringsprocessen som gav upphov till uppskattningsprovet. Detta kallas ibland en ”strukturell förändring”.

Prognoser kommer med antaganden, den viktigaste är att datagenereringsprocessen är (så nära som det inte gör någon signifikant skillnad) densamma som den som genererade provet (med undantag för rhs-variablerna, vars ändringar du uttryckligen beaktas i modellen). Om en strukturförändring inträffar (dvs. Thanksgiving i Talebs exempel) är alla spel avstängda.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *