Ricordo di aver frequentato corsi di statistica come un studente universitario sul perché lestrapolazione fosse una cattiva idea. Inoltre, ci sono una varietà di fonti online che commentano questo. Ce nè anche una menzione qui .
Qualcuno può aiutarmi a capire perché lestrapolazione è una cattiva idea? Se lo è, come è che le tecniche di previsione non sono “t statisticamente valide?
Commenti
- @Firebug Mark Twain aveva qualcosa da dire al riguardo. Il passaggio pertinente è citato verso la fine della mia risposta a stats.stackexchange.com/a/24649/919 .
- @whuber I immagino che non sia ‘ esattamente unestrapolazione a pensarci ora. Supponiamo che addestriamo e convalidiamo adeguatamente un algoritmo per prevedere i dati una settimana nella funzionalità. Eseguendo il ricampionamento corretto (e lottimizzazione, se ci sono iperparametri da sintonizzare), non posso ‘ vedere cosa ‘ è sbagliato se questo, hai una risposta e dovresti anche conoscere la fiducia di quella risposta. Ora, se addestrate il vostro algoritmo su base settimanale, ‘ non potete aspettarvi di prevedere con precisione un anno nel futuro. Ci scusiamo per la possibile confusione.
- @Firebug Non cè bisogno di scusarsi – i tuoi commenti contengono utili informazioni di chiarimento. Mentre li leggo, suggeriscono che ” estrapolare ” può avere più interpretazioni in unimpostazione di previsione. Uno è che implica un ” estrapolazione ” di tempo. Ma quando si esaminano i modelli di serie temporali standard, specialmente quelli in cui il tempo non è una covariata esplicita , essi prevedono valori futuri in termini di valori precedenti . Quando quei valori precedenti rimangono allinterno degli intervalli dei valori precedenti precedenti, il modello non esegue alcuna estrapolazione! In questo potrebbe trovarsi una risoluzione dellapparente paradosso.
- xkcd.com/605
- Sono ‘ deluso dal tempo impiegato per la visualizzazione dellobbligatorio xkcd
Risposta
Un modello di regressione viene spesso utilizzato per lestrapolazione, ovvero per prevedere la risposta a un input che si trova al di fuori di lintervallo dei valori della variabile predittore utilizzata per adattare il modello. Il pericolo associato allestrapolazione è illustrato nella figura seguente.
true ” il valore diminuisce
Il modello di regressione è “per costruzione” un modello di interpolazione e non deve essere utilizzato per lestrapolazione, a meno che non sia corretto giustificato.
Commenti
- Questo è un terribile esempio contro lestrapolazione. La linea di regressione retta si adatta ai punti dati molto meglio della tua funzione true sinuosa.
- ” La linea di regressione retta adatta i punti dati molto meglio della tua funzione true curvy ” Questa affermazione è falsa. LRSS per la vera funzione di regressione è più piccolo dellRSS per la semplice linea di regressione,
- Punto preso e potresti (dovresti) avere ragione. Ma a giudicare dalla serie di punti, non è possibile inferire la vera funzione.
- Esattamente. Ed è per questo motivo che lestrapolazione può essere una cattiva idea.
- ” Il modello di regressione è “per costruzione” un modello di interpolazione ” – > Immagino che possiamo avere esattamente lo stesso problema con linterpolazione (anche se ‘ è meno probabile che accada)
Risposta
Questo fumetto xkcd lo spiega tutti.
Usando i dati di Cueball (luomo con il bastone) ha estrapolato che la donna avrà” quattro dozzine “mariti entro la fine del mese prossimo e ha utilizzato questa estrapolazione per concludere lacquisto della torta nuziale in blocco.
Modifica 3: Per quelli di voi che dicono “non ha” punti dati sufficienti “, re “s un altro fumetto xkcd :
Qui, lutilizzo del la parola “sostenibile” nel tempo viene mostrata su un diagramma semi-logaritmico e, estrapolando i punti dati, riceviamo una stima irragionevole della frequenza con cui la parola “sostenibile” si verificherà in futuro.
Modifica 2: Per quelli di voi che dicono “avete bisogno anche di tutti i punti dati passati”, ancora un altro fumetto xkcd: mg src = “https://i.stack.imgur.com/JTTW1.png” alt = “xkcd comic” title = “2031: Google difende lorientamento microscopi elettronici a scansione montati sul tetto delle auto di Street View, dicendo che ‘ don ‘ t rivelano qualcosa che non può ‘ nessun pedone scansiona la tua casa con un microscopio elettronico.”>
Qui abbiamo tutti i punti dati passati ma non riusciamo a prevedere con precisione la risoluzione di Google Earth. Tieni presente che anche questo è un grafico semi-log.
Modifica: A volte, anche il più forte di (r = .9979 in questo caso) le correlazioni sono semplicemente sbagliate.
Se estrapoli senza altre prove a sostegno, violi anche la correlazione non implica causalità ; un altro grande peccato nel mondo delle statistiche.
Se estrapoli X con Y, tuttavia, devi assicurarti che possa accuratamente (abbastanza per soddisfare le tue esigenze) prevede X con solo Y. Quasi sempre, ci sono più fattori oltre allimpatto X.
I vorrei condividere un link a unaltra risposta che lo spiega con le parole di Nassim Nicholas Taleb.
Commenti
- xkcd ha una battuta su ogni possibile problema di matematica / statistica che si possa incontrare, non ‘ vero?
- Questa idea potrebbe anche essere usata come argomento contro linterpolazione: ” ieri sera hai avuto 0,5 mariti “.
- @JiK Se tutto quello che sai è che ne ha uno adesso, e due giorni fa non ne aveva nessuno, non è una stima sbagliata 😉
- Sostenibile sostenibile Sostenibile sostenibile sostenibile sostenibile Sostenibile sostenibile. en.wikipedia.org/wiki/…
- più xkcd, gente!
Risposta
” La previsione è molto difficile, soprattutto se ” sul futuro “. La citazione è attribuita a molte persone in qualche forma . Limito quanto segue ” estrapolazione da ” a ” previsione al di fuori dellintervallo noto ” e, in unimpostazione unidimensionale, estrapolazione da un passato noto a un futuro sconosciuto.
Quindi cosa cè di sbagliato nellestrapolazione. Innanzitutto, non è facile modellare il passato . Secondo, è difficile sapere se è possibile utilizzare un modello del passato per il futuro . Dietro entrambe le affermazioni si nascondono profonde domande sulla causalità o ergodicity , sufficienza di variabili esplicative, ecc. Che dipendono abbastanza dal caso. Ciò che è sbagliato è che è difficile scegliere un unico schema di estrapolazione che funzioni bene in contesti diversi, senza molte informazioni aggiuntive.
Questa mancata corrispondenza generica è chiaramente illustrata nel Dataset del quartetto Anscombe mostrato di seguito. La regressione lineare è anche (al di fuori dellintervallo $ x $ -coordinate) unistanza di estrapolazione. La stessa linea fa regredire quattro serie di punti, con le stesse statistiche standard. Tuttavia, i modelli sottostanti sono abbastanza diversi: il primo è abbastanza standard. Il secondo è un errore del modello parametrico (un polinomio di secondo o terzo grado potrebbe essere più adatto), il terzo mostra un adattamento perfetto ad eccezione di un valore (outlier?), Il quarto una mancanza di relazioni regolari (isteresi?).
Tuttavia, la previsione può essere rettificata in una certa misura . In aggiunta ad altre risposte, un paio di ingredienti possono aiutare lestrapolazione pratica:
- Puoi pesare i campioni in base alla loro distanza (index $ n $ ) dalla posizione $ p $ dove vuoi estrapolare. Ad esempio, utilizza una funzione crescente $ f_p (n) $ (con $ p \ ge n $ ) , come ponderazione o livellamento esponenziale o finestre scorrevoli di campioni, per dare meno importanza ai valori precedenti.
- Puoi utilizzare diversi modelli di estrapolazione e combinarli o selezionare il migliore ( Combinazione di previsioni , J. Scott Armstrong, 2001).Recentemente, ci sono stati diversi lavori sulla loro combinazione ottimale (posso fornire riferimenti se necessario).
Recentemente sono stato coinvolto in un progetto per estrapolare valori per la comunicazione di simulazione sottosistemi in un ambiente in tempo reale. Il dogma in questo campo era che lestrapolazione può causare instabilità. In realtà ci siamo resi conto che la combinazione dei due ingredienti di cui sopra era molto efficiente, senza instabilità evidente (senza ancora una prova formale: CHOPtrey: estrapolazione polinomiale online contestuale per una co-simulazione multi-core avanzata di sistemi complessi , Simulation, 2017). E lestrapolazione ha funzionato con polinomi semplici, con un carico computazionale molto basso, la maggior parte delle operazioni è stata calcolata in anticipo e memorizzata in tabelle di ricerca.
Infine, poiché lestrapolazione suggerisce disegni divertenti, il seguente è il effetto della regressione lineare:
Commenti
- +1 Bella risposta. Secondo questo sito , sembra improbabile che Bohr labbia detto. Sembra più probabile che sia un proverbio danese insolito ma generico.
- @ usεr11852 È improbabile che ” abbia mai detto che “? Ecco perché ho detto ” attribuito “, dovrei essere più cauto?
- Non ho mai detto mai parte. Ho fatto questo commento perché dato che il detto sembra molto più probabile che sia un proverbio danese, attribuirlo a un particolare (estremamente emblematico) danese sembra un po eccessivo, soprattutto dato che non ci sono registrazioni di Bohr che lo dice. Lautore originale potrebbe essere un pescatore senza nome che commenta il ‘ pescato di domani! Sto tifando per il piccoletto qui! : D
- È molto difficile modellare anche le leggende delle citazioni passate.
- Certamente la domanda usa entrambe le parole: il punto è se ” la previsione ” deve essere considerata una forma di ” estrapolazione. ” Secondo la tua introduzione commenti, sembra che tu definisca lestrapolazione come lutilizzo del passato per ” modellare il futuro. ” Finché non offri definizioni chiare e distinte di ciascuno, la tua risposta potrebbe essere fraintesa.
Risposta
Anche se ladattamento di un modello potrebbe essere “ buono “, lestrapolazione oltre la gamma dei dati deve essere trattata con scetticismo. Il motivo è che in molti casi lestrapolazione (sfortunatamente e inevitabilmente) si basa su ipotesi non verificabili sul comportamento dei dati oltre il loro supporto osservato.
Quando si estrapola si devono fare due chiamate di giudizio: Primo, da una prospettiva quantitativa , quanto è valido il modello al di fuori dellintervallo dei dati? Secondo, da una prospettiva qualitativa, quanto è plausibile che un punto $ x_ {out} $ che si trova al di fuori dellintervallo del campione osservato sia un membro della popolazione che assumiamo per il campione? Poiché entrambe le domande comportano un certo grado di ambiguità, anche lestrapolazione è considerata una tecnica ambigua. Se hai ragioni per accettare che queste ipotesi valgano, allora lestrapolazione è solitamente una procedura inferenziale valida.
Un ulteriore avvertimento è che molte tecniche di stima non parametrica non consentono lestrapolazione in modo nativo. Questo problema è particolarmente evidente nel caso di spline smoothing dove non ci sono più nodi per ancorare la spline adattata.
Vorrei sottolineare che lestrapolazione è tuttaltro che dannosa. Ad esempio, metodi numerici ampiamente utilizzati nelle statistiche (ad esempio processo delta-quadrato di Aitken e Richardson ” s Extrapolation ) sono essenzialmente schemi di estrapolazione basati sullidea che il comportamento sottostante della funzione analizzata per i dati osservati rimane stabile attraverso il supporto della funzione.
Commenti
- Sebbene sia possibile scrivere misure di salvaguardia per Wynn $ \ varepsilon $ (la generalizzazione computazionalmente utile di Aitken $ \ Delta ^ 2 $) e lestrapolazione di Richardson, può accadere e accade che le ipotesi alla base di queste algoritmi non sono molto ben soddisfatti dalle sequenze ad esso alimentate. Quando si utilizzano questi metodi di estrapolazione con sequenze di provenienza incerta, il paranoico sufficientemente avrà di solito due o più di questi metodi di accelerazione della convergenza a portata di mano per il test e si fiderà dei risultati solo se a almeno due di questi metodi concettualmente molto diversi sono daccordo e nei risultati.
Risposta
Contrariamente ad altre risposte, direi che non cè niente di sbagliato con estrapolazione fino a quando non viene utilizzata in modo irrazionale.Innanzitutto, nota che estrapolazione è :
il processo di stima, oltre loriginale intervallo di osservazione, il valore di una variabile sulla base della sua relazione con unaltra variabile.
… quindi “è molto termine ampio e molti metodi diversi che vanno dalla semplice estrapolazione lineare , alla regressione lineare, alla regressione polinomiale o anche ad alcuni metodi avanzati di previsione delle serie temporali si adattano a tale definizione. In effetti, estrapolazione, previsione e previsione sono strettamente correlate. Nelle statistiche spesso facciamo previsioni e previsioni . Questo è anche ciò che dice il link a cui fai riferimento:
Ci è stato insegnato dal primo giorno delle statistiche che lestrapolazione è un grande no-no, ma questo è esattamente ciò che è la previsione.
Molti metodi di estrapolazione vengono utilizzati per fare previsioni, inoltre, spesso alcuni metodi semplici funzionano abbastanza bene con piccoli campioni, quindi possono essere preferiti poi quelli complicati. Il problema è, come notato in altre risposte, quando si utilizza il metodo di estrapolazione in modo improprio.
Ad esempio, molti studi dimostrano che letà delliniziazione sessuale diminuisce nel tempo nei paesi occidentali. Dai unocchiata a una trama qui sotto sulletà del primo rapporto sessuale negli Stati Uniti. Se usassimo ciecamente la regressione lineare per prevedere letà del primo rapporto sessuale, prediremmo che scendesse sotto lo zero dopo un certo numero di anni (di conseguenza con il primo matrimonio e la prima nascita avvenuti in un momento dopo la morte) … Tuttavia, se fosse necessario farlo previsione con un anno di anticipo, quindi immagino che la regressione lineare porterebbe a previsioni a breve termine abbastanza accurate per la tendenza.
(fonte guttmacher.org )
Un altro ottimo esempio proviene da un dominio completamente diverso, poiché si tratta di ” estrapolare ” per il test eseguito da Microsoft Excel, come mostrato di seguito (Non so se è già stato risolto o meno). Non conosco lautore di questa immagine, proviene da Giphy .
Tutti i modelli sono sbagliati , estrapolazione è anche sbagliato, poiché non ti consentirebbe di fare previsioni precise. Come altri strumenti matematici / statistici, ti consentirà di fare previsioni approssimative . La misura in cui saranno accurati dipende dalla qualità dei dati di cui disponi, dallutilizzo di metodi adeguati al tuo problema, dalle ipotesi formulate durante la definizione del modello e da molti altri fattori. Ma questo non significa che non possiamo usare tali metodi. Possiamo, ma dobbiamo ricordare i loro limiti e dovremmo valutare la loro qualità per un dato problema.
Commenti
- Quando i dati che utilizzi per la regressione terminano allinizio degli anni 80, puoi probabilmente testare facilmente per quanto tempo funzionerebbe lestrapolazione oltre tale data.
- @gerrit Sono daccordo, ma purtroppo ‘ non sono riuscito a trovare i dati appropriati. Ma se qualcuno potesse indicarmelo, ‘ sarei felice di aggiornare la mia risposta per tale confronto.
- In questo caso, lestrapolazione non riesce, dato che letà del primo sesso è aumentata negli ultimi anni. (Ma i dati per questo sono sempre in ritardo rispetto allanno di nascita di un paio di decenni, per ragioni che dovrebbero essere ovvie.)
Risposta
Mi piace molto lesempio di Nassim Taleb (che era un adattamento di un esempio precedente di Bertrand Russell):
Considera un tacchino che è nutriti ogni giorno. Ogni singola poppata rafforzerà la convinzione delluccello che è regola generale di vita essere nutriti ogni giorno da membri amichevoli della razza umana “attenti ai suoi migliori interessi”, come direbbe un politico. il mercoledì prima del Ringraziamento, accadrà qualcosa di inaspettato al tacchino. Incorrerà in una revisione della fede.
Alcuni analoghi matematici sono i seguenti:
-
la conoscenza dei primi pochi coefficienti di Taylor di una funzione non garantisce sempre che i coefficienti successivi seguiranno il modello presunto.
-
conoscenza di le condizioni iniziali di unequazione differenziale non sempre garantiscono la conoscenza del suo comportamento asintotico (es. equazioni di Lorenz, a volte distorte nel cosiddetto “effetto farfalla”)
Ecco un bel thread MO sullargomento.
Commenti
- … e, naturalmente, Taleb deve sottolineare la lezione morale: ” don ‘ t essere un tacchino “! In questo contesto: don ‘ essere un estrapolatore incurante e non ‘ soccombere al peccato di hubris.
- @ uoɥʇʎPʎzɐɹC, non ero ‘ Non te lo chiedo, ma grazie!
- don ‘ Non ho davvero bisogno della reputazione con convalida incrociata e nessuno ha visto la tua risposta e è stato davvero buono. Buon divertimento!
Risposta
Rifletti sulla seguente storia, se vuoi.
I ricordo anche di aver frequentato un corso di statistica e il professore ci disse che lestrapolazione era una cattiva idea. Poi durante la lezione successiva ci ha detto che era di nuovo una cattiva idea; in effetti, lha detto due volte.
Sono stato malato per il resto del semestre, ma ero certo di non poter perdere molto materiale, perché nellultima settimana il ragazzo doveva aver Non ho fatto altro che ripetere alla gente come lestrapolazione fosse una cattiva idea.
Stranamente, non ho ottenuto un punteggio molto alto allesame.
Commenti
- La domanda chiede ” cosa cè di sbagliato nellestrapolazione? “. Stiamo cercando risposte che spieghino perché lestrapolazione potrebbe essere una cattiva idea.
- @RobertLong: ‘ è in realtà una sorta di risposta meta / scherzo, e abbastanza simile a xkcd.com/605 , ma forse è ancora meglio come commento che come risposta.
- @NeilSlater: avresti dovuto pubblicare il tuo commento come risposta … 🙂
- @RobertLong: Questo è quel tipo di risposta. Ha semplicemente la forma di una parabola.
- Non è chiaro se il tuo modello sia esponenziale.
Risposta
La domanda non è solo statistica, è anche epistemologica. Lestrapolazione è uno dei modi in cui apprendiamo la natura, è “una forma di induzione . Supponiamo di avere dati per la conduttività elettrica di un materiale in una gamma di temperature da 0 a 20 gradi Celsius, cosa possiamo dire della conducibilità a 40 gradi Celsius?
È strettamente correlata al piccolo inferenza campionaria: cosa possiamo dire dellintera popolazione dalle misurazioni effettuate su un piccolo campione? Questo è stato avviato da Gosset come Guiness , che ha inventato le distribuzioni t di Student. Prima di lui gli statistici non si preoccupavano di pensare a piccoli campioni assumendo che la dimensione del campione potesse sempre essere grande. Era a Guinnes e doveva occuparsi di campioni di birra per decidere cosa fare dellintero lotto di birra da spedire.
Quindi, in pratica (affari), ingegneria e scienza dobbiamo sempre estrapolare in qualche modo. Potrebbe essere estrapolare campioni piccoli a campioni grandi, o da una gamma limitata di condizioni di input a un insieme più ampio di condizioni, da cosa sta succedendo nellacceleratore a quello che è successo a un buco nero a miliardi di miglia di distanza, ecc. Tuttavia è particolarmente importante per la scienza, poiché impariamo davvero studiando le discrepanze tra le nostre stime di estrapolazione e le misurazioni effettive. Spesso troviamo nuove fenomeni in cui le discrepanze sono ampie o consistenti.
quindi, dico che non ci sono problemi con lestrapolazione. È qualcosa che dobbiamo fare ogni giorno. È solo difficile.
Risposta
Lestrapolazione in sé non è necessariamente malvagia, ma è un processo che si presta a conclusioni più irragionevoli di quelle a cui si arriva con linterpolazione.
- Lestrapolazione viene spesso eseguita per esplorare valori abbastanza lontani dalla regione campionata. Se sto campionando 100 valori da 0-10, e poi estrapolo solo un po , semplicemente a 11, il mio nuovo punto è probabilmente 10 volte più lontano da qualsiasi punto dati rispetto a qualsiasi interpolazione potrebbe mai ottenere. Ciò significa che ci “s molto più spazio perché una variabile sfugga di mano (qualitativamente). Nota che ho scelto intenzionalmente solo una piccola estrapolazione. Può andare molto peggio
- Lestrapolazione deve essere eseguita con adattamenti alla curva che erano destinati a fare estrapolazione. Ad esempio, molti adattamenti polinomiali sono molto scarsi per lestrapolazione perché i termini che si comportano bene nellintervallo campionato possono esplodere una volta che lo si lascia. Una buona estrapolazione dipende da una “buona ipotesi” su ciò che accade al di fuori della regione campionata. Il che mi porta a …
- Spesso è estremamente difficile utilizzare lestrapolazione a causa della presenza di transizioni di fase. Molti processi sui quali si potrebbe estrapolare hanno proprietà decisamente non lineari che non sono sufficientemente esposte sulla regione campionata. Laeronautica intorno alla velocità del suono è un ottimo esempio. Molte estrapolazioni da velocità inferiori cadono a pezzi quando si raggiunge e si supera la velocità di trasferimento delle informazioni nellaria.Ciò si verifica abbastanza spesso anche con le soft science, dove la politica stessa può influire sul successo della politica. Leconomia keynesiana ha estrapolato il modo in cui leconomia si sarebbe comportata con diversi livelli di inflazione e ha previsto il miglior risultato possibile. Sfortunatamente, ci furono effetti di secondo ordine e il risultato non fu la prosperità economica, ma piuttosto alcuni dei tassi di inflazione più alti che gli Stati Uniti abbiano mai visto.
- Alla gente piacciono le estrapolazioni. In generale, le persone vogliono davvero che qualcuno scruti in una sfera di cristallo e dica loro il futuro. Accetteranno estrapolazioni sorprendentemente cattive semplicemente perché sono tutte le informazioni che hanno. Questo potrebbe non rendere lestrapolazione in sé negativa, di per sé, ma è sicuramente qualcosa di cui si dovrebbe tener conto quando la si utilizza.
Per la massima estrapolazione, si consideri il Progetto Manhattan. I fisici sono stati costretti a lavorare con test su scala estremamente ridotta prima di costruire la cosa reale. Semplicemente non avevano abbastanza uranio da sprecare nei test. Hanno fatto del loro meglio ed erano intelligenti. Tuttavia, quando si è verificato il test finale, è stato deciso che ogni scienziato avrebbe deciso quanto lontano dallesplosione voleva essere quando è esplosa. Cerano sostanziali differenze di opinione su quanto lontano fosse “sicuro” perché ogni scienziato sapeva che stavano estrapolando abbastanza lontano dai loro test. Cera anche una considerazione non banale che avrebbero potuto incendiare latmosfera con la bomba nucleare, una questione anche risolta con estrapolazioni sostanziali!
Risposta
Molte buone risposte qui, voglio solo provare a sintetizzare quello che vedo come il nocciolo del problema: è pericoloso estrapolare oltre quel processo di generazione dei dati che ha dato origine al campione di stima. Questo è talvolta chiamato “cambiamento strutturale”.
La previsione viene fornita con ipotesi, la principale è che il processo di generazione dei dati è (il più vicino possibile non fa differenza significativa) lo stesso di quello che ha generato il campione (ad eccezione delle variabili rhs, le cui modifiche tu spiegare esplicitamente nel modello). Se si verifica un cambiamento strutturale (ad esempio il Ringraziamento nellesempio di Taleb), tutte le scommesse sono annullate.