Je me souviens davoir assisté à des cours de statistiques alors quun étudiant de premier cycle entendait pourquoi lextrapolation était une mauvaise idée. En outre, il existe une variété de sources en ligne qui commentent cela. Il y en a aussi une mention ici .
Quelquun peut-il maider à comprendre pourquoi lextrapolation est une mauvaise idée? Si tel est le cas, comment est-ce que les techniques de prévision ne sont pas statistiquement invalides?
Commentaires
- @Firebug Mark Twain avait quelque chose à dire à ce sujet. Le passage pertinent est cité vers la fin de ma réponse à stats.stackexchange.com/a/24649/919 .
- @whuber I suppose que ce nest pas ‘ t exactement une extrapolation en y pensant maintenant. Disons que nous formons et validons correctement un algorithme pour prédire les données une semaine dans la fonctionnalité. En effectuant le rééchantillonnage correct (et le réglage, sil y a des hyperparamètres à régler), alors je peux ‘ voir ce que ‘ est faux si cela, vous avez une réponse et vous devez également connaître la confiance de cette réponse. Désormais, si vous entraînez votre algorithme sur une base hebdomadaire, vous pouvez ‘ espérer prédire avec précision un an dans le futur. Désolé pour la confusion possible.
- @Firebug Pas besoin de vous excuser – vos remarques contiennent des précisions utiles. Au fur et à mesure que je les lis, ils suggèrent que » extrapolate » peut avoir plusieurs interprétations dans un cadre de prévision. La première est quelle implique une » extrapolation » de temps. Mais lorsque vous regardez les modèles de séries chronologiques standard, en particulier ceux où le temps nest pas une covariable explicite, ils prédisent les valeurs futures en termes de valeurs précédentes . Lorsque ces valeurs précédentes restent dans les plages des valeurs précédentes, le modèle neffectue aucune extrapolation! Il peut y avoir une résolution du paradoxe apparent.
- xkcd.com/605
- Je ‘ je suis déçu du temps quil a fallu pour que le xkcd obligatoire apparaisse
Réponse
Un modèle de régression est souvent utilisé pour lextrapolation, cest-à-dire pour prédire la réponse à une entrée qui se situe en dehors de la plage des valeurs de la variable prédictive utilisée pour ajuster le modèle. Le danger associé à lextrapolation est illustré dans la figure suivante.
true » la valeur diminue
Le modèle de régression est « par construction » un modèle dinterpolation, et ne doit pas être utilisé pour lextrapolation, à moins que ce soit correctement justifié.
Commentaires
- Ceci est un exemple terrible contre l’extrapolation. La droite de régression correspond bien mieux aux points de données que votre fonction vraie sinueuse.
- » La droite de régression droite correspond bien mieux aux points de données que votre fonction vraie sinueuse » Cette déclaration est fausse. Le RSS pour la vraie fonction de régression est plus petit que RSS pour la simple ligne de régression,
- Point pris et vous pouvez (devriez) avoir raison. Mais à en juger par le lot de points, il ny a aucun moyen de déduire la vraie fonction.
- Exactement. Et cest pourquoi lextrapolation peut être une mauvaise idée.
- » Le modèle de régression est « par construction » un modèle dinterpolation » – > Je suppose que nous pouvons avoir exactement le même problème dinterpolation (même si ‘ est moins susceptible de se produire)
Réponse
Cette bande dessinée xkcd lexplique tous.
En utilisant les points de données que Cueball (lhomme avec le bâton) a, il a extrapolé que la femme en aura » quatre douzaines « maris dici la fin du mois prochain, et a utilisé cette extrapolation pour aboutir à la conclusion dacheter le gâteau de mariage en vrac.
Édition 3: Pour ceux dentre vous qui disent « il na » pas assez de points de données « , il re « s une autre bande dessinée xkcd :
Ici, lutilisation du Le mot «durable» au fil du temps est affiché sur un graphique semi-log, et en extrapolant les points de données, nous recevons une estimation déraisonnable de la fréquence à laquelle le mot «durable» apparaîtra dans le futur.
Edition 2: Pour ceux dentre vous qui disent « vous avez également besoin de tous les points de données passés », encore une autre bande dessinée xkcd: mg src = « https://i.stack.imgur.com/JTTW1.png » alt = « xkcd comic » title = « 2031: Google défend le pivotement microscopes électroniques à balayage montés sur le toit de ses voitures Street View, indiquant quils ‘ don ‘ t révéler quoi que ce soit qui ne pourrait ‘ aucun piéton ne peut scanner votre maison avec un microscope électronique. »>
Ici, nous avons tous les points de données passés, mais nous ne parvenons pas à prédire avec précision la résolution de Google Earth. Notez quil sagit également dun graphe semi-log.
Edit: Parfois, même le plus fort des (r = .9979 dans ce cas) les corrélations sont tout simplement fausses.
Si vous extrapolez sans autre preuve à lappui, vous enfreignez également la corrélation nimplique pas de causalité ; un autre grand péché dans le monde des statistiques.
Si vous extrapolez X avec Y, vous devez cependant vous assurer que vous pouvez avec précision (assez pour satisfaire vos besoins) prédire X avec uniquement Y. Presque toujours, il y a plusieurs facteurs que limpact X.
I souhaite partager un lien vers une autre réponse qui lexplique dans les mots de Nassim Nicholas Taleb.
Commentaires
- xkcd a une blague sur tous les problèmes de mathématiques / statistiques que lon peut rencontrer, nest-ce pas ‘?
- Cette idée pourrait tout aussi bien être utilisée comme argument contre linterpolation: » hier soir, vous aviez 0,5 mari « .
- @JiK Si tout ce que vous savez, cest quelle en a un maintenant, et il y a deux jours elle nen avait pas, ce nest pas une mauvaise estimation 😉
- Durable durable Durable durable durable durable Durable durable. en.wikipedia.org/wiki/…
- plus de xkcd, des gens!
Réponse
» La prédiction est très difficile, surtout si elle » s à propos du futur « . La citation est attribuée à de nombreuses personnes sous une forme ou une autre . Je limite dans ce qui suit » extrapolation » à » prédiction en dehors de la plage connue « , et dans un contexte unidimensionnel, extrapolation dun passé connu à un avenir inconnu.
Alors, quest-ce qui ne va pas avec lextrapolation? Dabord, il nest pas facile de modéliser le passé . Deuxièmement, il est difficile de savoir si un modèle du passé peut être utilisé pour le futur . Derrière les deux affirmations se cachent des questions profondes sur la causalité ou ergodicité , suffisance de variables explicatives, etc. qui dépendent tout à fait de la casse. Ce qui ne va pas, cest quil est difficile de choisir un schéma dextrapolation unique qui fonctionne correctement dans différents contextes, sans beaucoup dinformations supplémentaires.
Cette discordance générique est clairement illustrée dans le Jeu de données du quatuor Anscombe illustré ci-dessous. La régression linéaire est aussi (en dehors de la plage de coordonnées $ x $ ) une instance dextrapolation. La même ligne régresse quatre ensembles de points, avec les mêmes statistiques standard. Cependant, les modèles sous-jacents sont assez différents: le premier est assez standard. Le second est une erreur de modèle paramétrique (un polynôme du deuxième ou du troisième degré pourrait être mieux adapté), le troisième montre un ajustement parfait sauf pour une valeur (aberrante?), Le quatrième un manque de relations lisses (hystérésis?).
Cependant, les prévisions peuvent être rectifiées dans une certaine mesure . En plus dautres réponses, quelques ingrédients peuvent aider à une extrapolation pratique:
- Vous pouvez pondérer les échantillons en fonction de leur distance (index $ n $ ) à lemplacement $ p $ où vous voulez extrapoler. Par exemple, utilisez une fonction croissante $ f_p (n) $ (avec $ p \ ge n $ ) , comme la pondération ou lissage exponentiel , ou des fenêtres glissantes déchantillons, pour donner moins dimportance aux anciennes valeurs.
- Vous pouvez utiliser plusieurs modèles dextrapolation et les combiner ou sélectionner le meilleur ( Combiner les prévisions , J. Scott Armstrong, 2001).Récemment, il y a eu un certain nombre de travaux sur leur combinaison optimale (je peux fournir des références si besoin).
Récemment, jai été impliqué dans un projet dextrapolation de valeurs pour la communication de la simulation sous-systèmes dans un environnement en temps réel. Le dogme dans ce domaine était que lextrapolation peut provoquer une instabilité. Nous avons en fait réalisé que combiner les deux ingrédients ci-dessus était très efficace, sans instabilité notable (sans preuve formelle pour le moment: CHOPtrey: extrapolation polynomiale contextuelle en ligne pour une co-simulation multicœur améliorée de systèmes complexes , Simulation, 2017). Et lextrapolation a fonctionné avec des polynômes simples, avec une charge de calcul très faible, la plupart des opérations étant calculées à lavance et stockées dans des tables de recherche.
Enfin, comme lextrapolation suggère des dessins amusants, ce qui suit est larrière effet de la régression linéaire:
Commentaires
- +1 Bonne réponse. Daprès ce site Web , il semble peu probable que Bohr lait dit. Il semble quil sagisse dun proverbe danois peu courant mais générique.
- @ usεr11852 Il est peu probable quil » ait jamais dit que « ? Cest pourquoi jai dit » attribué « , devrais-je être plus prudent?
- Je nai jamais dit le jamais partie. Jai fait ce commentaire car étant donné que le dicton semble beaucoup plus susceptible dêtre un proverbe danois, lattribuer à un Danois en particulier (extrêmement emblématique) semble un peu surfacturer – dautant plus quil ny a aucune trace de Bohr le disant. Lauteur original pourrait être un pêcheur anonyme commentant la capture de demain ‘! Jencourage le petit gars ici! : D
- Il est également très difficile de modéliser les anciennes légendes des citations.
- La question utilise certainement les deux mots: le point entier est de savoir si » la prévision » doit être considérée comme une forme dextrapolation « . » Selon votre introduction commentaires, vous semblez définir l’extrapolation comme l’utilisation du passé pour » modéliser l’avenir. » Jusquà ce que vous proposiez des définitions claires et distinctes de chacun, votre réponse pourrait être mal comprise.
Réponse
Bien que lajustement dun modèle puisse être « bon « , lextrapolation au-delà de la plage des données doit être traitée avec scepticisme. La raison en est que dans de nombreux cas lextrapolation (malheureusement et inévitablement) repose sur des hypothèses non testables sur le comportement des données au-delà de leur support observé.
Lors de lextrapolation, il faut faire deux appels au jugement: Premièrement, dun point de vue quantitatif , quelle est la validité du modèle en dehors de la plage des données? Deuxièmement, dun point de vue qualitatif, dans quelle mesure un point $ x_ {out} $ situé en dehors de la plage déchantillonnage observée est-il plausible pour faire partie de la population que nous supposons pour léchantillon? Parce que les deux questions impliquent un certain degré dambiguïté, lextrapolation est également considérée comme une technique ambiguë. Si vous avez des raisons daccepter que ces hypothèses sont valables, alors lextrapolation est généralement une procédure inférentielle valide.
Une mise en garde supplémentaire est que de nombreuses techniques destimation non paramétriques ne permettent pas dextrapolation de manière native. Ce problème est particulièrement perceptible dans le cas du lissage de spline où il ny a plus de nœuds pour ancrer la spline ajustée.
Permettez-moi de souligner que lextrapolation est loin dêtre un mal. Par exemple, les méthodes numériques largement utilisées dans les statistiques (par exemple Processus delta-carré dAitken « et Richardson » s Extrapolation ) sont essentiellement des schémas dextrapolation basés sur lidée que le comportement sous-jacent de la fonction analysée pour les données observées reste stable à travers le support de la fonction.
Commentaires
- Bien quil soit possible décrire des sauvegardes pour Wynn $ \ varepsilon $ (la généralisation utile en calcul dAitken $ \ Delta ^ 2 $) et lextrapolation de Richardson, il peut arriver que les hypothèses sous-jacentes à ces Les algorithmes ne sont pas très bien satisfaits par les séquences qui leur sont transmises. Lorsquils utilisent ces méthodes dextrapolation avec des séquences de provenance incertaine, les personnes suffisamment paranoïdes auront généralement deux ou plusieurs de ces méthodes daccélération de la convergence à portée de main pour les tests, et ne feront confiance aux résultats au moins deux de ces méthodes conceptuellement très différentes sont daccord e dans leurs résultats.
Réponse
Contrairement à d’autres réponses, je dirais qu’il n’y a rien de mal avec extrapolation dans la mesure où il nest pas utilisé de manière irréfléchie.Tout dabord, notez que lextrapolation est :
le processus destimation, au-delà de loriginal plage dobservation, la valeur dune variable sur la base de sa relation avec une autre variable.
… donc cest très terme général et de nombreuses méthodes différentes allant de la simple extrapolation linéaire à la régression linéaire, la régression polynomiale ou même certaines méthodes avancées de prévision de séries chronologiques correspondent à cette définition. En fait, extrapolation, prédiction et prévision sont étroitement liés. Dans les statistiques, nous souvent établissons prédictions et prévisions . Cest également ce que dit le lien auquel vous faites référence:
Dès le premier jour des statistiques, on nous apprend que lextrapolation est un grand non-non, mais cest exactement ce que sont les prévisions.
De nombreuses méthodes dextrapolation sont utilisés pour faire des prédictions.De plus, certaines méthodes simples fonctionnent assez bien avec de petits échantillons, donc peuvent être préférées puis les plus compliqués. Le problème est, comme remarqué dans dautres réponses, lorsque vous nutilisez pas correctement la méthode dextrapolation.
Par exemple, de nombreuses études montrent que lâge dinitiation sexuelle diminue avec le temps dans les pays occidentaux. Jetez un œil à un graphique ci-dessous sur lâge du premier rapport sexuel aux États-Unis. Si nous utilisions aveuglément la régression linéaire pour prédire lâge du premier rapport sexuel, nous prédirions quil passera en dessous de zéro à un certain nombre dannées (en conséquence, le premier mariage et la première naissance se produisant quelque temps après le décès) … Cependant, si vous deviez faire prévision à un an, alors je suppose que la régression linéaire conduirait à des prédictions à court terme assez précises pour la tendance.
(source guttmacher.org )
Un autre excellent exemple provient dun domaine complètement différent, car il sagit de » extrapoler » pour le test effectué par Microsoft Excel, comme indiqué ci-dessous (Je ne sais pas si cela est déjà corrigé ou non). Je ne connais pas lauteur de cette image, elle provient de Giphy .
Tous les modèles sont faux , extrapolation est également faux, car il ne vous permettrait pas de faire des prédictions précises. Comme dautres outils mathématiques / statistiques, il vous permettra de faire des prédictions approximatives . Létendue de leur précision dépend de la qualité des données dont vous disposez, de lutilisation de méthodes adaptées à votre problème, des hypothèses que vous avez faites lors de la définition de votre modèle et de nombreux autres facteurs. Mais cela ne signifie pas que nous ne pouvons pas utiliser de telles méthodes. Nous pouvons, mais nous devons nous souvenir de leurs limites et devons évaluer leur qualité pour un problème donné.
Commentaires
- Lorsque les données que vous utilisez pour la régression se terminent au début des années 1980, vous pouvez probablement facilement tester combien de temps au-delà de cette date, lextrapolation fonctionnerait.
- @gerrit Je suis daccord, mais malheureusement, je nai pas ‘ trouver les données appropriées. Mais si quelquun pouvait me le signaler, alors je ‘ serais heureux de mettre à jour ma réponse pour une telle comparaison.
- Dans ce cas, lextrapolation échoue, étant donné que lâge du premier rapport sexuel a bondi au cours des dernières années. (Mais les données pour cela retardent toujours lannée de naissance de quelques décennies, pour des raisons qui devraient être évidentes.)
Réponse
Jaime assez lexemple de Nassim Taleb (qui était une adaptation dun exemple précédent de Bertrand Russell):
Considérons une dinde qui est nourris tous les jours. Chaque repas raffermira la conviction de loiseau que cest la règle générale de la vie dêtre nourri chaque jour par des membres sympathiques de la race humaine « soucieux de ses meilleurs intérêts », comme dirait un politicien. le mercredi avant Thanksgiving, quelque chose dinattendu arrivera à la dinde. Cela entraînera une révision de la croyance.
Quelques analogues mathématiques sont les suivants:
-
la connaissance des quelques premiers coefficients de Taylor dune fonction ne garantit pas toujours que les coefficients suivants suivront votre modèle présumé.
-
connaissance de les conditions initiales dune équation différentielle ne garantissent pas toujours la connaissance de son comportement asymptotique (par exemple les équations de Lorenz, parfois déformées en ce que lon appelle « leffet papillon »)
Voici un joli fil de discussion MO à ce sujet.
Commentaires
- … et bien sûr, Taleb doit souligner la leçon de morale: » don ‘ t être une dinde « ! Dans ce contexte: don ‘ t être un extrapolateur imprudent et ne ‘ succomber au péché de lorgueil.
- @ uoɥʇʎPʎzɐɹC, je nétais pas ‘ je ne lai pas demandé, mais merci!
- don ‘ t vraiment une utilisation pour une réputation croisée – et personne na vu votre réponse et cétait vraiment bien. Amusez-vous bien!
Réponse
Réfléchissez à lhistoire suivante, si vous voulez.
I souvenez-vous également davoir suivi un cours de statistique, et le professeur nous a dit que lextrapolation était une mauvaise idée. Puis au cours du cours suivant, il nous a dit que cétait encore une mauvaise idée; en fait, il la dit deux fois.
Jétais malade pour le reste du semestre, mais jétais certain de ne pas avoir manqué beaucoup de matériel, car la semaine dernière, le gars devait sûrement avoir Je nai fait que répéter aux gens à quel point lextrapolation était une mauvaise idée.
Curieusement, je nai pas obtenu de très bons résultats à lexamen.
Commentaires
- La question demande » quel est le problème avec lextrapolation? « . Nous recherchons des réponses qui expliquent pourquoi lextrapolation pourrait être une mauvaise idée.
- @RobertLong: ‘ est en fait une sorte de méta / blague, et assez similaire à xkcd.com/605 – peut-être encore mieux comme commentaire que comme réponse.
- @NeilSlater: Vous auriez dû publier votre commentaire comme réponse … 🙂
- @RobertLong: Cest ce genre de réponse. Il a simplement la forme dune parabole.
- Il nest pas clair que votre modèle soit exponentiel.
Réponse
La question nest pas seulement statistique, cest aussi épistémologique. Lextrapolation est lune des façons dont nous apprenons la nature, cest « une forme dinduction . Disons que nous avons des données sur la conductivité électrique dun matériau dans une plage de températures de 0 à 20 Celsius, que pouvons-nous dire de la conductivité à 40 degrés Celsius?
Cest étroitement lié à petit inférence déchantillons: que dire de lensemble de la population à partir de mesures effectuées sur un petit échantillon? Cela a été lancé par Gosset en tant que Guiness , qui a proposé des distributions t Student. Avant lui, les statisticiens ne se donnaient pas la peine de penser à de petits échantillons en supposant que la taille de léchantillon peut toujours être grande. Il était à Guinnes et devait soccuper déchantillons de bière pour décider quoi faire avec tout le lot de bière à expédier.
Ainsi, dans la pratique (affaires), lingénierie et la science, nous devons toujours extrapoler dune certaine manière. Il peut sagir dextrapoler de petits échantillons à un plus grand, ou dune gamme limitée de conditions dentrée à un ensemble plus large de conditions, allant de ce qui se passe dans laccélérateur à ce qui est arrivé à un trou noir à des milliards de kilomètres, etc. Cest particulièrement important en science, car nous apprenons vraiment en étudiant les écarts entre nos estimations dextrapolation et les mesures réelles. Souvent, nous trouvons de nouvelles des phénomènes lorsque les écarts sont importants ou cohérents.
par conséquent, je dis quil ny a pas de problème dextrapolation. Cest quelque chose que nous devons faire tous les jours. Cest juste difficile.
Réponse
Lextrapolation en elle-même nest pas forcément maléfique, mais cest un processus qui se prête à conclusions qui sont plus déraisonnables que celles auxquelles vous parvenez avec linterpolation.
- Lextrapolation est souvent effectuée pour explorer des valeurs assez éloignées de la région échantillonnée. Si jéchantillonne 100 valeurs de 0 à 10, puis extrapole juste un peu, simplement à 11, mon nouveau point est probablement 10 fois plus éloigné de tout point de données que nimporte quelle interpolation. Cela signifie quil y a « s beaucoup plus despace pour quune variable devienne incontrôlable (qualitativement). Notez que je nai choisi intentionnellement quune extrapolation mineure. Cela peut être bien pire
- Lextrapolation doit être effectuée avec des ajustements de courbe destinés à faire de lextrapolation. Par exemple, de nombreux ajustements polynomiaux sont très pauvres pour lextrapolation car les termes qui se comportent bien sur la plage échantillonnée peuvent exploser une fois que vous la quittez. Une bonne extrapolation dépend dune «bonne estimation» de ce qui se passe en dehors de la région échantillonnée. Ce qui mamène à …
- Il est souvent extrêmement difficile dutiliser lextrapolation en raison de la présence de transitions de phase. De nombreux procédés sur lesquels on peut souhaiter extrapoler ont des propriétés décidément non linéaires qui ne sont pas suffisamment exposées sur la région échantillonnée. Laéronautique autour de la vitesse du son en est un excellent exemple. De nombreuses extrapolations à partir de vitesses inférieures seffondrent lorsque vous atteignez et dépassez la vitesse de transfert dinformations dans lair.Cela se produit aussi assez souvent avec les sciences douces, où la politique elle-même peut avoir un impact sur le succès de la politique. Léconomie keynésienne a extrapolé la façon dont léconomie se comporterait avec différents niveaux dinflation et a prédit le meilleur résultat possible. Malheureusement, il y a eu des effets de second ordre et le résultat na pas été la prospérité économique, mais plutôt certains des taux dinflation les plus élevés que les États-Unis ont connus.
- Les gens aiment les extrapolations. Dune manière générale, les gens veulent vraiment que quelquun scrute une boule de cristal et leur dise lavenir. Ils accepteront des extrapolations étonnamment mauvaises simplement parce que ce sont toutes les informations dont ils disposent. Cela ne rend peut-être pas lextrapolation en soi mauvaise, mais cest certainement quelque chose dont il faut tenir compte lors de son utilisation.
our le summum de lextrapolation, considérez le projet Manhattan. Les physiciens là-bas ont été obligés de travailler avec des tests à très petite échelle avant de construire la vraie chose. Ils navaient tout simplement pas assez duranium pour gaspiller sur des tests. Ils ont fait de leur mieux et ils étaient intelligents. Cependant, lorsque le test final a eu lieu, il a été décidé que chaque scientifique déciderait à quelle distance de lexplosion il voulait se trouver quand elle sest déclenchée. Il y avait des divergences substantielles d’opinion quant à la distance qui était «sûre» parce que tous les scientifiques savaient qu’ils extrapolaient assez loin de leurs tests. Il y avait même une considération non négligeable quils pourraient mettre le feu à latmosphère avec la bombe nucléaire, un problème également mis au repos avec une extrapolation substantielle!
Réponse
Beaucoup de bonnes réponses ici, je veux juste essayer de synthétiser ce que je considère comme le cœur du problème: il est dangereux dextrapoler au-delà de ce processus de génération de données qui a donné lieu à léchantillon destimation. Ceci est parfois appelé un «changement structurel».
Les prévisions saccompagnent dhypothèses, la principale étant que le processus de génération de données est (aussi proche quil ne fait aucune différence significative) le même que celui qui a généré léchantillon (sauf pour les variables rhs, dont vous explicitement pris en compte dans le modèle). Si un changement structurel se produit (par exemple, Thanksgiving dans lexemple de Taleb), tous les paris sont ouverts.