Recuerdo haber asistido a cursos de estadísticas cuando era un estudiante universitario y escuché por qué la extrapolación era una mala idea. Además, hay una variedad de fuentes en línea que comentan esto. También se menciona aquí .

¿Alguien puede ayudarme a entender por qué la extrapolación es una mala idea? Si lo es, ¿cómo ¿Es que las técnicas de pronóstico no son estadísticamente inválidas?

Comentarios

  • @Firebug Mark Twain tenía algo que decir al respecto. El pasaje relevante se cita cerca del final de mi respuesta en stats.stackexchange.com/a/24649/919 .
  • @whuber I Supongo que no es ‘ t exactamente una extrapolación pensando en ello ahora. Digamos, entrenamos y validamos adecuadamente un algoritmo para predecir datos una semana después de la función. Haciendo el remuestreo correcto (y sintonizando, si hay hiperparámetros para ser ajustados), entonces puedo ‘ t ver qué ‘ está mal si eso, tiene una respuesta y también debe conocer la confianza de esa respuesta. Ahora, si entrena su algoritmo de una semana a otra, no puede ‘ esperar predecir con precisión un año en el futuro. Perdón por la posible confusión.
  • @Firebug No es necesario que se disculpe: sus comentarios contienen información útil y aclaratoria. Mientras los leo, sugieren que » extrapolar » puede tener múltiples interpretaciones en una configuración de pronóstico. Una es que implica una » extrapolación » de tiempo. Pero cuando observa los modelos estándar de series de tiempo, especialmente aquellos en los que el tiempo no es una covariable explícita , predicen valores futuros en términos de valores anteriores . Cuando esos valores anteriores permanecen dentro de los rangos de los valores anteriores anteriores, ¡el modelo no realiza ninguna extrapolación! Puede haber una resolución de la aparente paradoja.
  • xkcd.com/605
  • Me ‘ me decepciona el tiempo que tardó en aparecer el xkcd obligatorio

Respuesta

Un modelo de regresión se usa a menudo para extrapolar, es decir, predecir la respuesta a una entrada que se encuentra fuera de el rango de los valores de la variable predictora utilizada para ajustar el modelo. El peligro asociado con la extrapolación se ilustra en la siguiente figura. gráfico que muestra una línea extrapolada que continúa hacia arriba donde

true » el valor disminuye

El modelo de regresión es «por construcción» un modelo de interpolación, y no debe usarse para extrapolación, a menos que esto sea correcto justificado.

Comentarios

  • Este es un ejemplo terrible contra la extrapolación. La línea de regresión recta se ajusta a los puntos de datos mucho mejor que su función verdadera con curvas.
  • » La línea de regresión recta se ajusta a los puntos de datos mucho mejor que su función verdadera con curvas » Esta declaración es falsa. El RSS para la función de regresión verdadera es más pequeño que el RSS para la línea de regresión simple,
  • Punto tomado y puede (debería) tener razón. Pero a juzgar por el conjunto de puntos, no hay forma de que se pueda inferir la función verdadera.
  • Exactamente. Y esta es la razón por la que la extrapolación puede ser una mala idea.
  • » El modelo de regresión es «por construcción» un modelo de interpolación » – > Supongo que podemos tener exactamente el mismo problema con la interpolación (incluso si ‘ es menos probable que suceda)

Respuesta

Este cómic xkcd lo explica todos.

mg src = «https://i.stack.imgur.com/4QwTj.png» alt = «xkcd comic» title = «Por el tercer trimestre, habrá cientos de bebés dentro de ti «.>

Usando los puntos de datos que tiene Cueball (el hombre con el bastón), ha extrapolado que la mujer tendrá» cuatro docenas «maridos a finales del próximo mes, y usó esta extrapolación para llevar a la conclusión de comprar el pastel de bodas al por mayor.

Edición 3: Para aquellos de ustedes que dicen «no tiene suficientes puntos de datos», re «s otro cómic xkcd :

mg src =» https://i.stack.imgur.com/7oDyK.png «alt =» xkcd comic «title =» Aunque 100 años es más que muchos de nuestros recursos. «>

Aquí, el uso del La palabra «sostenible» a lo largo del tiempo se muestra en una gráfica semilogarítmica y, extrapolando los puntos de datos, recibimos estimaciones poco razonables de la frecuencia con la que aparecerá la palabra «sostenible» en el futuro.

Edición 2: Para aquellos de ustedes que dicen «también necesitan todos los puntos de datos pasados», otro cómic xkcd más: mg src = «https://i.stack.imgur.com/JTTW1.png» alt = «xkcd comic» title = «2031: Google defiende el giro microscopios electrónicos de barrido montados en el techo de sus coches de Street View, diciendo que ‘ no ‘ no revelan nada que no ‘ no ser visto por ningún peatón que escanee su casa con un microscopio electrónico.»>

Aquí, tenemos todos los puntos de datos anteriores, pero no podemos predecir con precisión la resolución de Google Earth. Tenga en cuenta que este también es un gráfico semilogarítmico.

Editar: A veces, incluso el más fuerte de (r = .9979 en este caso) las correlaciones son simplemente incorrectas.


Si extrapola sin otra evidencia de respaldo, también violar correlación no implica causalidad ; otro gran pecado en el mundo de las estadísticas.

Sin embargo, si extrapola X con Y, debe asegurarse de poder con precisión (suficiente para satisfacer sus requisitos) predice X con solo Y. Casi siempre, hay varios factores además del impacto X.

I quisiera compartir un enlace a otra respuesta que lo explique en las palabras de Nassim Nicholas Taleb.

Comentarios

  • xkcd tiene una broma sobre cada posible problema matemático / estadístico que uno pueda encontrar, ¿no ‘ no?
  • Esta idea también podría usarse como un argumento contra la interpolación: » anoche tuviste 0.5 maridos «.
  • @JiK Si todo lo que sabes es que ella tiene uno ahora, y hace dos días no tenía ninguno, esa no es una mala estimación 😉
  • Sostenible sostenible Sostenible sostenible sostenible sostenible Sostenible sostenible. en.wikipedia.org/wiki/…
  • más xkcd, gente!

Responder

» La predicción es muy difícil, especialmente si » s sobre el futuro «. La cita se atribuye a muchas personas de alguna forma . Restringo lo siguiente » extrapolación » a » predicción fuera del rango conocido «, y en un entorno unidimensional, la extrapolación de un pasado conocido a un futuro desconocido.

Entonces, ¿qué hay de malo en la extrapolación? Primero, no es fácil modelar el pasado . En segundo lugar, es difícil saber si se puede utilizar un modelo del pasado para el futuro . Detrás de ambas afirmaciones hay preguntas profundas sobre la causalidad o ergodicidad , suficiencia de variables explicativas, etc. que dependen bastante de los casos. Lo que está mal es que es difícil elegir un esquema de extrapolación único que funcione bien en diferentes contextos, sin mucha información adicional.

Esta discrepancia genérica se ilustra claramente en el Conjunto de datos del cuarteto de Anscombe que se muestra a continuación. La regresión lineal también es (fuera del rango de coordenadas $ x $ ) una instancia de extrapolación. La misma línea hace una regresión de cuatro conjuntos de puntos, con las mismas estadísticas estándar. Sin embargo, los modelos subyacentes son bastante diferentes: el primero es bastante estándar. El segundo es un error de modelo paramétrico (un polinomio de segundo o tercer grado podría ser más adecuado), el tercero muestra un ajuste perfecto excepto por un valor (¿valor atípico?), El cuarto una falta de relaciones suaves (histéresis?).

Cuarteto de Anscombe

Sin embargo, la previsión se puede rectificar hasta cierto punto . Agregando a otras respuestas, un par de ingredientes pueden ayudar a la extrapolación práctica:

  1. Puede ponderar las muestras según su distancia (índice $ n $ ) a la ubicación $ p $ donde desee extrapolar. Por ejemplo, use una función creciente $ f_p (n) $ (con $ p \ ge n $ ) , como ponderación o suavizado exponencial , o ventanas deslizantes de muestras, para dar menos importancia a los valores más antiguos.
  2. Puede utilizar varios modelos de extrapolación y combinarlos o seleccionar el mejor ( Combinar pronósticos , J. Scott Armstrong, 2001).Recientemente, ha habido una serie de trabajos sobre su combinación óptima (puedo proporcionar referencias si es necesario).

Recientemente, he estado involucrado en un proyecto para extrapolar valores para la comunicación de simulación. subsistemas en un entorno de tiempo real. El dogma en este dominio era que la extrapolación puede causar inestabilidad. De hecho, nos dimos cuenta de que combinar los dos ingredientes anteriores era muy eficiente, sin una inestabilidad notable (sin una prueba formal todavía: CHOPtrey: extrapolación polinomial contextual en línea para una co-simulación multinúcleo mejorada de sistemas complejos , Simulación, 2017). Y la extrapolación funcionó con polinomios simples, con una carga computacional muy baja, la mayoría de las operaciones se calculan de antemano y se almacenan en tablas de consulta.

Finalmente, como la extrapolación sugiere dibujos divertidos, lo siguiente es el reverso efecto de la regresión lineal:

Diversión con amor y regresión lineal

Comentarios

  • +1 Buena respuesta. Según este sitio web , parece poco probable que Bohr lo haya dicho. Parece más probable que sea un proverbio danés poco común pero genérico.
  • @ usεr11852 Es poco probable que » haya dicho alguna vez que «? Por eso dije » atribuido «, ¿debería ser más cauteloso?
  • Nunca dije el alguna vez parte. Hice este comentario porque, dado que el dicho parece mucho más probable que sea un proverbio danés, atribuirlo a un danés en particular (extremadamente emblemático) parece un poco sobrevalorado, especialmente dado que no hay registros de que Bohr lo diga. ¡El autor original podría ser un pescador sin nombre que comenta la captura de ‘ de mañana! ¡Estoy apoyando al pequeño aquí! : D
  • También es muy difícil modelar leyendas de citas pasadas.
  • Ciertamente, la pregunta usa ambas palabras: el punto es si » La previsión » debe considerarse una forma de » extrapolación. » De acuerdo con su introducción comentarios, parece que define la extrapolación como el uso del pasado para » modelar el futuro. » Hasta que ofrezca definiciones claras y distintas de cada uno, su respuesta podría malinterpretarse.

Respuesta

Aunque el ajuste de un modelo puede ser « bueno «, la extrapolación más allá del rango de los datos debe tratarse con escepticismo. La razón es que en muchos casos la extrapolación (desafortunadamente e inevitablemente) se basa en suposiciones no comprobables sobre el comportamiento de los datos más allá de su soporte observado.

Al extrapolar uno debe hacer dos juicios: Primero, desde una perspectiva cuantitativa , ¿qué validez tiene el modelo fuera del rango de los datos? En segundo lugar, desde una perspectiva cualitativa, ¿cuán plausible es un punto $ x_ {out} $ que se encuentra fuera del rango muestral observado para ser un miembro de la población que asumimos para la muestra? Debido a que ambas preguntas conllevan un cierto grado de ambigüedad, la extrapolación también se considera una técnica ambigua. Si tiene razones para aceptar que estos supuestos son válidos, la extrapolación suele ser un procedimiento inferencial válido.

Una advertencia adicional es que muchas técnicas de estimación no paramétricas no permiten la extrapolación de forma nativa. Este problema es particularmente notable en el caso del suavizado de splines donde no hay más nudos para anclar el spline ajustado.

Permítanme enfatizar que la extrapolación está lejos de ser mala. Por ejemplo, métodos numéricos ampliamente utilizados en estadística (por ejemplo, proceso delta-cuadrado de Aitken y Richardson » s Extrapolación ) son esencialmente esquemas de extrapolación basados en la idea de que el comportamiento subyacente de la función analizada para los datos observados permanece estable en el soporte de la función.

Comentarios

  • Aunque es posible escribir salvaguardas para Wynn $ \ varepsilon $ (la generalización computacionalmente útil de Aitken $ \ Delta ^ 2 $) y la extrapolación de Richardson, puede suceder que los supuestos subyacentes a estos Los algoritmos no están muy satisfechos con las secuencias que se le suministran. Cuando se utilizan estos métodos de extrapolación con secuencias de procedencia incierta, los suficientemente paranoicos suelen tener dos o más de estos métodos de aceleración de convergencia a mano para realizar pruebas, y solo confiarán en los resultados si no al menos dos de estos métodos conceptualmente muy diferentes coinciden e en sus resultados.

Respuesta

Al contrario de otras respuestas, yo diría que no hay nada de malo con extrapolación en la medida en que no se utilice de forma inconsciente.Primero, observe que extrapolación es :

el proceso de estimación, más allá del original. rango de observación, el valor de una variable sobre la base de su relación con otra variable.

… entonces es «muy muy término amplio y muchos métodos diferentes que van desde la simple extrapolación lineal , hasta la regresión lineal, la regresión polinomial o incluso algunos métodos avanzados de predicción de series de tiempo que se ajustan a dicha definición. De hecho, extrapolación, predicción y pronóstico están estrechamente relacionados. En las estadísticas a menudo hacemos predicciones y pronósticos . Esto también es lo que dice el enlace al que hace referencia:

Desde el día 1 de las estadísticas se nos enseña que la extrapolación es un gran no, pero eso es exactamente lo que es la previsión.

Muchos métodos de extrapolación se utilizan para hacer predicciones; además, a menudo, algunos métodos simples funcionan bastante bien con muestras pequeñas, por lo que pueden ser preferibles luego los complicados. El problema es, como se notó en otras respuestas, cuando se usa el método de extrapolación de manera incorrecta.

Por ejemplo, muchos estudios muestran que la edad de iniciación sexual disminuye con el tiempo en los países occidentales. Eche un vistazo a un gráfico a continuación sobre la edad de la primera relación sexual en los EE. UU. Si usáramos ciegamente la regresión lineal para predecir la edad de la primera relación sexual, predeciríamos que bajaría de cero en algunos años (de acuerdo con el primer matrimonio y el primer nacimiento ocurriendo en algún momento después de la muerte) … Sin embargo, si necesitara hacer pronóstico con un año de anticipación, entonces supongo que la regresión lineal conduciría a predicciones a corto plazo bastante precisas para la tendencia.

ingrese la descripción de la imagen aquí

(fuente guttmacher.org )

Otro gran ejemplo proviene de un dominio completamente diferente, ya que se trata de » extrapolando » para la prueba realizada por Microsoft Excel, como se muestra a continuación (No sé si esto ya está arreglado o no). No conozco al autor de esta imagen, proviene de Giphy .

ingrese la descripción de la imagen aquí

Todos los modelos son incorrectos , extrapolación también está mal, ya que no le permitiría hacer predicciones precisas. Como otras herramientas matemáticas / estadísticas, le permitirá hacer predicciones aproximadas . El grado de precisión de los mismos depende de la calidad de los datos que tenga, utilizando métodos adecuados para su problema, las suposiciones que hizo al definir su modelo y muchos otros factores. Pero esto no significa que no podamos utilizar tales métodos. Podemos, pero debemos recordar sus limitaciones y debemos evaluar su calidad para un problema determinado.

Comentarios

  • Cuando los datos que usa para la regresión terminan a principios de la década de 1980, probablemente pueda probar fácilmente cuánto tiempo después de esa fecha funcionaría la extrapolación.
  • @gerrit Estoy de acuerdo, pero Lamentablemente, no pude ‘ t encontrar los datos adecuados. Pero si alguien pudiera apuntarme, entonces ‘ estaría feliz de actualizar mi respuesta para tal comparación.
  • En este caso, la extrapolación falla, dado que la edad del primer sexo ha aumentado en los últimos años. (Pero los datos para este año de nacimiento siempre se retrasan un par de décadas, por razones que deberían ser obvias).

Respuesta

Me gusta bastante el ejemplo de Nassim Taleb (que fue una adaptación de un ejemplo anterior de Bertrand Russell):

Considere un pavo que es alimentado todos los días. Cada alimentación reafirmará la creencia de las aves de que es la regla general de la vida que los miembros amistosos de la raza humana los alimenten todos los días «velando por sus mejores intereses», como diría un político. el miércoles antes del Día de Acción de Gracias, algo inesperado le sucederá al pavo. Se incurrirá en una revisión de la creencia.

Algunos análogos matemáticos son los siguientes:

  • El conocimiento de los primeros coeficientes de Taylor de una función no siempre garantiza que los siguientes coeficientes seguirán su supuesto patrón.

  • conocimiento de Las condiciones iniciales de una ecuación diferencial no siempre garantizan el conocimiento de su comportamiento asintótico (por ejemplo, las ecuaciones de Lorenz, a veces distorsionadas en el llamado «efecto mariposa»)

Aquí hay un buen hilo de MO sobre el tema.

Comentarios

  • … y por supuesto, Taleb tiene que señalar la lección moral: » don ‘ t ser un pavo «! En este contexto: don ‘ t sea un extrapolador descuidado y no ‘ t sucumbas al pecado de la arrogancia.
  • @ uoɥʇʎPʎzɐɹC, yo no era ‘ No lo estoy pidiendo, ¡pero gracias!
  • No ‘ realmente tengo un uso para la reputación de validación cruzada, y nadie vio su respuesta y fue realmente bueno. ¡Disfruta!

Responder

Reflexiona sobre la siguiente historia, si quieres.

Yo También recuerdo estar en un curso de Estadística, y el profesor nos dijo que la extrapolación era una mala idea. Luego, durante la siguiente clase, volvió a decirnos que era una mala idea; de hecho, lo dijo dos veces.

Estuve enfermo el resto del semestre, pero estaba seguro de que no podía haber perdido mucho material, porque para la última semana el tipo seguramente He estado haciendo nada más que decirle a la gente una y otra vez que la extrapolación era una mala idea.

Curiosamente, no obtuve una puntuación muy alta en el examen.

Comentarios

  • La pregunta pregunta » ¿qué hay de malo en la extrapolación? «. Estamos buscando respuestas que den razones por las que la extrapolación podría ser una mala idea.
  • @RobertLong: Es ‘ en realidad una especie de respuesta de meta / broma, y bastante similar a xkcd.com/605 , aunque quizás sea mejor como comentario que como respuesta.
  • @NeilSlater: Deberías haber publicado su comentario como respuesta … 🙂
  • @RobertLong: Este es ese tipo de respuesta. Simplemente tiene la forma de una parábola.
  • No está claro que su modelo sea exponencial.

Respuesta

La pregunta no es sólo estadística, también es epistemológica. La extrapolación es una de las formas en que aprendemos sobre la naturaleza, es una forma de inducción . Digamos que tenemos datos de conductividad eléctrica de un material en un rango de temperaturas de 0 a 20 grados Celsius, ¿qué podemos decir acerca de la conductividad a 40 grados Celsius?

Está estrechamente relacionado con pequeños inferencia muestral: ¿qué podemos decir sobre toda la población a partir de las mediciones realizadas en una muestra pequeña? Esto fue iniciado por Gosset como Guiness , quien ideó las distribuciones t de Student. Antes que él, los estadísticos no se molestaban en pensar en muestras pequeñas asumiendo que el tamaño de la muestra siempre puede ser grande. Él estaba en Guinnes y tuvo que lidiar con muestras de cerveza para decidir qué hacer con todo el lote de cerveza para enviar.

Entonces, en la práctica (negocios), la ingeniería y la ciencia siempre tenemos que extrapolar de alguna manera. Podría ser extrapolar muestras pequeñas a grandes, o desde un rango limitado de condiciones de entrada a un conjunto más amplio de condiciones, desde lo que está sucediendo en el acelerador a lo que sucedió con un agujero negro a miles de millones de millas de distancia, etc. Sin embargo, es especialmente importante en ciencia, ya que realmente aprendemos al estudiar las discrepancias entre nuestras estimaciones de extrapolación y las medidas reales. A menudo encontramos nuevos Fenómenos cuando las discrepancias son grandes o consistentes.

Por lo tanto, digo que no hay problema con la extrapolación. Es algo que tenemos que hacer todos los días. Es simplemente difícil.

Respuesta

La extrapolación en sí no es necesariamente mala, pero es un proceso que se presta a conclusiones que son menos razonables de lo que se llega con la interpolación.

  • La extrapolación se realiza a menudo para explorar valores bastante lejos de la región muestreada. Si muestro 100 valores de 0 a 10 y luego extrapolo un poco, simplemente a 11, es probable que mi nuevo punto esté 10 veces más lejos de cualquier punto de datos de lo que podría obtener cualquier interpolación. Esto significa que hay tanto más espacio para que una variable se salga de control (cualitativamente). Tenga en cuenta que elegí intencionalmente solo una extrapolación menor. Puede empeorar mucho.
  • La extrapolación se debe realizar con ajustes de curvas que estaban destinados a hacer una extrapolación. Por ejemplo, muchos ajustes polinomiales son muy deficientes para la extrapolación porque los términos que se comportan bien en el rango muestreado pueden explotar una vez que lo deja. Una buena extrapolación depende de una «buena suposición» sobre lo que sucede fuera de la región muestreada. Lo que me lleva a …
  • A menudo es extremadamente difícil utilizar la extrapolación debido a la presencia de transiciones de fase. Muchos procesos sobre los que se puede desear extrapolar tienen propiedades decididamente no lineales que no están suficientemente expuestas en la región muestreada. La aeronáutica en torno a la velocidad del sonido es un excelente ejemplo. Muchas extrapolaciones de velocidades más bajas se desmoronan a medida que alcanza y excede la velocidad de transferencia de información en el aire.Esto también ocurre con bastante frecuencia con las ciencias blandas, donde la política en sí misma puede afectar el éxito de la política. La economía keynesiana extrapoló cómo se comportaría la economía con diferentes niveles de inflación y predijo el mejor resultado posible. Desafortunadamente, hubo efectos de segundo orden y el resultado no fue la prosperidad económica, sino algunas de las tasas de inflación más altas que Estados Unidos ha visto.
  • A la gente le gustan las extrapolaciones. En términos generales, la gente realmente quiere que alguien mire dentro de una bola de cristal y les diga el futuro. Aceptarán extrapolaciones sorprendentemente malas simplemente porque es toda la información que tienen. Es posible que esto no haga que la extrapolación en sí sea mala per se, pero definitivamente es algo que uno debe tener en cuenta al usarla.

Para lo último en extrapolación, considere el Proyecto Manhattan. Los físicos allí se vieron obligados a trabajar con pruebas de escala extremadamente pequeña antes de construir la cosa real. Simplemente no tenían suficiente uranio para desperdiciar en las pruebas. Hicieron lo mejor que pudieron y fueron inteligentes. Sin embargo, cuando ocurrió la prueba final, se decidió que cada científico decidiría qué tan lejos de la explosión querían estar cuando estallara. Había sustanciales diferencias de opinión en cuanto a qué tan lejos era «seguro» porque todos los científicos sabían que estaban extrapolando bastante lejos de sus pruebas. Incluso hubo una consideración no trivial de que podrían incendiar la atmósfera con la bomba nuclear, ¡un problema que también se resuelve con una extrapolación sustancial!

Respuesta

Aquí hay muchas buenas respuestas, solo quiero intentar sintetizar lo que veo como el núcleo del problema: es peligroso extrapolar más allá del proceso de generación de datos que dio lugar a la muestra de estimación. Esto a veces se denomina «cambio estructural».

La previsión viene con suposiciones, la principal es que el proceso de generación de datos es (tan cerca como no hace una diferencia significativa) el mismo que generó la muestra (excepto por las variables rhs, cuyos cambios explicar explícitamente en el modelo). Si ocurre un cambio estructural (es decir, Acción de Gracias en el ejemplo de Taleb), todas las apuestas están canceladas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *