” În esență, toate modelele sunt greșite, dar unele sunt utile. „

— Box, George EP; Norman R. Draper (1987). Construirea modelelor empirice și suprafețele de răspuns, p. 424, Wiley. ISBN 0471810339.

Care este sensul frazei de mai sus?

Comentarii

  • Pe aceeași carte este menționată anterior: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful. Poate că acest lucru este mai util.

Răspuns

Cred că sensul său este cel mai bine analizat, analizându-l în două părți:

„Toate modelele sunt greșite”, adică fiecare model este greșit deoarece este o simplificare a realității. Unele modele, în special în științele „dure”, sunt doar puțin greșite. Ei ignoră lucruri precum fricțiunea sau efectul gravitațional al corpurilor minuscule. Alte modele sunt foarte greșite – ignoră lucrurile mai mari. În științele sociale, ignorăm multe.

„Dar unele sunt utile” – simplificările realității pot fi destul de utile. Ele ne pot ajuta să explicăm, să prezicem și să înțelegem universul și toate componentele sale.

Acest lucru nu este adevărat doar în statistici! Hărțile sunt un tip de model; sunt greșite. Dar hărțile bune sunt foarte utile. Exemple de alte modele utile dar greșite abundă.

Comentarii

  • +1 Pentru că îmi place analogia hărților. ‘ o voi folosi în viitor!
  • Multe modele din ” hard ” științe sunt destul de departe, de asemenea (ieri am participat la un seminar unde măsurători în care modelul era în bara de erori, dar bara de erori era de două ordine de mărime).
  • +1. Cred că propoziția cheie este ” fiecare model este greșit deoarece este o simplificare a realității „. Oamenii uită adesea acest lucru – de exemplu în criticile naive ale economiei (am propriile mele critici, dar trebuie să fie mai sofisticate decât doar ” realitatea este mai complexă decât modelul dvs. „). Dacă nu am fi nu o simplificați, aveți o realitate brută, care este prea complexă pentru ca noi să o înțelegem. Așadar, trebuie să o simplificăm pentru a obține orice perspectivă.
  • Fantezia unei hărți perfecte la o scară 1: 1 a fost folosită de mulți autori, printre care Lewis Carroll, Jorge Luis Borges și Umberto Eco. De fapt, nu ar fi de nici un folos, deoarece ar fi neapărat doar complicat ca zonă pe care o mapează și nu ar fi mai ușor de înțeles (ca să nu mai vorbim de stângacia de a o desfășura și a o expune pentru a citi). adăugați, de asemenea, că un model trebuie să fie un pic greșit, pentru că altfel nu s-ar generaliza și, prin urmare, nu ar fi aplicabil în altă parte. Există câteva răspunsuri care spun asta mai jos. Dar există acum prea multe răspunsuri pentru a le citi pe toate.

Răspuns

Înseamnă că pot fi furnizate informații utile din modele care nu reprezintă o reprezentare perfectă a fenomenelor pe care le modelează.

Un model statistic este o descriere a unui sistem care utilizează concepte matematice. Ca atare, în multe cazuri, adăugați un anumit strat de abstractizare pentru a vă facilita procedura inferențială (de exemplu, normalitatea erorilor de măsurare, simetria compusă în structurile de corelație etc.). Este aproape imposibil ca un singur model să descrie perfect un fenomen din lumea reală, dat fiind că noi înșine avem o viziune subiectivă asupra lumii (sistemul nostru senzorial nu este perfect); totuși, inferența statistică de succes se întâmplă întrucât lumea noastră are un anumit grad de consistență pe care îl exploatăm. Așadar, modelele noastre aproape întotdeauna greșite se dovedesc utile .

(Sunt sigur că veți primi un răspuns îndrăzneț în curând, dar am încercat să fiu concis pe aceasta!)

Comentarii

  • Putem spune că aceste modele utile oferă soluții aproximative?
  • @gpuguy : Sigur că poți. Pentru a-l cita pe John Tukey: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem. (De fapt, citatul JT ‘ este uimitor de perspicace.)
  • ” Mult mai bine un răspuns aproximativ la întrebarea corectă, care este adesea vagă, decât un răspuns exact la întrebarea greșită, care poate fi întotdeauna precisă. ” John W. Tukey 1962 Viitorul analizei datelor. Annals of Mathematical Statistics 33: 1-67 (vezi pp. 13-14) Fără îndoială că a spus lucruri similare în alte momente, dar că ‘ este sursa obișnuită.
  • Am copiat-o pe a mea din publicația originală.

Răspuns

Am găsit asta Discuție JSA 2009 de Thad Tarpey pentru a oferi o explicație utilă și comentarii la pasajul Box.El susține că, dacă considerăm modelele ca aproximări la adevăr, am putea numi la fel de ușor toate modelele corecte.

Iată rezumatul:

Studenții la statistici sunt adesea introduși în faimosul citat al lui George Box: „toate modelele sunt greșite, unele sunt utile”. În această discuție susțin că acest citat, deși util, este greșit. O perspectivă diferită și mai pozitivă este să recunoaștem că un model este pur și simplu un mijloc de extragere a informațiilor de interes din date. Adevărul este infinit de complex și un model este doar o aproximare la adevăr. Dacă aproximarea este slabă sau înșelătoare, atunci modelul este inutil. În această discuție dau exemple de modele corecte care nu sunt modele adevărate. Ilustrez modul în care noțiunea de model „greșit” poate duce la concluzii greșite.

Răspuns

Deoarece nimeni nu l-a adăugat, George Box a folosit faza citată pentru a introduce următoarea secțiune într-o carte. Cred că face cea mai bună treabă de a explica ce a vrut să spună:

Acum ar fi foarte remarcabil dacă vreun sistem existent în lumea reală ar putea fi exact reprezentat de orice model simplu. Cu toate acestea, modelele parcimonioase alese cu viclenie oferă adesea aproximări extrem de utile. De exemplu, legea $ PV = RT $ referitoare la presiunea $ P $ , volumul $ V $ și temperatura $ T $ a unui ” ideal ” gazul printr-o constantă $ R $ nu este exact adevărat pentru niciun gaz real, dar oferă frecvent o aproximare utilă și, în plus, structura sa este informativ, deoarece provine dintr-o viziune fizică a comportamentului moleculelor de gaz.

Pentru un astfel de model nu este necesar să puneți întrebarea ” Este adevărat modelul ? „. Dacă ” adevărul ” trebuie să fie ” întregul adevăr ” răspunsul trebuie să fie ” Nu „. Singura întrebare de interes este ” Este modelul iluminator și util? „.

Box, GEP (1979 ), ” Robustețe în strategia de construire a modelului științific „, în Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, pp. 201–236.

Răspuns

Pentru mine insight-ul real constă în următorul aspect:

Un model nu trebuie să fii corect pentru a fi util.

Din păcate, în multe științe este adesea uitat că modelele nu trebuie neapărat să fie reprezentări exacte ale realității pentru a permite noi descoperiri și predicții!

Deci, nu vă pierdeți timpul construind un model complicat care are nevoie de măsurători precise a unei multitudini de variabile. Adevăratul geniu inventează un model simplu care face treaba.

Răspuns

Un model nu poate furniza predicții 100% precise dacă există rezultate aleatorii. Dacă nu a existat nicio incertitudine, nicio aleatorie și nicio eroare, atunci ar fi considerat mai degrabă un fapt decât un model. Primul este foarte important, deoarece modelele sunt frecvent utilizat pentru modelarea așteptărilor evenimentelor care nu au avut loc. Acest lucru garantează aproape că există o anumită incertitudine cu privire la evenimentele reale.

Având în vedere informații perfecte, teoretic ar putea fi posibil să se creeze un model care să ofere predicții perfecte pentru astfel de evenimente cunoscute cu precizie. Cu toate acestea, chiar și având în vedere aceste circumstanțe improbabile, un astfel de model poate fi atât de complex încât să nu poată fi folosit din punct de vedere al calculului și poate fi precis doar într-un moment anume, deoarece alți factori modifică modul în care valorile se schimbă cu evenimentele.

Întrucât incertitudinea și întâmplarea sunt prezente în majoritatea datelor din lumea reală, eforturile de a obține un model perfect sunt un exercițiu inutil. În schimb, este mai valoros să analizăm obținerea unui model suficient de precis, suficient de simplu pentru a putea fi utilizat atât în ceea ce privește datele, cât și calculele necesare pentru utilizarea sa. Deși se știe că aceste modele sunt imperfecte, unele dintre aceste defecte sunt bine cunoscute și pot fi luate în considerare pentru luarea deciziilor pe baza modelelor.

Modelele mai simple pot fi imperfecte, dar sunt, de asemenea, mai ușor de argumentat , pentru a se compara unul cu celălalt și poate fi mai ușor de lucrat, deoarece este probabil să fie mai puțin solicitant din punct de vedere al calculului.

Răspuns

Dacă pot, poate fi util decât un singur comentariu. Versiunea prazei pe care o prefer este

(…) toate modelele sunt aproximări. În esență, toate modelele sunt greșite, dar unele sunt utile (…)

preluat din Response Surfaces, Mixtures and Ridge Analyses de Box and Draper (2007, p. 414, Wiley) . Privind citatul extins, este mai clar ce a vrut să spună Box – modelarea statistică este despre aproximarea realității și aproximarea nu este niciodată exactă, deci este vorba despre găsirea celei mai adecvate aproximări . Ceea ce este adecvat scopului dvs. este un lucru subiectiv, de aceea nu este util unul dintre modele, dar este posibil ca unele dintre ele să fie, în funcție de scopul modelării.

Răspuns

S-ar putea să vă gândiți la asta în acest fel. complexitatea maximă (adică, entropia) unui obiect respectă o formă a legată de Bekenstein :

$$ I \ le \ frac { 2 \ pi RE} {\ hbar c \ ln 2} $$

unde $ E $ este energia totală de repaus, inclusiv masa, și $ R $ este raza unei sfere care cuprinde obiectul.

Acel „este un număr mare, în majoritatea cazurilor:

Limita Bekenstein pentru un creier uman mediu ar fi 2,58991 $ · 10 ^ {42} $ biți și reprezintă o limită superioară a informațiilor necesare pentru a recrea perfect creierul uman mediu până la nivelul cuantic. Aceasta implică faptul că numărul de stări diferite ($ Ω = 2 ^ I $) al creierului uman (și al minții dacă fizicismul este adevărat) este de cel mult 107,79640 · 10 ^ {41} $.

Deci, vrei să folosești „cea mai bună hartă”, adică teritoriul în sine, cu toate ecuațiile de undă pentru toate particulele din fiecare celulă? Absolut nu. Nu numai că ar fi un dezastru de calcul, dar și tu Ați fi modelarea unor lucruri care nu pot avea în esență nimic de-a face cu ceea ce vă pasă. Dacă tot ce vrei să faci este, să zicem, să identific dacă sunt sau nu „treaz, nu trebuie să știi ce face electronul # 32458 în neuronul # 844030 ribozomul # 2305 molecula # 2. Dacă nu modelezi asta, modelul tău este într-adevăr „greșit”, dar dacă poți identifica dacă sunt sau nu trezit, modelul tău este cu siguranță util.

Răspuns

Cred că Peter și user11852 au dat răspunsuri grozave. Aș adăuga, de asemenea, (prin negare) că, dacă un model ar fi cu adevărat bun, probabil că ar fi inutil din cauza suprasolicitării (deci, nu generalizabil).

Comentarii

  • +1 pentru punctul de overfitting. Algoritmi precum Naive Bayes și analiza discriminantă liniară funcționează adesea foarte bine, chiar dacă știți că modelul de bază este incorect (de exemplu, filtrarea spamului), pur și simplu pentru că sunt necesare mai puține date pentru a estima parametrii.

Răspuns

Interpretarea mea acidă este: A crede că un model matematic descrie exact toți factorii și interacțiunile lor, guvernarea unui fenomen de interes ar fi prea simplist și arogant. Nici nu știm dacă logica pe care o folosim este suficientă pentru a ne înțelege universul. Cu toate acestea, unele modele matematice reprezintă o aproximare suficient de bună (în ceea ce privește metoda științifică) care sunt utile pentru a trage concluzii despre un astfel de fenomen.

Răspuns

În calitate de astrostatistician (probabil o rasă rară), cred că renumele dictatului lui Box este regretabil. În științele fizice, avem adesea un consens puternic pentru înțelegerea proceselor care stau la baza unui fenomen observat și aceste procese pot fi deseori exprimate prin modele matematice care rezultă din legile gravitației, mecanicii cuantice, termodinamică etc. Scopurile statistice sunt de a estima parametrii modelului cel mai potrivit pentru proprietățile fizice, precum și selectarea și validarea modelului. A apărut un caz recent dramatic din lansarea din martie 2013 a lucrărilor de la Agenția Spațială Europeană „s Satelit Planck ” măsurători ale fundalului cosmic cu microunde care stabilește în mod convingător un simplu cu 6 parametri `LambdaCDM „model pentru Big Ba ng. Mă îndoiesc că dictatul Box se va aplica oriunde în gama largă de metode statistice avansate utilizate în aceste 29 de lucrări.

Răspuns

Tocmai am reformulat răspunsul de mai sus considerând modelele de proces ca punct de focalizare. Afirmația poate fi interpretată după cum urmează:

„Toate modelele sunt greșite”, adică fiecare model este greșit deoarece este o simplificare a realitate. Unele modele sunt doar puțin greșite. Ignoră unele lucruri, de exemplu: -> schimbarea cerințelor, -> Ignorarea finalizării proiectului în termenul limită, -> nu se ia în considerare nivelul dorit de calitate al clientului etc. … Alte modele sunt foarte greșite – ignoră lucrurile mai mari. Modelele clasice de proces software ignoră mult comparativ cu modelele de proces agile care ignoră mai puțin.

„Dar unele sunt utile” – simplificările realității pot fi destul de utile. Ele ne pot ajuta să explicăm, să prezicem și să înțelegem proiectul general și toate componentele sale. Modelele sunt utilizate deoarece caracteristicile lor corespund majorității programelor de dezvoltare software.

Răspuns

Aș dori să ofer o altă interpretare a termenului „util”. Probabil nu la cel la care s-a gândit Box.

Când trebuie să luați decizii și tocmai pentru asta vor fi folosite toate informațiile, atunci trebuie să vă măsurați succesul într-o anumită formă. Când vorbim despre decizii cu informații incerte, această măsură este adesea numită utilitate.

Deci, ne putem gândi și la modelele utile ca fiind cele care ne permit să luăm decizii mai informate; pentru a ne atinge obiectivele mai eficient.

Acest lucru adaugă o altă dimensiune pe lângă criteriile obișnuite, cum ar fi capacitatea unui model de a prezice corect ceva: ne permite să cântărim diferitele aspecte despre care se referă un model la fiecare. altele.

Răspuns

„Toate modelele sunt greșite, dar unele sunt utile”. Poate că înseamnă: ar trebui să facem tot ce putem cu ceea ce știm + căutăm o nouă învățare?

Comentarii

  • (-1) Puteți furniza orice referință care să sugereze că G.E.P. Box a vrut să spună asta? După cum puteți afla din celelalte răspunsuri, el a vrut să spună ceva complet diferit.
  • Poziția operațională ia probabil citatul și îi oferă o nouă interpretare. Sunt de acord cu Tim că Box a spus mai mult sau mai puțin că nu ‘ nu luați modelul ca o interpretare exactă a realității, dar recunoașteți că un model poate descrie bine datele.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *