” I huvudsak är alla modeller fel, men vissa är användbara. ”
— Box, George EP; Norman R. Draper (1987). Empirisk modellbyggnad och responsytor, s. 424, Wiley. ISBN 0471810339.
Vad betyder exakt frasen ovan?
Kommentarer
Svar
Jag tror att dess betydelse analyseras bäst genom att titta på det i två delar:
”Alla modeller har fel”, det vill säga varje modell är fel eftersom det är en förenkling av verkligheten. Vissa modeller, särskilt inom de ”hårda” vetenskaperna, har bara lite fel. De ignorerar saker som friktion eller gravitationseffekten av små kroppar. Andra modeller har mycket fel – de ignorerar större saker. Inom samhällsvetenskapen ignorerar vi mycket.
”Men vissa är användbara” – förenklingar av verkligheten kan vara ganska användbara. De kan hjälpa oss att förklara, förutsäga och förstå universum och alla dess olika komponenter.
Detta stämmer inte bara i statistik! Kartor är en typ av modell; de är felaktiga. Men bra kartor är mycket användbara. Exempel på andra användbara men felaktiga modeller finns i överflöd.
Kommentarer
- +1 För att jag gillar kartornas analogi. Jag ’ Jag använder den i framtiden!
- Många modeller i ” hårda ” vetenskaper är också ganska långt borta (igår deltog jag i ett seminarium där mätningar där modell var i felraden, men felraden var två storleksordningar).
- +1. Jag tror att din nyckelmening är ” varje modell är fel eftersom den är en förenkling av verkligheten ”. Människor glömmer ofta detta – till exempel i naiv kritik av ekonomin (jag har min egen kritik, men de måste vara mer sofistikerade än bara att ” verkligheten är mer komplex än din modell ”). Om vi inte för att inte förenkla det, du har rå verklighet, som är för komplex för att vi ska kunna förstå. Så vi måste förenkla den för att få någon insikt.
- Fantasin om en perfekt karta i skala 1: 1 har använts av många författare, inklusive Lewis Carroll, Jorge Luis Borges och Umberto Eco. Det skulle faktiskt inte vara till nytta eftersom det nödvändigtvis bara skulle vara komplicerat eftersom det kartas och inte är lättare att förstå (för att inte tala om besvärligheten med att lägga ut det och lägga ut det för att läsa).
- Kanske du kan lägg också till att en modell måste vara lite fel, för annars skulle den inte generalisera och därmed inte vara tillämplig någon annanstans. Det finns några svar som säger detta längre ner. Men det finns nu för många svar för att läsa dem alla.
Svar
Det betyder att användbara insikter kan tillhandahållas från modeller som inte är en perfekt representation av de fenomen de modellerar.
En statistisk modell är en beskrivning av ett system som använder matematiska begrepp. Som sådan lägger du i många fall till ett visst lager av abstraktion för att underlätta din inferentiella procedur (t.ex. normalitet av mätfel, sammansatt symmetri i korrelationsstrukturer etc.). Det är nästan omöjligt för en enda modell att perfekt beskriva ett verkligt världsfenomen med tanke på oss själva har en subjektiv syn på världen (vårt sensoriska system är inte perfekt); ändå framgångsrik statistisk slutsats händer eftersom vår värld har en viss grad av konsekvens vi utnyttjar. Så våra nästan alltid felaktiga modeller visar sig vara användbara .
(jag är säker på att du snart kommer att få ett stort djärvt svar men jag försökte vara kortfattad på den här!)
Kommentarer
- Kan vi säga att de här användbara modellerna ger ungefärliga lösningar?
- @gpuguy : Visst kan du. För att citera John Tukey:
An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.
(jag tycker faktiskt att JT ’ s citat är otroligt insiktsfullt.) - ” Mycket bättre ett ungefärligt svar på rätt fråga, som ofta är vag, än ett exakt svar på fel fråga, som alltid kan preciseras. ” John W. Tukey 1962 Framtiden för dataanalys. Annaler för matematisk statistik 33: 1-67 (se s. 13-14) Han sade utan tvekan liknande saker vid andra tillfällen, men att ’ är den vanliga källan.
- Jag kopierade min från originalpublikationen.
Svar
Jag hittade det här 2009 JSA-samtal av Thad Tarpey för att ge en användbar förklaring och kommentar till avsnittet Box.Han hävdar att om vi ser modeller som approximationer till sanningen kan vi lika gärna kalla alla modeller rätt.
Här är abstrakt:
Studenter av statistik introduceras ofta till George Box berömda citat: ”alla modeller är fel, vissa är användbara.” I det här samtalet argumenterar jag för att detta citat, även om det är användbart, är fel. Ett annat och mer positivt perspektiv är att erkänna att en modell helt enkelt är ett medel för att extrahera information av intresse från data. Sanningen är oändligt komplex och en modell är bara en approximation till sanningen. Om approximationen är dålig eller vilseledande är modellen värdelös. I det här föredraget ger jag exempel på korrekta modeller som inte är sanna modeller. Jag illustrerar hur begreppet ”fel” modell kan leda till felaktiga slutsatser.
Svar
Eftersom ingen har lagt till det, använde George Box den citerade fasen för att introducera följande avsnitt i en bok. Jag tror att han gör det bästa med att förklara vad han menade:
Nu vore det mycket anmärkningsvärt om något system som fanns i den verkliga världen kunde vara exakt representerad av vilken enkel modell som helst. Men listigt valda parsimonious modeller ger ofta anmärkningsvärda användbara approximationer. Till exempel lagen $ PV = RT $ om tryck $ P $ , volym $ V $ och temperatur $ T $ för ett ” ideal ” gas via en konstant $ R $ är inte exakt sant för någon riktig gas, men det ger ofta en användbar approximation och dess struktur är dessutom informativ eftersom den härrör från en fysisk syn på gasmolekylers beteende.
För en sådan modell finns det ingen anledning att ställa frågan ” Är modellen sant ? ”. Om ” sanning ” ska vara ” hela sanningen ” svaret måste vara ” Nej ”. Den enda intressanta frågan är ” Är modellen lysande och användbar? ”.
Box, GEP (1979 ), ” Robusthet i strategin för vetenskaplig modellbyggnad ”, i Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, s. 201–236.
Svar
För mig ligger den faktiska insikten i följande aspekt:
En modell behöver inte vara korrekt för att vara användbar.
Tyvärr glömmer det ofta i många vetenskaper att modeller inte nödvändigtvis behöver vara exakta representationer av verkligheten för att möjliggöra nya upptäckter och förutsägelser!
Så slösa inte din tid med att bygga en komplicerad modell som behöver exakta mätningar av en myriad av variabler. Det sanna geniet uppfinner en enkel modell som gör jobbet.
Svar
En modell kan inte ge 100% exakta förutsägelser om det finns någon slumpmässighet i resultaten. Om det inte fanns någon osäkerhet, ingen slumpmässighet och inget fel, då skulle det betraktas som ett faktum snarare än en modell. Det första är mycket viktigt, eftersom modeller ofta är det används för att modellera förväntningar på händelser som inte har inträffat. Detta garanterar nästan att det finns viss osäkerhet om de verkliga händelserna.
Med perfekt information kan det i teorin vara möjligt att skapa en modell som ger perfekta förutsägelser för sådana exakt kända händelser. Men även med tanke på dessa osannolika omständigheter kan en sådan modell vara så komplicerad att den är beräkningsmässigt omöjlig att använda, och kanske bara vara korrekt vid ett visst tillfälle eftersom andra faktorer förändrar hur värden förändras med händelser.
Eftersom osäkerhet och slumpmässighet förekommer i de flesta verkliga data är ansträngningar att få en perfekt modell en meningslös övning. Istället är det mer värdefullt att titta på att få en tillräckligt noggrann modell som är tillräckligt enkel för att kunna användas både när det gäller data och beräkning som krävs för dess användning. Även om dessa modeller är kända för att vara ofullkomliga är vissa av dessa brister välkända och kan övervägas för beslutsfattande baserat på modellerna.
Enklare modeller kan vara ofullkomliga, men de är också lättare att resonera om , att jämföra med varandra och kan vara lättare att arbeta med eftersom de sannolikt är mindre beräkningskrävande.
Svar
Om jag får, kan bara en kommentar till vara till nytta. Den version av prasen som jag föredrar är
(…) alla modeller är ungefärliga. I grund och botten är alla modeller fel, men vissa är användbara (…)
hämtad från Response Surfaces, Mixtures, and Ridge Analyses av Box and Draper (2007, s. 414, Wiley) . Om man tittar på det utökade citatet är det tydligare vad Box menade – statistisk modellering handlar om att approximera verkligheten och approximering är aldrig exakt, så det handlar om att hitta den mest lämpliga approximationen . Vad som är lämpligt för ditt syfte är en subjektiv sak, det är därför det inte är en av modellerna som är användbara, men möjligen några av dem, beroende på syftet med modelleringen.
Svar
Du kanske tänker på det här sättet. ett objekts maximala komplexitet (dvs. entropi) följer någon form av Bekenstein bunden :
$$ I \ le \ frac { 2 \ pi RE} {\ hbar c \ ln 2} $$
där $ E $ är den totala vilenergin inklusive massa, och $ R $ är radien för en sfär som omsluter objektet.
Det ӊr ett stort nummer, i de flesta fall:
Bekenstein-gränsen för en genomsnittlig mänsklig hjärna skulle vara $ 2,58991 · 10 ^ {42} $ bit och representerar en övre gräns på den information som behövs för att perfekt återskapa den genomsnittliga mänskliga hjärnan ner till kvantnivå. Detta innebär att antalet olika tillstånd ($ Ω = 2 ^ I $) för den mänskliga hjärnan (och för sinnet om fysikalismen är sann) är högst 107,79640 dollar · 10 ^ {41} $.
Så vill du använda ”den bästa kartan”, dvs själva territoriet, med alla vågekvationer för alla partiklar i varje cell? Absolut inte. Det skulle inte bara vara en beräkningskatastrof, men du u skulle modellera saker som i princip inte har något att göra med det du bryr dig om. Om allt du vill göra är, säg, identifiera om jag är vaken eller inte, behöver du inte veta vad elektron # 32458 gör i neuron # 844030 ribosom # 2305 molekyl # 2. Om du inte modellerar det är din modell verkligen ”fel” men om du kan identifiera om jag är vaken eller inte, är din modell definitivt användbar.
Svar
Jag tycker att Peter och user11852 gav fantastiska svar. Jag skulle också tillägga (genom förnekelse) att om en modell var riktigt bra, skulle den förmodligen vara värdelös på grund av överanpassning (alltså inte generaliserbar).
Kommentarer
- +1 för punkten med överanpassning. Algoritmer som Naive Bayes och linjär diskriminantanalys fungerar ofta mycket bra, även om du vet att den underliggande modellen är felaktig (t.ex. skräppostfiltrering), helt enkelt för att mindre data behövs för att uppskatta parametrarna.
Svar
Min syratolkning är: Att tro att en matematisk modell beskriver exakt alla faktorer, och deras interaktioner, som styr ett fenomen av intresse skulle vara för förenklat och arrogant. Vi vet inte ens om den logik vi använder är tillräcklig för att förstå vårt universum. Vissa matematiska modeller representerar dock en tillräckligt bra approximation (i termer av den vetenskapliga metoden) som är användbara för att dra slutsatser om ett sådant fenomen.
Svar
Som en astrostatistiker (en sällsynt ras kanske), tycker jag att berömmelsen i Boxs dikt är olycklig. I naturvetenskapen har vi ofta en stark enighet för att förstå de processer som ligger bakom ett observerat fenomen, och dessa processer kan ofta uttryckas med matematiska modeller som härrör från gravitationens lagar, kvantmekanik, termodynamik, etc. De statistiska målen är att uppskatta de bäst passande modellparametrarna fysiska egenskaper, samt modellval och validering. från utgåvan från mars 2013 av papper från Europeiska rymdorganisationens ”s Planck-satellits mätningar av den kosmiska mikrovågsbakgrunden som övertygande skapar en enkel 6-parameter` LambdaCDM ”modell för Big Ba ng Jag tvivlar på att Boxs dictum skulle tillämpas var som helst inom det breda utbudet av avancerade statistiska metoder som används i dessa 29 artiklar.
Svar
Jag har just omformulerat ovanstående svar genom att betrakta processmodeller som fokuspunkt. Uttalandet kan tolkas så här:
”Alla modeller har fel”, det vill säga varje modell är fel eftersom det är en förenkling av Vissa modeller är bara lite felaktiga. De ignorerar vissa saker, till exempel: -> förändrade krav, -> Ignorerar slutförandet av projektet inom tidsfristen, -> beaktar inte kundens önskade kvalitetsnivå etc … Andra modeller har mycket fel – de ignorerar större saker. Processmodeller för klassisk programvara ignorerar mycket jämfört med smidiga processmodeller som ignorerar mindre.
”Men vissa är användbara” – förenklingar av verkligheten kan vara ganska användbara. De kan hjälpa oss att förklara, förutsäga och förstå det övergripande projektet och alla dess olika komponenter. Modeller används eftersom deras funktioner motsvarar de flesta programutvecklingsprogram.
Svar
Jag skulle vilja ge en annan tolkning av termen ”användbart”. Förmodligen inte den Box tänkte på.
När du måste fatta beslut, och det är vad all information äntligen kommer att användas till, så måste du mäta din framgång i någon form. När vi talar om beslut med osäker information kallas denna åtgärd ofta nytta.
Så vi kan också tänka på användbara modeller som de som gör det möjligt för oss att fatta mer informerade beslut; för att uppnå våra mål mer effektivt.
Detta lägger till ytterligare en dimension utöver vanliga kriterier, till exempel förmågan hos en modell att förutsäga något korrekt: Det gör att vi kan väga de olika aspekterna en modell handlar om mot varje annat.
Svar
”Alla modeller är felaktiga, men vissa är användbara”. Kanske betyder det: Vi borde göra det bästa vi kan med det vi vet + söka efter nytt lärande?
Kommentarer
- (-1) Kan du ge någon referens som tyder på att G.E.P. Box menade det? Som du kan hitta från de andra svaren menade han något helt annat.
- OP tar kanske citatet och ger det en ny tolkning. Jag håller med Tim om att Box mer eller mindre sa att ’ inte tar modellen som en exakt tolkning av verkligheten men inser att någon modell kan beskriva data väl.
Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.
Kanske är detta mer användbart.