» I hovedsak er alle modeller feil, men noen er nyttige. «
— Box, George EP; Norman R. Draper (1987). Empirisk overflate for modellbygging og respons, s. 424, Wiley. ISBN 0471810339.
Hva betyr egentlig uttrykket ovenfor?
Kommentarer
Svar
Jeg tror betydningen av dette analyseres best ved å se på det i to deler:
«Alle modeller er feil», det vil si at hver modell er feil fordi det er en forenkling av virkeligheten. Noen modeller, spesielt i de «harde» vitenskapene, er bare litt feil. De ignorerer ting som friksjon eller gravitasjonseffekten av små kropper. Andre modeller er mye gale – de ignorerer større ting. I samfunnsvitenskapen ignorerer vi mye.
«Men noen er nyttige» – forenklinger av virkeligheten kan være ganske nyttige. De kan hjelpe oss med å forklare, forutsi og forstå universet og alle dets forskjellige komponenter.
Dette er ikke bare sant i statistikk! Kart er en type modell; de er feil. Men gode kart er veldig nyttige. Eksempler på andre nyttige, men gale modeller florerer.
Kommentarer
- +1 For jeg liker analogien med kartene. Jeg ‘ Jeg bruker den i fremtiden!
- Mange modeller i » harde » vitenskaper er ganske langt unna også (i går deltok jeg på et seminar der målinger hvor modellen var innenfor feilfeltet, men feilfeltet var i to størrelsesordener).
- +1. Jeg tror nøkkel setningen din er » hver modell er feil fordi den er en forenkling av virkeligheten » Folk glemmer ofte dette – for eksempel i naiv kritikk av økonomi (jeg har min egen kritikk, men de må være mer sofistikerte enn bare at » virkeligheten er mer kompleks enn modellen din «). Hvis vi ikke For å forenkle det, har du rå virkelighet, som er for kompleks til at vi kan forstå. Så vi må forenkle den for å få innsikt.
- Fantasien om et perfekt kart på skala 1: 1 har blitt brukt av mange forfattere, inkludert Lewis Carroll, Jorge Luis Borges og Umberto Eco. Det ville faktisk ikke være til nytte, fordi det nødvendigvis bare ville være komplisert som området det kartlegger og ikke lettere å forstå (for ikke å nevne klosset ved å brette det ut og legge det ut for å lese).
- Kanskje du kan legg også til at en modell må være litt feil, for ellers ville den ikke generalisert og ville dermed ikke være anvendelig andre steder. Det er noen svar som sier dette lenger ned. Men det er nå for mange svar til å lese dem alle.
Svar
Det betyr at nyttig innsikt kan gis fra modeller som ikke er en perfekt representasjon av fenomenene de modellerer.
En statistisk modell er en beskrivelse av et system ved bruk av matematiske begreper. Som sådan legger du i mange tilfeller til et visst abstraksjonslag for å lette din inferensielle prosedyre (f.eks. Normalitetsmålinger, sammensatt symmetri i korrelasjonsstrukturer osv.). Det er nesten umulig for en enkelt modell å beskrive perfekt et fenomen fra den virkelige verden gitt oss selv et subjektivt syn på verden (vårt sensoriske system er ikke perfekt); likevel skjer vellykket statistisk slutning ettersom vår verden har en viss grad av konsistens vi utnytter. Så våre nesten alltid gale modeller viser seg nyttige .
(Jeg er sikker på at du snart vil få et stort dristig svar, men jeg prøvde å være kortfattet på denne!)
Kommentarer
- Kan vi si at disse nyttige modellene gir omtrentlige løsninger?
- @gpuguy : Visst kan du. For å sitere John Tukey:
An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.
(jeg faktisk ting JT ‘ sitat er utrolig innsiktsfullt.) - » Et langt bedre svar på det riktige spørsmålet, som ofte er vagt, enn et eksakt svar på feil spørsmål, som alltid kan presiseres. » John W. Tukey 1962 Fremtiden for dataanalyse. Annaler for matematisk statistikk 33: 1-67 (se s. 13-14) Utvilsomt sa han lignende ting andre ganger, men at ‘ er den vanlige kilden.
- Jeg kopierte min fra den opprinnelige publikasjonen.
Svar
Jeg fant dette 2009 JSA-samtale av Thad Tarpey for å gi en nyttig forklaring og kommentar til Box-passasjen.Han argumenterer for at hvis vi ser på modeller som tilnærminger til sannheten, kan vi like gjerne kalle alle modeller rett.
Her er sammendraget:
Studenter av statistikk blir ofte introdusert for George Boxs berømte sitat: «alle modeller er feil, noen er nyttige.» I denne samtalen argumenterer jeg for at dette sitatet, selv om det er nyttig, er feil. Et annet og mer positivt perspektiv er å erkjenne at en modell rett og slett er et middel for å hente informasjon av interesse fra data. Sannheten er uendelig kompleks og en modell er bare en tilnærming til sannheten. Hvis tilnærmingen er dårlig eller misvisende, er modellen ubrukelig. I denne foredraget gir jeg eksempler på riktige modeller som ikke er sanne modeller. Jeg illustrerer hvordan forestillingen om en «feil» modell kan føre til feil konklusjoner.
Svar
Fordi ingen har lagt den til, brukte George Box den siterte fasen for å introdusere følgende avsnitt i en bok. Jeg tror han gjør den beste jobben med å forklare hva han mente:
Nå ville det være veldig bemerkelsesverdig hvis noe system som eksisterer i den virkelige verden kunne være nøyaktig representert av en hvilken som helst enkel modell. Imidlertid gir listige utvalgte parsimonious modeller ofte utrolig nyttige tilnærminger. For eksempel loven $ PV = RT $ om trykk $ P $ , volum $ V $ og temperatur $ T $ til et » ideelt » gass via en konstant $ R $ er ikke akkurat sant for ekte gass, men det gir ofte en nyttig tilnærming og dessuten er strukturen informativ siden den kommer fra et fysisk syn på oppførselen til gassmolekyler.
For en slik modell er det ikke nødvendig å stille spørsmålet » Er modellen sant ? «. Hvis » sannhet » skal være » hele sannheten » svaret må være » Nei «. Det eneste interessante spørsmålet er » Er modellen lysende og nyttig? «.
Box, GEP (1979 ), » Robusthet i strategien for vitenskapelig modellbygging «, i Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, s. 201–236.
Svar
For meg ligger den faktiske innsikten i følgende aspekt:
En modell trenger ikke å være riktig for å være nyttig.
Dessverre glemmes det ofte i mange vitenskaper at modeller ikke nødvendigvis trenger å være eksakte representasjoner av virkeligheten for å tillate nye funn og spådommer!
Så ikke kast bort tiden din på å bygge en komplisert modell som trenger nøyaktige målinger av et mylder av variabler. Det sanne geniet finner på en enkel modell som gjør jobben.
Svar
En modell kan ikke gi 100% nøyaktige spådommer hvis det er noen tilfeldighet i resultatene. Hvis det ikke var usikkerhet, ingen tilfeldighet og ingen feil, da vil det bli betraktet som et faktum snarere enn en modell. Den første er veldig viktig, fordi modeller er ofte brukes til modellering av forventninger til hendelser som ikke har skjedd. Dette garanterer nesten at det er noe usikkerhet rundt de virkelige hendelsene.
Gitt perfekt informasjon, kan det i teorien være mulig å lage en modell som gir perfekte spådommer for slike nøyaktig kjente hendelser. Imidlertid, selv under disse usannsynlige omstendighetene, kan en slik modell være så komplisert at den er beregningsmessig umulig å bruke, og den kan bare være nøyaktig på et bestemt tidspunkt da andre faktorer endrer hvordan verdier endres med hendelser.
Siden usikkerhet og tilfeldighet er til stede i de fleste virkelige data, er innsats for å skaffe en perfekt modell en meningsløs øvelse. I stedet er det mer verdifullt å se på å skaffe en tilstrekkelig nøyaktig modell som er enkel nok til å være brukbar både når det gjelder data og beregning som kreves for bruken. Selv om disse modellene er kjent for å være ufullkomne, er noen av disse feilene velkjente og kan vurderes for beslutningstaking basert på modellene.
Enklere modeller kan være ufullkomne, men de er også lettere å resonnere om , for å sammenligne med hverandre, og kan være lettere å jobbe med fordi de sannsynligvis er mindre kalkulerende.
Svar
Hvis jeg kan, kan bare en kommentar være nyttig. Versjonen av prasen som jeg foretrekker er
(…) alle modeller er tilnærminger. I hovedsak er alle modeller feil, men noen er nyttige (…)
hentet fra Response Surfaces, Mixtures, and Ridge Analyses av Box and Draper (2007, s. 414, Wiley) . Når man ser på det utvidede sitatet, er det tydeligere hva Box betydde – statistisk modellering handler om å tilnærme virkeligheten og tilnærming er aldri nøyaktig, så det handler om å finne den mest passende tilnærmingen . Det som passer for formålet ditt er en subjektiv ting, det er derfor det ikke er en av modellene som er nyttige, men muligens noen av dem er, avhengig av formålet med modellering.
Svar
Du kan tenke på det på denne måten. maksimal kompleksitet (dvs. entropi) til et objekt adlyder en eller annen form for Bekenstein-bundet :
$$ I \ le \ frac { 2 \ pi RE} {\ hbar c \ ln 2} $$
hvor $ E $ er den totale hvileenergien inkludert masse, og $ R $ er radiusen til en kule som omslutter objektet.
Det «er et stort tall, i de fleste tilfeller:
Bekenstein-bundet for en gjennomsnittlig menneskelig hjerne ville være $ 2,58991 · 10 ^ {42} $ bit og representerer en øvre grense på informasjonen som er nødvendig for å gjenskape den gjennomsnittlige menneskelige hjerne perfekt ned til kvantenivå. Dette innebærer at antallet forskjellige tilstander ($ Ω = 2 ^ I $) av den menneskelige hjerne (og av sinnet hvis fysikalismen er sann) er høyst $ 107,79640 · 10 ^ {41} $.
Så vil du bruke «det beste kartet», dvs. selve territoriet, med alle bølgelikningene for alle partiklene i hver celle? Absolutt ikke. Ikke bare ville det være en beregningskatastrofe, men du du ville modellere ting som egentlig ikke har noe å gjøre med det du bryr deg om. Hvis alt du vil gjøre, si, identifiser om jeg er våken, trenger du ikke å vite hva elektron # 32458 gjør i nevron # 844030 ribosom # 2305 molekyl # 2. Hvis du ikke modellerer det, er modellen din faktisk «feil», men hvis du kan identifisere om jeg er våken eller ikke, er modellen din definitivt nyttig.
Svar
Jeg synes Peter og user11852 ga gode svar. Jeg vil også legge til (ved negasjon) at hvis en modell var veldig bra, ville den sannsynligvis være ubrukelig på grunn av overmontering (derav ikke generaliserbar).
Kommentarer
- +1 for punktet med overmontering. Algoritmer som Naive Bayes og lineær diskriminantanalyse fungerer ofte veldig bra, selv om du vet at den underliggende modellen er feil (f.eks. Spamfiltrering), ganske enkelt fordi det er behov for mindre data for å estimere parametrene.
Svar
Min syretydning er: Å tro at en matematisk modell beskriver nøyaktig alle faktorene, og deres interaksjoner, som styrer et fenomen av interesse, ville være for forenklet og arrogant. Vi vet ikke engang om logikken vi bruker er nok til å forstå vårt univers. Imidlertid representerer noen matematiske modeller en god nok tilnærming (når det gjelder den vitenskapelige metoden) som er nyttige for å trekke konklusjoner om et slikt fenomen.
Svar
Som en astrostatistiker (en sjelden rase kanskje), synes jeg berømmelsen til Boxs dictum er uheldig. I naturvitenskapene har vi ofte sterk enighet for å forstå prosessene som ligger til grunn for et observert fenomen, og disse prosessene kan ofte uttrykkes med matematiske modeller som oppstår fra gravitasjonslover, kvantemekanikk, termodynamikk, etc. De statistiske målene er å estimere de best egnede modellparametrene fysiske egenskaper, samt modellvalg og validering. En dramatisk nylig sak oppsto fra utgivelsen av mars fra papirer fra European Space Agency «s Planck satellitt » s målinger av den kosmiske mikrobølgebakgrunnen som overbevisende etablerer en enkel 6-parameter `LambdaCDM «modell for Big Ba ng. Jeg tviler på at Box s dictum vil gjelde hvor som helst innenfor det brede spekteret av avanserte statistiske metoder som brukes i disse 29 papirene.
Svar
Jeg har nettopp omformulert svaret ovenfor ved å betrakte prosessmodeller som fokuspunkt. Uttalelsen kan tolkes som følger:
«Alle modeller er feil» det vil si at hver modell er feil fordi det er en forenkling av Noen modeller er bare litt gale. De ignorerer noen ting, for eksempel: -> skiftende krav, -> Ignorer fullføringen av prosjektet innen fristen, -> vurderer ikke kundens ønsket kvalitetsnivå osv. … Andre modeller er mye gale – de ignorerer større ting. Klassiske programvareprosessmodeller ignorerer mye sammenlignet med smidige prosessmodeller som ignorerer mindre.
«Men noen er nyttige» – forenklinger av virkeligheten kan være ganske nyttige. De kan hjelpe oss med å forklare, forutsi og forstå det samlede prosjektet og alle dets forskjellige komponenter. Modeller brukes fordi funksjonene deres tilsvarer de fleste programvareutviklingsprogrammer.
Svar
Jeg vil gjerne gi en annen tolkning av begrepet «nyttig». Sannsynligvis ikke den Box tenkte på.
Når du må ta avgjørelser, og dette er hva all informasjon endelig vil bli brukt til, så må du måle suksessen din i en eller annen form. Når vi snakker om beslutninger med usikker informasjon, kalles dette tiltaket ofte nytte.
Så vi kan også tenke på nyttige modeller som de som gjør det mulig for oss å ta mer informerte beslutninger; for å nå våre mål mer effektivt.
Dette legger til en annen dimensjon på toppen av vanlige kriterier, for eksempel evnen til en modell til å forutsi noe riktig: Det lar oss veie de forskjellige aspektene en modell handler om mot hver annet.
Svar
«Alle modeller er feil, men noen er nyttige». Kanskje det betyr: Vi skal gjøre så godt vi kan med det vi vet + søke etter ny læring?
Kommentarer
- (-1) Kan du gi noen referanser som tyder på at G.E.P. Box mente det? Som du kan finne fra de andre svarene, mente han noe helt annet.
- OP tar kanskje sitatet og gir det en ny tolkning. Jeg er enig med Tim i at Box mer eller mindre sa ikke ‘ t ta modellen som en eksakt tolkning av virkeligheten, men erkjenner at noen modeller kan beskrive dataene godt.
Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.
Kanskje dette er mer nyttig.