” I det væsentlige er alle modeller forkerte, men nogle er nyttige. “
— Box, George EP; Norman R. Draper (1987). Empiriske modelbygnings- og responsoverflader, s. 424, Wiley. ISBN 0471810339.
Hvad er præcis meningen med ovenstående sætning?
Kommentarer
Svar
Jeg mener, at dets betydning bedst analyseres ved at se på det i to dele:
“Alle modeller er forkerte”, dvs. hver model er forkert, fordi det er en forenkling af virkeligheden. Nogle modeller, især inden for “hårde” videnskaber, er kun lidt forkerte. De ignorerer ting som friktion eller tyngdekraftseffekten af små kroppe. Andre modeller er meget forkerte – de ignorerer større ting. I samfundsvidenskab ignorerer vi meget.
“Men nogle er nyttige” – forenklinger af virkeligheden kan være ret nyttige. De kan hjælpe os med at forklare, forudsige og forstå universet og alle dets forskellige komponenter.
Dette er ikke bare tilfældet i statistikker! Kort er en type model; de er forkerte. Men gode kort er meget nyttige. Eksempler på andre nyttige, men forkerte modeller findes i overflod.
Kommentarer
- +1 Årsag Jeg kan godt lide analogien med kortene. Jeg ‘ Jeg bruger den i fremtiden!
- Mange modeller i ” hårde ” videnskab er også langt væk (i går deltog jeg i et seminar, hvor målinger hvor model var inden for fejlfeltet, men fejlfeltet var to størrelsesordener).
- +1. Jeg tror, at din nøglesætning er ” hver model er forkert, fordi den er en forenkling af virkeligheden ” Folk glemmer det ofte – for eksempel i naiv kritik af økonomi (jeg har min egen kritik, men de skal være mere sofistikerede end bare den ” virkeligheden er mere kompleks end din model “). Hvis vi ikke For at forenkle det, har du rå virkelighed, som er for kompleks til at vi kan forstå. Så vi er nødt til at forenkle det for at opnå enhver indsigt.
- Fantasien om et perfekt kort på en skala 1: 1 er blevet brugt af mange forfattere, herunder Lewis Carroll, Jorge Luis Borges og Umberto Eco. Det ville faktisk ikke være nyttigt, fordi det nødvendigvis bare ville være kompliceret som det område, det kortlægger og ikke lettere at forstå (for ikke at nævne den akavede ved at udfolde det og lægge det ud til at læse).
- Måske kan du tilføj også, at en model skal være lidt forkert, for ellers ville den ikke generalisere og dermed ikke være anvendelig andre steder. Der er nogle svar, der siger dette længere nede. Men der er nu for mange svar til at læse dem alle.
Svar
Det betyder, at der kan gives nyttig indsigt fra modeller, der ikke er en perfekt repræsentation af de fænomener, de modellerer.
En statistisk model er en beskrivelse af et system ved hjælp af matematiske begreber. Som sådan tilføjer du i mange tilfælde et bestemt lag af abstraktion for at lette din inferentielle procedure (f.eks. Normalitetsmåling af fejl, sammensat symmetri i korrelationsstrukturer osv.). Det er næsten umuligt for en enkelt model til perfekt at beskrive et virkeligt verdensfænomen givet os selv har et subjektivt syn på verden (vores sensoriske system er ikke perfekt); alligevel sker en vellykket statistisk slutning, da vores verden har en vis grad af konsistens, vi udnytter. Så vores næsten altid forkerte modeller viser sig nyttige .
(jeg er sikker på, at du snart får et stort dristigt svar, men jeg prøvede at være kortfattet på denne!)
Kommentarer
- Kan vi sige, at disse nyttige modeller giver omtrentlige løsninger?
- @gpuguy : Det kan du sikkert. For at citere John Tukey:
An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.
(jeg siger faktisk JT ‘ sit citat er utroligt indsigtsfuldt.) - ” Langt bedre et omtrentligt svar på det rigtige spørgsmål, som ofte er vagt, end et nøjagtigt svar på det forkerte spørgsmål, som altid kan præciseres. ” John W. Tukey 1962 Fremtiden for dataanalyse. Annaler i matematisk statistik 33: 1-67 (se s. 13-14) Han sagde uden tvivl lignende ting på andre tidspunkter, men at ‘ er den sædvanlige kilde.
- Jeg kopierede min fra den oprindelige publikation.
Svar
Jeg fandt dette 2009 JSA-samtale af Thad Tarpey for at give en nyttig forklaring og kommentar til Box-passagen.Han argumenterer for, at hvis vi betragter modeller som tilnærmelser til sandheden, kunne vi lige så let kalde alle modeller rigtige.
Her er abstraktet:
Statistikstuderende introduceres ofte til George Boxs berømte citat: “alle modeller er forkerte, nogle er nyttige.” I denne tale argumenterer jeg for, at dette citat, selvom det er nyttigt, er forkert. Et andet og mere positivt perspektiv er at erkende, at en model simpelthen er et middel til at udtrække information af interesse fra data. Sandheden er uendeligt kompleks, og en model er blot en tilnærmelse til sandheden. Hvis tilnærmelsen er dårlig eller vildledende, er modellen ubrugelig. I denne samtale giver jeg eksempler på korrekte modeller, der ikke er sande modeller. Jeg illustrerer, hvordan opfattelsen af en “forkert” model kan føre til forkerte konklusioner.
Svar
Fordi ingen har tilføjet det, brugte George Box den citerede fase til at introducere det følgende afsnit i en bog. Jeg tror, at han gør det bedste arbejde med at forklare, hvad han mente:
Det ville være meget bemærkelsesværdigt, hvis noget system, der findes i den virkelige verden, kunne være nøjagtigt repræsenteret af enhver simpel model. Imidlertid giver listigt udvalgte parsimonious modeller ofte bemærkelsesværdigt nyttige tilnærmelser. For eksempel loven $ PV = RT $ om tryk $ P $ , volumen $ V $ og temperatur $ T $ af et ” ideelt ” gas via en konstant $ R $ er ikke ligefrem sandt for nogen reel gas, men det giver ofte en nyttig tilnærmelse og endvidere er dens struktur informativ, da den springer ud fra et fysisk syn på gasmolekylers opførsel.
For en sådan model er der ingen grund til at stille spørgsmålet ” Er modellen sand ? “. Hvis ” sandhed ” skal være ” hele sandheden ” svaret skal være ” Nej “. Det eneste spørgsmål af interesse er ” Er modellen lysende og nyttig? “.
Box, GEP (1979 ), ” Robusthed i strategien for videnskabelig modelopbygning “, i Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, s. 201-236.
Svar
For mig ligger den faktiske indsigt i følgende aspekt:
En model behøver ikke at være korrekt for at være nyttig.
Desværre glemmes det ofte i mange videnskaber, at modeller ikke nødvendigvis behøver at være nøjagtige repræsentationer af virkeligheden for at tillade nye opdagelser og forudsigelser!
Så spil ikke din tid på at bygge en kompliceret model, der har brug for nøjagtige målinger af et utal af variabler. Det sande geni opfinder en simpel model, der gør jobbet.
Svar
En model kan ikke give 100% nøjagtige forudsigelser, hvis der er nogen tilfældighed i resultaterne. Hvis der ikke var usikkerhed, ingen tilfældighed og ingen fejl, så ville det blive betragtet som en kendsgerning snarere end en model. Den første er meget vigtig, fordi modeller ofte er bruges til modellering af forventninger til begivenheder, der ikke har fundet sted. Dette garanterer næsten, at der er en vis usikkerhed omkring de virkelige begivenheder.
Givet perfekt information kan det i teorien være muligt at skabe en model, der giver perfekte forudsigelser for sådanne nøjagtigt kendte begivenheder. Selv under disse usandsynlige omstændigheder kan en sådan model dog være så kompleks, at den er beregningsmæssigt umulig at bruge, og den kan kun være nøjagtig på et bestemt tidspunkt, da andre faktorer ændrer, hvordan værdier ændres med hændelser.
Da usikkerhed og tilfældighed er til stede i de fleste data fra den virkelige verden, er bestræbelser på at opnå en perfekt model en forgæves øvelse. I stedet er det mere værdifuldt at se på at opnå en tilstrækkelig nøjagtig model, der er enkel nok til at være anvendelig med hensyn til både de data og den beregning, der kræves til dens anvendelse. Selvom disse modeller vides at være ufuldkomne, er nogle af disse mangler velkendte og kan overvejes til beslutningstagning baseret på modellerne.
Enklere modeller kan være ufuldkomne, men de er også lettere at begrunde , at sammenligne med hinanden og kan være lettere at arbejde med, fordi de sandsynligvis er mindre krævende beregningsmæssigt.
Svar
Hvis jeg kan, kan bare en kommentar mere være nyttig. Den version af den prase, jeg foretrækker, er
(…) alle modeller er tilnærmelser. I det væsentlige er alle modeller forkerte, men nogle er nyttige (…)
taget fra Response Surfaces, Mixtures, and Ridge Analyses af Box and Draper (2007, s. 414, Wiley) . Når man ser på det udvidede citat, er det mere klart, hvad Box betød – statistisk modellering handler om tilnærmelse virkeligheden, og tilnærmelse er aldrig nøjagtig, så det handler om at finde den mest passende tilnærmelse . Hvad der passer til dit formål er en subjektiv ting, det er derfor, det ikke er en af modellerne, der er nyttige, men muligvis nogle af dem er afhængigt af formålet med modellering.
Svar
Du tænker måske på det på denne måde. den maksimale kompleksitet (dvs. entropi) af et objekt adlyder en eller anden form for Bekenstein bundet :
$$ I \ le \ frac { 2 \ pi RE} {\ hbar c \ ln 2} $$
hvor $ E $ er den samlede hvileenergi inklusive masse, og $ R $ er radius for en kugle, der omslutter objektet.
Det “er et stort tal, i de fleste tilfælde:
Bekenstein-bundet for en gennemsnitlig menneskelig hjerne ville være $ 2.58991 · 10 ^ {42} $ bit og repræsenterer en øvre grænse på de oplysninger, der er nødvendige for perfekt at genskabe den gennemsnitlige menneskelige hjerne ned til kvanteniveau. Dette indebærer, at antallet af forskellige tilstande ($ Ω = 2 ^ I $) af den menneskelige hjerne (og af sindet, hvis fysikalismen er sand) er højst $ 107,79640 · 10 ^ {41} $.
Så vil du bruge “det bedste kort”, dvs. selve territoriet, med alle bølgeligningerne for alle partikler i hver celle? Absolut ikke. Ikke kun ville det være en beregningskatastrofe, men du u ville modellere ting, der måske i det væsentlige ikke har noget at gøre med det, du holder af. Hvis alt hvad du vil gøre er at sige, identificere, om jeg er vågen eller ej, behøver du ikke vide, hvad elektron # 32458 laver i neuron # 844030 ribosom # 2305 molekyle # 2. Hvis du ikke modellerer det, er din model faktisk “forkert”, men hvis du kan identificere, om jeg er vågen eller ej, er din model bestemt nyttig.
Svar
Jeg synes, Peter og user11852 gav gode svar. Jeg vil også tilføje (ved benægtelse), at hvis en model var rigtig god, ville den sandsynligvis være ubrugelig på grund af overmontering (derfor ikke generaliserbar).
Kommentarer
- +1 for punktet med overmontering. Algoritmer som Naive Bayes og lineær diskriminerende analyse fungerer ofte meget godt, selvom du ved, at den underliggende model er forkert (f.eks. Spamfiltrering), simpelthen fordi der er behov for færre data for at estimere parametrene.
Svar
Min syretydning er: At tro, at en matematisk model beskriver nøjagtigt alle faktorer og deres interaktioner, der styrer et fænomen af interesse, ville være for forenklet og arrogant. Vi ved ikke engang, om den logik, vi bruger, er tilstrækkelig til at forstå vores univers. Imidlertid repræsenterer nogle matematiske modeller en tilstrækkelig tilnærmelse (udtrykt ved den videnskabelige metode), der er nyttige til at drage konklusioner om et sådant fænomen.
Svar
Som astrostatistiker (måske en sjælden race) finder jeg berømmelsen af Boxs dikter at være uheldige. I de fysiske videnskaber har vi ofte en stærk enighed om at forstå de processer, der ligger til grund for et observeret fænomen, og disse processer kan ofte udtrykkes ved matematiske modeller, der stammer fra tyngdekraftens love, kvantemekanik, termodynamik osv. De statistiske mål er at estimere de bedst egnede modelparametre fysiske egenskaber samt modelvalg og validering. En dramatisk nylig sag opstod fra frigivelsen af papirer fra Den Europæiske Rumorganisation “s Planck-satellit s målinger af den kosmiske mikrobølgebaggrund, der på en overbevisende måde etablerer en simpel 6-parameter` LambdaCDM “model til Big Ba ng. Jeg tvivler på, at Box s dictum ville finde anvendelse overalt inden for den brede vifte af avancerede statistiske metoder, der blev brugt i disse 29 papirer.
Svar
Jeg har netop omformuleret ovenstående svar ved at betragte procesmodeller som fokuspunkt. Påstanden kan fortolkes som følger:
“Alle modeller er forkerte”, dvs. hver model er forkert, fordi det er en forenkling af Nogle modeller er kun lidt forkerte. De ignorerer nogle ting, for eksempel: -> skiftende krav -> Ignorerer færdiggørelsen af projektet inden for fristen, -> ikke i betragtning af kundens ønskede kvalitetsniveau osv. … Andre modeller er meget forkerte – de ignorerer større ting. Klassiske softwareprocesmodeller ignorerer meget sammenlignet med agile procesmodeller, der ignorerer mindre.
“Men nogle er nyttige” – forenklinger af virkeligheden kan være ret nyttige. De kan hjælpe os med at forklare, forudsige og forstå det samlede projekt og alle dets forskellige komponenter. Modeller bruges, fordi deres funktioner svarer til de fleste softwareudviklingsprogrammer.
Svar
Jeg vil gerne give en anden fortolkning af udtrykket “nyttigt”. Sandsynligvis ikke den ene Box tænkte på.
Når du skal træffe beslutninger, og det er, hvad al information endelig vil blive brugt til, så er du nødt til at måle din succes i en eller anden form. Når vi taler om beslutninger med usikker information, kaldes denne foranstaltning ofte nytte.
Så vi kan også tænke på nyttige modeller som dem, der gør det muligt for os at træffe mere informerede beslutninger; for at nå vores mål mere effektivt.
Dette tilføjer en anden dimension ud over sædvanlige kriterier, såsom en models evne til at forudsige noget korrekt: Det giver os mulighed for at afveje de forskellige aspekter, en model handler om mod hver andet.
Svar
“Alle modeller er forkerte, men nogle er nyttige”. Måske betyder det: Vi skal gøre det bedste, vi kan, med det vi ved + søge efter ny læring?
Kommentarer
- (-1) Kan du give nogen henvisning, der tyder på, at G.E.P. Box betød det? Som du kan finde ud af de andre svar, mente han noget helt andet.
- OP tager måske citatet og giver det en ny fortolkning. Jeg er enig med Tim i, at Box mere eller mindre sagde ikke ‘ t tager modellen som en nøjagtig fortolkning af virkeligheden, men erkender, at en eller anden model kan beskrive dataene godt.
Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.
Måske er dette mere nyttigt.