” Pohjimmiltaan kaikki mallit ovat vääriä, mutta jotkut ovat hyödyllisiä. ”
— Box, George EP; Norman R.Draper (1987). Empiiriset mallinrakennus- ja reagointipinnat, s. 424, Wiley. ISBN 0471810339.
Mitä tarkalleen tarkoittaa yllä oleva lause?
Kommentit
vastaus
Mielestäni sen merkitystä voidaan parhaiten analysoida tarkastelemalla sitä kahdessa osassa:
”Kaikki mallit ovat vääriä”, eli jokainen malli on väärä, koska se on todellisuuden yksinkertaistamista. Jotkut mallit, erityisesti ”kovien” tieteiden kohdalla, ovat vain hieman väärässä. He jättävät huomiotta esimerkiksi kitkan tai pienien kappaleiden painovoiman. Muut mallit ovat paljon väärässä – ne jättävät huomiotta suuremmat asiat. Yhteiskuntatieteissä jätämme paljon huomiotta.
”Mutta jotkut ovat hyödyllisiä” – todellisuuden yksinkertaistaminen voi olla varsin hyödyllistä. Ne voivat auttaa meitä selittämään, ennustamaan ja ymmärtämään maailmankaikkeutta ja kaikkia sen eri osia.
Tämä ei ole totta tilastoissa! Kartat ovat tietyntyyppisiä malleja; ne ovat vääriä. Mutta hyvät kartat ovat erittäin hyödyllisiä. Esimerkkejä muista hyödyllisistä mutta vääristä malleista on runsaasti.
Kommentit
- +1 Syy, että pidän karttojen analogiasta. Minä ’ käytän sitä tulevaisuudessa!
- Monet ” hard ” -tieteiden mallit ovat myös melko kaukana (eilen kävin seminaarissa, jossa oli virhepalkissa, mutta virhepalkki oli kaksi suuruusluokkaa).
- +1. Mielestäni avainlauseesi on ” jokainen malli on väärä, koska se on todellisuuden yksinkertaistaminen ”. Ihmiset usein unohtavat tämän – esimerkiksi naiivissa taloustieteessä (minulla on omat kritiikkini, mutta niiden on oltava hienostuneempia kuin vain se, että ” todellisuus on monimutkaisempi kuin mallisi ”). Jos emme t yksinkertaista sitä, sinulla on raakaa todellisuutta, jota on liian monimutkainen ymmärtää. Joten meidän on yksinkertaistettava sitä saadaksemme oivalluksia.
- Fantasia täydellisestä kartasta mittakaavassa 1: 1 ovat käyttäneet monet kirjoittajat, mukaan lukien Lewis Carroll, Jorge Luis Borges ja Umberto Eco. Siitä ei todellakaan olisi hyötyä, koska se olisi välttämättä vain monimutkainen, koska sen kartoittama alue, eikä sitä ole helpompi ymmärtää (puhumattakaan hankaluudesta sen avaamiseen ja asettamiseen lukemiseen).
- Ehkä voit lisää myös, että mallin on oltava hieman väärä, koska muuten se ei yleistyisi eikä sitä siten sovellettaisi muualla. On joitain vastauksia, jotka sanovat tämän edelleen. Mutta vastauksia on nyt liikaa kaikkien lukemiseen.
Vastaus
Se tarkoittaa, että hyödyllisiä oivalluksia voidaan antaa malleista, jotka eivät ole täydellinen esitys heidän mallintamastaan ilmiöstä.
Tilastollinen malli on matemaattisia käsitteitä käyttävän järjestelmän kuvaus. Sinänsä monissa tapauksissa lisäät tietyn abstraktikerroksen päättelyprosessin helpottamiseksi (esim. Mittausvirheiden normaalisuus, yhdistetty symmetria korrelaatiorakenteissa jne.). On melkein mahdotonta, että yksittäinen malli kuvailee täydellisesti todellisen maailman ilmiötä, kun itsellemme on subjektiivinen näkemys maailmasta (aistijärjestelmämme ei ole täydellinen); kuitenkin onnistunut tilastollinen päättely tapahtuu, koska maailmallamme on tietynasteinen johdonmukaisuus, jota hyödynnämme. Joten melkein aina väärät mallit osoittautuvat hyödyllisiksi .
(Olen varma, että saat pian ison rohkean vastauksen, mutta yritin olla suppea tästä!)
Kommentit
- Voimmeko sanoa, että nämä hyödylliset mallit tarjoavat likimääräisiä ratkaisuja?
- @gpuguy : Toki voit. Lainatakseni John Tukey:
An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.
(JT ’ lainaus on todella oivaltava.) - ” Paljon parempi likimääräinen vastaus oikeaan kysymykseen, joka on usein epämääräinen, kuin tarkka vastaus väärään kysymykseen, joka voidaan aina täsmentää. ” John W. Tukey 1962 Data-analyysin tulevaisuus. Annals of Mathematical Statistics 33: 1-67 (ks. s.13-14) Epäilemättä hän sanoi vastaavia asioita muina aikoina, mutta että ’ s tavallinen lähde.
- Kopioin omani alkuperäisestä julkaisusta.
Vastaa
Löysin tämän Thad Tarpeyn 2009 JSA-keskustelu hyödyllisen selityksen ja kommentin laatikkokohdasta.Hän väittää, että jos pidämme malleja arvioina totuuteen, voimme yhtä helposti kutsua kaikkia malleja oikeiksi.
Tässä on tiivistelmä:
Tilastotieteen opiskelijoille esitellään usein George Boxin kuuluisa lainaus: ”Kaikki mallit ovat vääriä, jotkut ovat hyödyllisiä”. Tässä keskustelussa väitän, että vaikka tämä lainaus on hyödyllinen, se on väärä. Erilainen ja positiivisempi näkökulma on tunnustaa, että malli on yksinkertaisesti keino kerätä kiinnostavaa tietoa datasta. Totuus on äärettömän monimutkainen ja malli on vain lähentäminen totuutta. Jos likiarvo on huono tai harhaanjohtava, malli on hyödytön. Tässä keskustelussa annan esimerkkejä oikeista malleista, jotka eivät ole totta. Havainnollistan, kuinka ”väärän” mallin käsite voi johtaa vääriin johtopäätöksiin.
Vastaa
Koska kukaan ei ole lisännyt sitä, George Box käytti mainittua vaihetta esitellessään seuraavan osan kirjassa. Uskon, että hän tekee parhaan työn selittääkseen mitä tarkoitti:
Nyt olisi erittäin merkittävää, jos jokin reaalimaailmassa olemassa oleva järjestelmä voisi olla tarkalleen edustaa mikä tahansa yksinkertainen malli. Taitavasti valitut yksinkertaiset mallit tarjoavat kuitenkin usein huomattavan hyödyllisiä likiarvoja. Esimerkiksi laki $ PV = RT $ , joka liittyy paineeseen $ P $ , tilavuus $ V $ ja lämpötila $ T $ ” ihanteellisesta ” kaasu vakion $ R $ kautta ei ole totta millään todellisella kaasulla, mutta se tarjoaa usein hyödyllisen arvioinnin ja lisäksi sen rakenne on informatiivinen, koska se syntyy fyysisestä näkökulmasta kaasumolekyylien käyttäytymiseen.
Tällaista mallia varten ei tarvitse kysyä kysymystä ” Onko malli totta ? ”. Jos ” totuus ” on oltava ” koko totuus ” vastauksen on oltava ” Ei ”. Ainoa kiinnostava kysymys on ” Onko malli valaiseva ja hyödyllinen? ”.
Box, GEP (1979 ), ” Vankkuus tieteellisen mallinrakennuksen strategiassa ”, Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, s. 201–236.
Vastaa
Minulle todellinen oivallus on seuraavassa:
Mallin ei tarvitse ole oikea ja hyödyllinen.
Valitettavasti monissa tieteissä unohdetaan usein, että mallien ei välttämättä tarvitse olla tarkkoja todellisuuden esityksiä uusien löytöjen sallimiseksi. ja ennusteita!
Älä siis tuhlaa aikaa monimutkaisen mallin rakentamiseen, joka vaatii tarkkoja mittauksia muuttujien myriadista. Todellinen nero keksi yksinkertaisen mallin, joka tekee työn.
Vastaus
Malli ei pysty tarjoamaan 100% tarkkoja ennusteita, jos tuloksissa on satunnaisuutta. Jos epävarmuutta, satunnaisuutta tai virheitä ei ollut, Sitten sitä pidetään tosiasiana eikä mallina. Ensimmäinen on erittäin tärkeä, koska mallit ovat usein käytetään mallinnamaan odotuksia tapahtumista, joita ei ole tapahtunut. Tämä melkein takaa, että todellisista tapahtumista on jonkin verran epävarmuutta.
Kun annetaan täydelliset tiedot, teoriassa voi olla mahdollista luoda malli, joka antaa täydelliset ennusteet tällaisille tarkalleen tunnetuille tapahtumille. Jopa näissä epätodennäköisissä olosuhteissa tällainen malli voi kuitenkin olla niin monimutkainen, että sitä ei voida käyttää laskennallisesti, ja se voi olla tarkka vain tiettynä ajankohtana, kun muut tekijät muuttavat sitä, miten arvot muuttuvat tapahtumien kanssa.
Koska epävarmuus ja satunnaisuus ovat läsnä useimmissa tosielämän tiedoissa, pyrkimykset täydellisen mallin saamiseksi ovat turhia. Sen sijaan on arvokkaampaa tarkastella riittävän tarkan mallin hankkimista, joka on riittävän yksinkertainen käytettäväksi sekä datan että sen käyttöön tarvittavan laskennan kannalta. Vaikka näiden mallien tiedetään olevan epätäydellisiä, jotkut näistä puutteista ovat hyvin tunnettuja, ja niitä voidaan harkita mallien perusteella tehtävässä päätöksenteossa.
Yksinkertaisemmat mallit voivat olla epätäydellisiä, mutta niitä on myös helpompi perustella , verrata toisiinsa, ja voi olla helpompaa työskennellä, koska ne ovat todennäköisesti vähemmän laskennallisesti vaativia.
Vastaa
Jos saan, vain yksi kommentti voi olla hyödyllinen. Pidän mieluummin versiosta prase
(…) kaikki mallit ovat likiarvoja. Pohjimmiltaan kaikki mallit ovat vääriä, mutta jotkut ovat hyödyllisiä (…)
otettu Box and Draperin julkaisusta Response Surfaces, Seokset ja Ridge Analyses (2007, s. 414, Wiley) . Laajennettua tarjousta tarkasteltaessa on selvempää, mitä Box tarkoitti – tilastollinen mallintaminen on lähentämistä todellisuuteen, ja likiarvo ei ole koskaan tarkka, joten on kyse sopivimman sopivuuden arvioinnista . Mikä on tarkoitukseesi sopivaa, on subjektiivinen asia, minkä vuoksi hyödyllinen ei ole yksi malleista, mutta mahdollisesti jotkut niistä ovat mallinnuksen tarkoituksesta riippuen.
Vastaa
Saatat ajatella sitä tällä tavalla. objektin suurin monimutkaisuus (ts. entropia) noudattaa Bekensteinin sidottujen muotojen muotoa:
$$ I \ le \ frac { 2 \ pi RE} {\ hbar c \ ln 2} $$
missä $ E $ on koko lepoenergia mukaan lukien massa, ja $ R $ on objektia ympäröivän pallon säde.
Tämä on suuri määrä, useimmissa tapauksissa:
Bekensteinin sidottu keskimääräiselle ihmisen aivolle olisi 2,58991 · 10 ^ {42} $ bittiä ja edustaa ylärajaa tiedoille, joita tarvitaan keskimääräisen ihmisen aivojen täydelliseen luomiseen kvanttitasolle. Tämä tarkoittaa, että eri tilojen lukumäärä Ihmisen aivojen (ja mielen, jos fyysisyys on totta) ($ Ω = 2 ^ I $) arvo on enintään 107,79640 · 10 ^ {41} $.
Haluatko siis käyttää ”parasta karttaa”, ts. itse aluetta, kaikkien aaltoyhtälöiden kanssa kaikkien solujen kaikkien hiukkasten suhteen? Ehdottomasti ei. Ei vain se olisi laskennallinen katastrofi, mutta yo mallinnat asioita, joilla ei ehkä ole mitään tekemistä sen kanssa, mistä välität. Jos kaikki, mitä haluat tehdä, on sanoa, onko tunnistettava, enkö ole hereillä, sinun ei tarvitse tietää mitä elektroni # 32458 tekee hermosoluissa # 844030 ribosomi # 2305-molekyyli # 2. Jos et mallintaa sitä, mallisi on todellakin ”väärä”, mutta jos pystyt tunnistamaan, olenko hereillä vai ei, mallisi on ehdottomasti hyödyllinen.
Vastaa
Luulen, että Peter ja käyttäjä11852 antoivat loistavia vastauksia. Lisään myös (kieltämällä), että jos malli olisi todella hyvä, se olisi todennäköisesti hyödytön liian sopivan vuoksi (ei siis yleistettävissä).
Kommentit
- +1 ylivarustuskohdasta. Algoritmit, kuten Naive Bayes ja lineaarinen erotteluanalyysi, toimivat usein erittäin hyvin, vaikka tiedätkin, että taustalla oleva malli on väärä (esim. Roskapostisuodatus), yksinkertaisesti siksi, että parametrien arvioimiseksi tarvitaan vähemmän tietoa.
vastaus
Happotulkintani on: Uskomalla, että matemaattinen malli kuvaa tarkalleen kaikki tekijät ja niiden vuorovaikutuksen, mielenkiinnon kohteena olevan ilmiön hallinta olisi liian yksinkertaista ja ylimielinen. Emme edes tiedä, riittääkö käyttämämme logiikka ymmärtämään universumiamme. Jotkut matemaattiset mallit edustavat kuitenkin riittävän hyvää likiarviointia (tieteellisen menetelmän kannalta), jotka ovat hyödyllisiä johtopäätösten tekemiseksi tällaisesta ilmiöstä.
Vastaus
Astrostatistina (ehkä harvinainen rotu) pidän Boxin sanan mainetta valitettavana. Fysikaalisissa tieteissä meillä on usein vahva yksimielisyys havaitun ilmiön taustalla olevien prosessien ymmärtämisestä, ja nämä prosessit voidaan usein ilmaista matemaattisilla malleilla, jotka johtuvat gravitaation, kvanttimekaniikan, termodynamiikan jne. laeista. Tilastollisina tavoitteina on arvioida parhaiten sopivat malliparametrien fysikaaliset ominaisuudet sekä mallin valinta ja validointi. Euroopan avaruusjärjestön ”s Planck satelliitti ” mittauksista kosmisen mikroaaltotaustan maaliskuussa 2013 julkaisemasta julkaisusta, joka vakuuttavasti muodostaa yksinkertaisen 6-parametrisen LambdaCDM: n ”malli Big Ba: lle ng. Epäilen, että Boxin sanamuotoa sovellettaisiin missä tahansa näissä 29 artikkelissa käytettyjen monien kehittyneiden tilastomenetelmien joukossa.
Vastaus
Olen juuri muotoillut edellisen vastauksen pitämällä prosessimalleja painopisteenä. Lausunto voidaan tulkita seuraavasti:
”Kaikki mallit ovat väärässä”, eli jokainen malli on väärä, koska se on yksinkertaistettu Jotkut mallit ovat vain hieman väärässä. He jättävät huomiotta joitain asioita, esimerkiksi: -> vaatimusten muuttaminen, -> projektin valmistumisen huomiotta jättäminen määräajassa, -> asiakkaan halutun laatutason huomioimatta jättäminen jne. … Muut mallit ovat paljon väärässä – ne jättävät huomiotta suuremmat asiat. Klassiset ohjelmistoprosessimallit jättävät huomiotta paljon verrattuna ketteriin prosessimalleihin, joissa sivuutetaan vähemmän.
”Mutta jotkut ovat hyödyllisiä” – todellisuuden yksinkertaistaminen voi olla varsin hyödyllistä. Ne voivat auttaa meitä selittämään, ennustamaan ja ymmärtämään projektia ja sen kaikkia osia. Malleja käytetään, koska niiden ominaisuudet vastaavat useimpia ohjelmistokehitysohjelmia.
Vastaus
Haluan antaa toisen tulkinnan termille ”hyödyllinen”. Luultavasti ei yksi Box ajatteli.
Kun joudut tekemään päätöksiä ja mihin kaikki tiedot lopulta käytetään, sinun on mitattava menestystäsi jossakin muodossa. Kun puhutaan epävarman tiedon omaavista päätöksistä, tätä toimenpidettä kutsutaan usein hyödylliseksi.
Joten voimme ajatella myös hyödyllisiä malleja sellaisina, joiden avulla voimme tehdä tietoon perustuvia päätöksiä. saavuttaa tavoitteemme tehokkaammin.
Tämä lisää uuden ulottuvuuden tavallisten kriteerien lisäksi, kuten mallin kyky ennustaa jotain oikein: Sen avulla voimme punnita mallin eri näkökohtia kuhunkin nähden muu.
Vastaa
”Kaikki mallit ovat vääriä, mutta jotkut ovat hyödyllisiä”. Ehkä se tarkoittaa: Meidän pitäisi tehdä parhaamme tiedämme + etsiä uutta oppimista?
kommentit
- (-1) Voitteko antaa viitteitä siitä, että G.E.P. Box tarkoitti sitä? Kuten muista vastauksista voi päätellä, hän tarkoitti jotain täysin erilaista.
- OP on ehkä ottanut tarjouksen ja antanut sille uuden tulkinnan. Olen Timin kanssa samaa mieltä siitä, että Box sanoi enemmän tai vähemmän äläkä pidä mallia tarkkana tulkintana todellisuudesta, mutta tunnustan, että jokin malli voi kuvata tietoja hyvin.
Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.
Ehkä tästä on enemmän hyötyä.