” In wezen zijn alle modellen verkeerd, maar sommige zijn nuttig. “

— Box, George EP; Norman R. Draper (1987). Empirische modelopbouw en responsoppervlakken, p. 424, Wiley. ISBN 0471810339.

Wat is precies de betekenis van de bovenstaande zin?

Opmerkingen

  • Over hetzelfde boek werd eerder genoemd: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful. Misschien is dit meer nuttig.

Antwoord

Ik denk dat de betekenis ervan het beste kan worden geanalyseerd door er in twee delen naar te kijken:

“Alle modellen zijn fout” dat wil zeggen, elk model is fout omdat het een vereenvoudiging van de werkelijkheid is. Sommige modellen, vooral in de “harde” wetenschappen, hebben het maar een beetje mis. Ze negeren zaken als wrijving of het zwaartekrachteffect van kleine lichaampjes. Andere modellen hebben veel ongelijk – ze negeren grotere dingen. In de sociale wetenschappen negeren we veel.

“Maar sommige zijn nuttig” – vereenvoudigingen van de werkelijkheid kunnen behoorlijk nuttig zijn. Ze kunnen ons helpen het universum en al zijn verschillende componenten uit te leggen, te voorspellen en te begrijpen.

Dit is niet alleen waar in statistieken! Kaarten zijn een type model; ze zijn verkeerd. Maar goede kaarten zijn erg handig. Voorbeelden van andere nuttige maar verkeerde modellen zijn er in overvloed.

Opmerkingen

  • +1 Omdat ik de analogie van de kaarten leuk vind. Ik ‘ zal het in de toekomst gebruiken!
  • Veel modellen in de ” harde ” wetenschappen zijn ook behoorlijk ver weg (gisteren woonde ik een seminar bij waar metingen bevond zich in de foutbalk, maar de foutbalk was twee orden van grootte).
  • +1. Ik denk dat je sleutelzin ” is, elk model is fout omdat dit zo is een vereenvoudiging van de realiteit “. Mensen vergeten dit vaak – bijvoorbeeld in naïeve kritiek op de economie (ik heb mijn eigen kritiek, maar ze moeten geavanceerder zijn dan alleen dat ” realiteit is complexer dan uw model “). Als we t vereenvoudig het, je hebt een ruwe realiteit, die voor ons te complex is om te begrijpen. Dus we moeten het vereenvoudigen om enig inzicht te krijgen.
  • De fantasie van een perfecte kaart op schaal 1: 1 is door veel auteurs gebruikt, waaronder Lewis Carroll, Jorge Luis Borges en Umberto Eco. Het zou eigenlijk geen zin hebben omdat het noodzakelijkerwijs gewoon ingewikkeld zou zijn als het gebied dat het in kaart brengt en niet gemakkelijker te begrijpen is (om nog maar te zwijgen van de onhandigheid van het uitvouwen en neerleggen om te lezen).
  • Misschien wel voeg ook toe dat een model een beetje verkeerd moet zijn, omdat het anders niet generaliseert en dus niet elders toepasbaar is. Er zijn enkele antwoorden die dit verderop zeggen. Maar er zijn nu te veel antwoorden om ze allemaal te lezen.

Antwoord

Het betekent dat er nuttige inzichten kunnen worden gegeven uit modellen die geen perfecte weergave zijn van de verschijnselen die ze modelleren.

Een statistisch model is een beschrijving van een systeem met behulp van wiskundige concepten. Als zodanig voegt u in veel gevallen een bepaalde abstractielaag toe om uw inferentiële procedure te vergemakkelijken (bijv. Normaliteit van meetfouten, samengestelde symmetrie in correlatiestructuren enz.). Het is bijna onmogelijk voor een enkel model om een fenomeen in de echte wereld perfect te beschrijven, aangezien we een subjectieve kijk op de wereld hebben (ons sensorisch systeem is niet perfect); niettemin vindt succesvolle statistische gevolgtrekking plaats omdat onze wereld een zekere mate van consistentie heeft die we exploiteren. Dus onze bijna altijd verkeerde modellen blijken nuttig .

(Ik weet zeker dat je binnenkort een groot gewaagd antwoord zult krijgen, maar ik heb geprobeerd beknopt te zijn op deze!)

Opmerkingen

  • Kunnen we zeggen dat deze bruikbare modellen benaderende oplossingen bieden?
  • @gpuguy : Natuurlijk. Om John Tukey te citeren: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem. (ik denk eigenlijk dat JT ‘ s citaat verbazingwekkend inzichtelijk is.)
  • ” Een veel beter antwoord bij benadering op de juiste vraag, die vaak vaag is, dan een exact antwoord op de verkeerde vraag, die altijd nauwkeurig kan worden gemaakt. ” John W. Tukey 1962 De toekomst van data-analyse. Annals of Mathematical Statistics 33: 1-67 (zie pp.13-14) Ongetwijfeld zei hij op andere momenten soortgelijke dingen, maar dat ‘ is de gebruikelijke bron.
  • Ik heb de mijne gekopieerd uit de originele publicatie.

Antwoord

Ik heb dit gevonden 2009 JSA-lezing door Thad Tarpey om een bruikbare uitleg en commentaar te geven op de Box-passage.Hij stelt dat als we modellen beschouwen als benaderingen van de waarheid, we net zo goed alle modellen goed zouden kunnen noemen.

Hier is de samenvatting:

Statistiekstudenten maken vaak kennis met het beroemde citaat van George Box: “alle modellen kloppen niet, sommige zijn nuttig.” In deze lezing betoog ik dat dit citaat, hoewel nuttig, onjuist is. Een ander en positiever perspectief is te erkennen dat een model gewoon een middel is om interessante informatie uit gegevens te halen. De waarheid is oneindig complex en een model is slechts een benadering van de waarheid. Als de benadering slecht of misleidend is, is het model nutteloos. In deze lezing geef ik voorbeelden van correcte modellen die geen echte modellen zijn. Ik illustreer hoe de notie van een verkeerd model tot verkeerde conclusies kan leiden.

Antwoord

Omdat niemand het heeft toegevoegd, gebruikte George Box de aangehaalde fase om de volgende sectie in een boek te introduceren. Ik geloof dat hij het beste uitlegt wat hij bedoelde:

Nu zou het heel opmerkelijk zijn als een systeem dat in de echte wereld bestaat, exact weergegeven door een eenvoudig model. Sluw gekozen spaarzame modellen leveren echter vaak opmerkelijk bruikbare benaderingen op. Bijvoorbeeld de wet $ PV = RT $ betreffende druk $ P $ , volume $ V $ en temperatuur $ T $ van een ” ideaal ” gas via een constante $ R $ is niet precies waar voor echt gas, maar het geeft vaak een bruikbare benadering en bovendien is de structuur informatief omdat het voortkomt uit een fysieke kijk op het gedrag van gasmoleculen.

Voor een dergelijk model is het niet nodig de vraag te stellen ” Is het model waar ? “. Als ” truth ” de ” hele waarheid het antwoord moet ” Nee ” zijn. De enige interessante vraag is ” Is het model verhelderend en nuttig? “.

Box, GEP (1979 ), ” Robuustheid in de strategie van wetenschappelijke modelbouw “, in Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, pp. 201–236.

Antwoord

Voor mij ligt het feitelijke inzicht in het volgende aspect:

Een model hoeft niet juist zijn om nuttig te zijn.

Helaas wordt in veel wetenschappen vaak vergeten dat modellen niet per se een exacte weergave van de werkelijkheid hoeven te zijn om nieuwe ontdekkingen mogelijk te maken en voorspellingen!

Dus verspil geen tijd met het bouwen van een gecompliceerd model dat nauwkeurige metingen van een groot aantal variabelen nodig heeft. Het ware genie vindt een eenvoudig model uit dat het werk doet.

Antwoord

Een model kan geen 100% nauwkeurige voorspellingen doen als de uitkomsten willekeurig zijn. Als er geen onzekerheid, geen willekeur en geen fout is, dan zou het als een feit worden beschouwd in plaats van als een model.Het eerste is erg belangrijk, omdat modellen vaak zijn gebruikt voor het modelleren van verwachtingen van gebeurtenissen die niet hebben plaatsgevonden. Dit garandeert bijna dat er enige onzekerheid bestaat over de echte gebeurtenissen.

Gegeven perfecte informatie, zou het in theorie mogelijk kunnen zijn om een model te maken dat perfecte voorspellingen geeft voor zulke precies bekende gebeurtenissen. Maar zelfs gezien deze onwaarschijnlijke omstandigheden, kan een dergelijk model zo complex zijn dat het rekenkundig niet haalbaar is om te gebruiken, en kan het alleen nauwkeurig zijn op een bepaald moment in de tijd, aangezien andere factoren veranderen hoe waarden veranderen met gebeurtenissen.

Aangezien onzekerheid en willekeur aanwezig zijn in de meeste gegevens uit de echte wereld, zijn pogingen om een perfect model te verkrijgen een zinloze oefening. In plaats daarvan is het waardevoller om te kijken naar het verkrijgen van een voldoende nauwkeurig model dat eenvoudig genoeg is om bruikbaar te zijn in termen van zowel de gegevens als de berekening die nodig zijn voor het gebruik ervan. Hoewel bekend is dat deze modellen onvolmaakt zijn, zijn sommige van deze tekortkomingen algemeen bekend en kunnen ze in overweging worden genomen bij het nemen van beslissingen op basis van de modellen.

Eenvoudigere modellen kunnen onvolmaakt zijn, maar ze zijn ook gemakkelijker te beredeneren , om met elkaar te vergelijken, en wellicht gemakkelijker zijn om mee te werken omdat ze waarschijnlijk minder rekenkundig veeleisend zijn.

Antwoord

Als ik mag, kan nog één opmerking nuttig zijn. De versie van de prase waaraan ik de voorkeur geef is

(…) alle modellen zijn benaderingen. In wezen zijn alle modellen verkeerd, maar sommige zijn nuttig (…)

overgenomen uit Response Surfaces, Mixtures, and Ridge Analyses door Box and Draper (2007, p. 414, Wiley) . Als we naar het uitgebreide citaat kijken, is het duidelijker wat Box bedoelde: statistische modellering gaat over het benaderen van de realiteit en de benadering is nooit exact, dus het gaat erom de meest geschikte benadering te vinden . Wat geschikt is voor uw doel is een subjectief iets, daarom is het niet een van de modellen die nuttig is, maar mogelijk enkele ervan, afhankelijk van het doel van het modelleren.

Answer

Je zou er op deze manier over kunnen denken. de maximale complexiteit (dwz entropie) van een object voldoet aan een of andere vorm van de Bekenstein-gebonden :

$$ I \ le \ frac { 2 \ pi RE} {\ hbar c \ ln 2} $$

waarbij $ E $ de totale rustenergie is inclusief massa, en $ R $ de straal is van een bol die het object omsluit.

Dat “is in de meeste gevallen een groot aantal:

De Bekenstein gebonden voor een gemiddeld menselijk brein zou $ 2,58991 · 10 ^ {42} $ bit zijn en vertegenwoordigt een bovengrens voor de informatie die nodig is om het gemiddelde menselijke brein perfect te recreëren tot op kwantumniveau. Dit impliceert dat het aantal verschillende toestanden ($ Ω = 2 ^ I $) van het menselijk brein (en van de geest als het fysicalisme waar is) is maximaal $ 107.79640 · 10 ^ {41} $.

Dus wil je “de beste kaart” gebruiken, dwz het territorium zelf, met alle golfvergelijkingen voor alle deeltjes in elke cel? Absoluut niet. Het zou niet alleen een rekenramp zijn, maar ja u zou dingen modelleren die in wezen niets te maken hebben met datgene waar u om geeft. Als je bijvoorbeeld alleen maar wilt vaststellen of ik wakker ben, hoef je niet te weten wat elektron # 32458 doet in neuron # 844030, ribosoom # 2305, molecuul # 2. Als je dat niet modelleert, is je model inderdaad “fout”, maar als je kunt vaststellen of ik wel of niet wakker ben, is je model zeker nuttig.

Antwoord

Ik denk dat Peter en user11852 geweldige antwoorden hebben gegeven. Ik zou er ook aan willen toevoegen (door ontkenning) dat als een model echt goed was, het waarschijnlijk nutteloos zou zijn vanwege overfitting (dus niet generaliseerbaar).

Opmerkingen

  • +1 voor het punt van overfitting. Algoritmen zoals Naive Bayes en lineaire discriminantanalyse werken vaak erg goed, zelfs als u weet dat het onderliggende model onjuist is (bijv. Spamfiltering), simpelweg omdat er minder gegevens nodig zijn om de parameters te schatten.

Answer

Mijn zure interpretatie is: geloven dat een wiskundig model precies alle factoren beschrijft, en hun interacties, zou het sturen van een interessant fenomeen te simplistisch zijn en arrogant. We weten niet eens of de logica die we gebruiken voldoende is om ons universum te begrijpen. Sommige wiskundige modellen vertegenwoordigen echter een voldoende goede benadering (in termen van de wetenschappelijke methode) die nuttig zijn om conclusies te trekken over een dergelijk fenomeen.

Antwoord

Als astrostatisticus (misschien een zeldzaam ras) vind ik de roem van Boxs uitspraak jammer. In de natuurwetenschappen hebben we vaak een sterke consensus over het begrijpen van de onderliggende processen van een waargenomen fenomeen, en deze processen kunnen vaak worden uitgedrukt door wiskundige modellen die voortkomen uit de wetten van gravitatie, kwantummechanica, thermodynamica, enz. De statistische doelen zijn om de best passende fysische eigenschappen van modelparameters te schatten, evenals modelselectie en validatie. uit de publicatie van maart 2013 van papers van de European Space Agency “s Planck-satelliet ” s metingen van de kosmische microgolfachtergrond die overtuigend een eenvoudige 6-parameter `LambdaCDM “model voor de Big Ba ng. Ik betwijfel of de uitspraak van Box overal zou gelden binnen het brede scala aan geavanceerde statistische methoden die in deze 29 artikelen worden gebruikt.

Antwoord

Ik heb zojuist het bovenstaande antwoord geherformuleerd door procesmodellen als focuspunt te beschouwen. De stelling kan als volgt worden geïnterpreteerd:

“Alle modellen zijn fout” dat wil zeggen, elk model is fout omdat het een vereenvoudiging is van realiteit. Sommige modellen zijn maar een beetje fout. Ze negeren een aantal dingen, bijvoorbeeld: -> veranderende eisen, -> negeren van de voltooiing van het project binnen de deadline, -> geen rekening houden met het gewenste kwaliteitsniveau van de klant enz. … Andere modellen hebben veel ongelijk – ze negeren grotere dingen. Klassieke softwareprocesmodellen negeren veel in vergelijking met agile procesmodellen die minder negeren.

“Maar sommige zijn nuttig” – vereenvoudigingen van de werkelijkheid kunnen behoorlijk nuttig zijn. Ze kunnen ons helpen bij het uitleggen, voorspellen en begrijpen van het totale project en al zijn verschillende componenten. Modellen worden gebruikt omdat hun eigenschappen overeenkomen met de meeste softwareontwikkelingsprogrammas.

Antwoord

Ik zou graag een andere interpretatie willen geven van de term “nuttig”. Waarschijnlijk niet degene waar Box aan dacht.

Als je beslissingen moet nemen, en dit is waar alle informatie uiteindelijk voor zal worden gebruikt, dan moet je je succes in een of andere vorm meten. Wanneer we het hebben over beslissingen met onzekere informatie, wordt deze maatregel vaak nut genoemd.

We kunnen dus ook aan nuttige modellen denken als modellen die ons in staat stellen beter geïnformeerde beslissingen te nemen; om onze doelen effectiever te bereiken.

Dit voegt een extra dimensie toe bovenop de gebruikelijke criteria, zoals het vermogen van een model om iets correct te voorspellen: het stelt ons in staat om de verschillende aspecten van een model af te wegen tegen elk andere.

Antwoord

“Alle modellen kloppen niet, maar sommige zijn nuttig”. Misschien betekent het: we moeten ons best doen met wat we weten + zoeken naar nieuw leren?

Opmerkingen

  • (-1) Kunt u een referentie geven die suggereert dat G.E.P. Box bedoelde dat? Zoals je uit de andere antwoorden kunt opmaken, bedoelde hij iets totaal anders.
  • Misschien neemt het OP het citaat over en geeft het een nieuwe interpretatie. Ik ben het met Tim eens dat Box min of meer zei: neem niet ‘ het model als een exacte interpretatie van de werkelijkheid, maar erken dat een of ander model de gegevens goed kan beschrijven.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *