“ Im Wesentlichen sind alle Modelle falsch, aber einige sind nützlich. „

— Box, George EP; Norman R. Draper (1987). Empirische Modellbildung und Reaktionsflächen, p. 424, Wiley. ISBN 0471810339.

Was genau bedeutet der obige Ausdruck?

Kommentare

  • Auf demselben Buch wurde bereits erwähnt: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful. Vielleicht ist dies hilfreicher.

Antwort

Ich denke, seine Bedeutung lässt sich am besten anhand von zwei Teilen analysieren:

„Alle Modelle sind falsch“, dh jedes Modell ist falsch, weil es eine Vereinfachung der Realität darstellt. Einige Modelle, insbesondere in den „harten“ Wissenschaften, sind nur wenig falsch. Sie ignorieren Dinge wie Reibung oder die Gravitationswirkung winziger Körper. Andere Modelle sind viel falsch – sie ignorieren größere Dinge. In den Sozialwissenschaften ignorieren wir viel.

„Aber einige sind nützlich“ – Vereinfachungen der Realität können sehr nützlich sein. Sie können uns helfen, das Universum und all seine verschiedenen Komponenten zu erklären, vorherzusagen und zu verstehen.

Dies gilt nicht nur für Statistiken! Karten sind eine Art Modell; sie sind falsch. Gute Karten sind jedoch sehr nützlich. Beispiele für andere nützliche, aber falsche Modelle gibt es zuhauf.

Kommentare

  • +1 Weil mir die Analogie der Karten gefällt. Ich ‚ werde sie in Zukunft verwenden!
  • Viele Modelle in den “ harten “ Wissenschaften sind ebenfalls ziemlich weit entfernt (gestern habe ich an einem Seminar teilgenommen, in dem Messungen mit Modell durchgeführt wurden war innerhalb der Fehlerleiste, aber die Fehlerleiste war zwei Größenordnungen).
  • +1. Ich denke, Ihr Schlüsselsatz ist “ jedes Modell ist falsch, weil es ist eine Vereinfachung der Realität „. Die Leute vergessen dies oft – zum Beispiel in naiven Wirtschaftskritikern (ich habe meine eigenen Kritikpunkte, aber sie müssen differenzierter sein als nur das “ Die Realität ist komplexer als Ihr Modell „). Wenn wir nicht Vereinfachen Sie es nicht, Sie haben eine rohe Realität, die zu komplex ist, als dass wir sie verstehen könnten. Wir müssen es also vereinfachen, um einen Einblick zu erhalten.
  • Die Fantasie einer perfekten Karte im Maßstab 1: 1 wurde von vielen Autoren verwendet, darunter Lewis Carroll, Jorge Luis Borges und Umberto Eco. Es wäre eigentlich sinnlos, weil es notwendigerweise nur als das Gebiet, das es abbildet, kompliziert und nicht einfacher zu verstehen wäre (ganz zu schweigen von der Unbeholfenheit, es zu entfalten und zum Lesen auszulegen).
  • Vielleicht können Sie es Fügen Sie außerdem hinzu, dass ein Modell ein bisschen falsch sein muss , da es sonst nicht verallgemeinern würde und daher nicht an anderer Stelle anwendbar wäre. Es gibt einige Antworten, die dies weiter unten sagen. Aber es gibt jetzt zu viele Antworten, um sie alle zu lesen.

Antwort

Dies bedeutet, dass nützliche Erkenntnisse bereitgestellt werden können aus Modellen, die keine perfekte Darstellung der Phänomene sind, die sie modellieren.

Ein statistisches Modell ist eine Beschreibung eines Systems unter Verwendung mathematischer Konzepte. Als solches fügen Sie in vielen Fällen eine bestimmte Abstraktionsebene hinzu, um Ihre Inferenzprozedur zu erleichtern (z. B. Normalität von Messfehlern, zusammengesetzte Symmetrie in Korrelationsstrukturen usw.). Es ist fast unmöglich, dass ein einzelnes Modell ein Phänomen der realen Welt perfekt beschreibt, wenn wir eine subjektive Sicht auf die Welt haben (unser sensorisches System ist nicht perfekt). Trotzdem findet eine erfolgreiche statistische Inferenz statt, da unsere Welt ein gewisses Maß an Konsistenz aufweist, das wir ausnutzen. Unsere fast immer falschen Modelle erweisen sich also als nützlich .

(Ich bin sicher, Sie werden bald eine große, mutige Antwort erhalten, aber ich habe versucht, präzise zu sein zu diesem!)

Kommentare

  • Können wir sagen, dass diese nützlichen Modelle ungefähre Lösungen bieten?
  • @gpuguy : Sicher können Sie. Um John Tukey zu zitieren: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem. (Ich denke tatsächlich, dass das Zitat von JT ‚ erstaunlich aufschlussreich ist.)
  • “ Eine bessere Antwort auf die richtige Frage, die oft vage ist, ist weitaus besser als eine genaue Antwort auf die falsche Frage, die immer präzisiert werden kann. “ John W. Tukey 1962 Die Zukunft der Datenanalyse. Annals of Mathematical Statistics 33: 1-67 (siehe S. 13-14) Zweifellos sagte er zu anderen Zeiten ähnliche Dinge, aber das ‚ ist die übliche Quelle.
  • Ich habe meine aus der Originalveröffentlichung kopiert.

Antwort

Ich habe das gefunden JSA-Vortrag 2009 von Thad Tarpey, um eine nützliche Erklärung und einen Kommentar zur Box-Passage zu liefern.Er argumentiert, wenn wir Modelle als Annäherungen an die Wahrheit betrachten, könnten wir genauso gut alle Modelle als richtig bezeichnen.

Hier ist die Zusammenfassung:

Statistikstudenten werden häufig in das berühmte Zitat von George Box eingeführt: „Alle Modelle sind falsch, einige sind nützlich.“ In diesem Vortrag argumentiere ich, dass dieses Zitat, obwohl es nützlich ist, falsch ist. Eine andere und positivere Perspektive besteht darin, anzuerkennen, dass ein Modell lediglich ein Mittel zum Extrahieren von Informationen von Interesse aus Daten ist. Die Wahrheit ist unendlich komplex und ein Modell ist nur eine Annäherung an die Wahrheit. Wenn die Annäherung schlecht oder irreführend ist, ist das Modell unbrauchbar. In diesem Vortrag gebe ich Beispiele für korrekte Modelle, die keine echten Modelle sind. Ich illustriere, wie die Vorstellung eines „falschen“ Modells zu falschen Schlussfolgerungen führen kann.

Antwort

Da niemand es hinzugefügt hat, hat George Box die angegebene Phase verwendet, um den folgenden Abschnitt in ein Buch einzuführen. Ich glaube, er erklärt am besten, was er meinte:

Nun wäre es sehr bemerkenswert, wenn ein in der realen Welt existierendes System genau dargestellt durch ein einfaches Modell. Listig ausgewählte sparsame Modelle liefern jedoch oft bemerkenswert nützliche Annäherungen. Zum Beispiel das Gesetz $ PV = RT $ in Bezug auf Druck $ P $ , Volumen $ V $ und Temperatur $ T $ eines “ Ideal “ Gas über eine Konstante $ R $ gilt nicht genau für jedes echte Gas, bietet jedoch häufig eine nützliche Annäherung und ist darüber hinaus strukturiert informativ, da es aus einer physikalischen Sicht des Verhaltens von Gasmolekülen stammt.

Für ein solches Modell besteht keine Notwendigkeit, die Frage zu stellen. “ Ist das Modell wahr? ? „. Wenn “ Wahrheit “ die “ ganze Wahrheit Die Antwort muss “ Nein “ sein. Die einzige Frage von Interesse ist “ Ist das Modell aufschlussreich und nützlich? „.

Box, GEP (1979) ), “ Robustheit in der Strategie des wissenschaftlichen Modellbaus „, in Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, S. 201–236.

Answer

Für mich liegt der eigentliche Einblick in folgendem Aspekt:

Ein Modell muss nicht Seien Sie richtig, um nützlich zu sein.

Leider wird in vielen Wissenschaften oft vergessen, dass Modelle nicht unbedingt exakte Darstellungen der Realität sein müssen, um neue Entdeckungen zu ermöglichen und Vorhersagen!

Verschwenden Sie also keine Zeit damit, ein kompliziertes Modell zu erstellen, das genaue Messungen einer Vielzahl von Variablen erfordert. Das wahre Genie erfindet ein einfaches Modell, das die Aufgabe erfüllt.

Antwort

Ein Modell kann keine 100% genauen Vorhersagen liefern, wenn die Ergebnisse zufällig sind. Wenn es keine Unsicherheit, keine Zufälligkeit und keinen Fehler gab, dann wäre es eher eine Tatsache als ein Modell. Das erste ist sehr wichtig, weil Modelle häufig sind wird zur Modellierung der Erwartungen von Ereignissen verwendet, die nicht aufgetreten sind. Dies garantiert fast, dass es eine gewisse Unsicherheit über die tatsächlichen Ereignisse gibt.

Bei perfekter Information könnte es theoretisch möglich sein, ein Modell zu erstellen, das perfekte Vorhersagen für solche genau bekannten Ereignisse liefert. Selbst unter diesen unwahrscheinlichen Umständen kann ein solches Modell jedoch so komplex sein, dass es rechnerisch nicht durchführbar ist, und es kann nur zu einem bestimmten Zeitpunkt genau sein, wenn andere Faktoren die Änderung von Werten mit Ereignissen ändern.

Da in den meisten realen Daten Unsicherheit und Zufälligkeit vorhanden sind, sind Bemühungen um ein perfektes Modell vergeblich. Stattdessen ist es wertvoller, ein ausreichend genaues Modell zu erhalten, das einfach genug ist, um sowohl hinsichtlich der Daten als auch der für seine Verwendung erforderlichen Berechnung verwendet werden zu können. Obwohl bekannt ist, dass diese Modelle nicht perfekt sind, sind einige dieser Fehler bekannt und können für die Entscheidungsfindung auf der Grundlage der Modelle in Betracht gezogen werden.

Einfachere Modelle sind möglicherweise nicht perfekt, aber sie sind auch leichter zu begründen , um miteinander zu vergleichen, und möglicherweise einfacher zu bearbeiten, da sie wahrscheinlich weniger rechenintensiv sind.

Antwort

Wenn ich darf, kann nur ein weiterer Kommentar nützlich sein. Die von mir bevorzugte Version der Prase ist

(…). Alle Modelle sind Näherungswerte. Im Wesentlichen sind alle Modelle falsch, aber einige sind nützlich (…)

entnommen aus Antwortoberflächen, Mischungen und Ridge-Analysen von Box and Draper (2007, S. 414, Wiley) . Wenn man sich das erweiterte Zitat ansieht, wird klarer, was Box bedeutet – bei der statistischen Modellierung geht es darum, die Realität zu approximieren, und die Annäherung ist niemals exakt, daher geht es darum, die am besten geeignete Annäherung zu finden . Was für Ihren Zweck geeignet ist, ist eine subjektive Sache. Deshalb ist nicht eines der Modelle nützlich, sondern möglicherweise einige , abhängig vom Zweck der Modellierung.

Antwort

Sie könnten es so sehen. Die maximale Komplexität (dh Entropie) eines Objekts entspricht einer Form der Bekenstein-Bindung :

$$ I \ le \ frac { 2 \ pi RE} {\ hbar c \ ln 2} $$

wobei $ E $ die gesamte Ruheenergie einschließlich Masse ist und $ R $ der Radius einer Kugel ist, die das Objekt umschließt.

Das ist in den meisten Fällen eine große Zahl:

Die Bekenstein-Grenze für ein durchschnittliches menschliches Gehirn wäre $ 2.58991 · 10 ^ {42} $ Bit und stellt eine Obergrenze für die Informationen dar, die erforderlich sind, um das durchschnittliche menschliche Gehirn bis auf die Quantenebene perfekt wiederherzustellen. Dies impliziert die Anzahl der verschiedenen Zustände ($ Ω = 2 ^ I $) des menschlichen Gehirns (und des Geistes, wenn der Physikalismus wahr ist) beträgt höchstens $ 107.79640 · 10 ^ {41} $.

Wollen Sie also „die beste Karte“, dh das Territorium selbst, mit allen Wellengleichungen für alle Partikel in jeder Zelle verwenden? Absolut nicht. Es wäre nicht nur eine Rechenkatastrophe, sondern auch yo Sie würden Dinge modellieren, die im Wesentlichen nichts mit dem zu tun haben, was Sie interessiert. Wenn Sie beispielsweise nur feststellen möchten, ob ich wach bin oder nicht, müssen Sie nicht wissen, was das Elektron Nr. 32458 im Molekül Nr. 2 des Neuros Nr. 844030 Ribosom Nr. 2305 tut. Wenn Sie das nicht modellieren, ist Ihr Modell in der Tat „falsch“, aber wenn Sie feststellen können, ob ich wach bin oder nicht, ist Ihr Modell definitiv nützlich.

Antwort

Ich denke, Peter und user11852 haben großartige Antworten gegeben. Ich würde auch hinzufügen (durch Negation), dass ein Modell, wenn es wirklich gut wäre, wahrscheinlich wegen Überanpassung nutzlos wäre (daher nicht verallgemeinerbar).

Kommentare

  • +1 für den Punkt der Überanpassung. Algorithmen wie Naive Bayes und lineare Diskriminanzanalyse funktionieren oft sehr gut, selbst wenn Sie wissen, dass das zugrunde liegende Modell falsch ist (z. B. Spam-Filterung), einfach weil weniger Daten zur Schätzung der Parameter benötigt werden.

Antwort

Meine saure Interpretation lautet: Zu glauben, dass ein mathematisches Modell genau alle Faktoren und ihre Wechselwirkungen beschreibt, die ein interessierendes Phänomen bestimmen, wäre zu einfach und arrogant. Wir wissen nicht einmal, ob die Logik, die wir verwenden, ausreicht, um unser Universum zu verstehen. Einige mathematische Modelle stellen jedoch eine hinreichend gute Annäherung dar (im Hinblick auf die wissenschaftliche Methode), die nützlich ist, um Schlussfolgerungen über ein solches Phänomen zu ziehen.

Antwort

Als Astrostatiker (vielleicht eine seltene Rasse) finde ich den Ruhm von Box s Diktum unglücklich. In den Naturwissenschaften haben wir oft einen starken Konsens darüber, die Prozesse zu verstehen, die einem beobachteten Phänomen zugrunde liegen, und Diese Prozesse können häufig durch mathematische Modelle ausgedrückt werden, die sich aus den Gesetzen der Gravitation, der Quantenmechanik, der Thermodynamik usw. ergeben. Die statistischen Ziele bestehen darin, die physikalischen Eigenschaften der am besten geeigneten Modellparameter sowie die Modellauswahl und -validierung abzuschätzen. Ein dramatischer neuer Fall ist aufgetreten aus der Veröffentlichung von Arbeiten der Europäischen Weltraumorganisation „s Planck-Satellit von Messungen des kosmischen Mikrowellenhintergrunds im März 2013, die überzeugend ein einfaches LambdaCDM mit 6 Parametern etablieren „Modell für den Big Ba ng. Ich bezweifle, dass das Diktum von Box innerhalb des breiten Spektrums fortgeschrittener statistischer Methoden, die in diesen 29 Artikeln verwendet werden, überall gelten würde.

Antwort

Ich habe die obige Antwort gerade umformuliert, indem ich Prozessmodelle als Fokuspunkt betrachtet habe. Die Aussage kann wie folgt interpretiert werden:

„Alle Modelle sind falsch“, dh jedes Modell ist falsch, weil es eine Vereinfachung von ist Realität. Einige Modelle sind nur ein wenig falsch. Sie ignorieren einige Dinge, zum Beispiel: -> sich ändernde Anforderungen, -> Ignorieren des Projektabschlusses innerhalb der Frist, -> ohne Berücksichtigung des vom Kunden gewünschten Qualitätsniveaus usw. … Andere Modelle sind viel falsch – sie ignorieren größere Dinge. Klassische Software-Prozessmodelle ignorieren viel im Vergleich zu agilen Prozessmodellen, die weniger ignorieren.

„Aber einige sind nützlich“ – Vereinfachungen der Realität können sehr nützlich sein. Sie können uns helfen, das Gesamtprojekt und all seine verschiedenen Komponenten zu erklären, vorherzusagen und zu verstehen. Modelle werden verwendet, weil ihre Funktionen den meisten Softwareentwicklungsprogrammen entsprechen.

Antwort

Ich möchte den Begriff „nützlich“ noch einmal interpretieren. Wahrscheinlich nicht die, an die Box gedacht hat.

Wenn Sie Entscheidungen treffen müssen und dafür alle Informationen verwendet werden, müssen Sie Ihren Erfolg in irgendeiner Form messen. Wenn über Entscheidungen mit unsicheren Informationen gesprochen wird, wird diese Maßnahme häufig als Nutzen bezeichnet.

Wir können uns also nützliche Modelle als solche vorstellen, die es uns ermöglichen, fundiertere Entscheidungen zu treffen. um unsere Ziele effektiver zu erreichen.

Dies fügt zusätzlich zu den üblichen Kriterien eine weitere Dimension hinzu, z. B. die Fähigkeit eines Modells, etwas richtig vorherzusagen: Es ermöglicht uns, die verschiedenen Aspekte eines Modells gegeneinander abzuwägen andere.

Antwort

„Alle Modelle sind falsch, aber einige sind nützlich“. Vielleicht bedeutet es: Wir sollten mit dem, was wir wissen, das Beste tun, was wir können + nach neuem Lernen suchen?

Kommentare

  • (-1) Können Sie eine Referenz angeben, die darauf hindeutet, dass G.E.P. Box meinte das? Wie Sie den anderen Antworten entnehmen können, meinte er etwas völlig anderes.
  • Das OP nimmt das Zitat vielleicht und interpretiert es neu. Ich stimme Tim zu, dass Box mehr oder weniger sagte, dass ‚ das Modell nicht als exakte Interpretation der Realität betrachtet, sondern dass einige Modelle die Daten gut beschreiben können.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.