» Essentiellement, tous les modèles sont faux, mais certains sont utiles. «
— Box, George EP; Norman R. Draper (1987). Construction de modèles empiriques et surfaces de réponse, p. 424, Wiley. ISBN 0471810339.
Quelle est exactement la signification de la phrase ci-dessus?
Commentaires
Réponse
Je pense que sa signification est mieux analysée en lexaminant en deux parties:
« Tous les modèles sont faux » cest-à-dire que chaque modèle est faux parce que cest une simplification de la réalité. Certains modèles, en particulier dans les sciences «dures», ne sont quun peu faux. Ils ignorent des choses comme la friction ou leffet gravitationnel de petits corps. Dautres modèles sont très faux – ils ignorent les choses plus importantes. Dans les sciences sociales, nous ignorons beaucoup de choses.
« Mais certaines sont utiles » – les simplifications de la réalité peuvent être très utiles. Ils peuvent nous aider à expliquer, prédire et comprendre lunivers et toutes ses différentes composantes.
Ce nest pas seulement vrai dans les statistiques! Les cartes sont un type de modèle; elles sont fausses. Mais les bonnes cartes sont très utiles. Les exemples dautres modèles utiles mais erronés abondent.
Commentaires
- +1 Parce que jaime lanalogie des cartes. Je ‘ je lutiliserai à lavenir!
- De nombreux modèles dans les sciences » hard » sont également assez éloignés (hier, jai assisté à un séminaire où les mesures était dans la barre derreur, mais la barre derreur était de deux ordres de grandeur).
- +1. Je pense que votre phrase clé est » chaque modèle est faux car il est une simplification de la réalité « . Les gens oublient souvent cela – par exemple dans les critiques naïves de l’économie (j’ai mes propres critiques, mais elles doivent être plus sophistiquées que cela » la réalité est plus complexe que votre modèle « ). Si nous navons pas t simplifier, vous avez la réalité brute, qui est trop complexe pour que nous la comprenions. Nous devons donc le simplifier pour obtenir un aperçu.
- Le fantasme dune carte parfaite à léchelle 1: 1 a été utilisé par de nombreux auteurs, dont Lewis Carroll, Jorge Luis Borges et Umberto Eco. Ce ne serait en fait daucune utilité car ce serait nécessairement simplement compliqué comme la zone quil cartographie et pas plus facile à comprendre (sans parler de la maladresse de le déplier et de le mettre en forme pour le lire).
- Peut-être que vous pouvez ajouter aussi quun modèle doit être un peu faux, car sinon il ne se généraliserait pas et ne serait donc pas applicable ailleurs. Il y a des réponses qui disent cela plus bas. Mais il y a maintenant trop de réponses pour les lire toutes.
Réponse
Cela signifie que des informations utiles peuvent être fournies à partir de modèles qui ne sont pas une représentation parfaite des phénomènes quils modélisent.
Un modèle statistique est une description dun système utilisant des concepts mathématiques. En tant que tel, dans de nombreux cas, vous ajoutez une certaine couche dabstraction pour faciliter votre procédure dinférence (par exemple, normalité des erreurs de mesure, symétrie composée dans les structures de corrélation, etc.). Il est presque impossible pour un seul modèle de décrire parfaitement un phénomène du monde réel étant donné que nous avons une vision subjective du monde (notre système sensoriel nest pas parfait); néanmoins, une inférence statistique réussie se produit car notre monde possède un certain degré de cohérence que nous exploitons. Donc, nos modèles presque toujours erronés savèrent utiles .
(Je suis sûr que vous aurez bientôt une réponse audacieuse mais jai essayé dêtre concis sur celui-ci!)
Commentaires
- Peut-on dire que ces modèles utiles fournissent des solutions approximatives?
- @gpuguy : Bien sûr que vous pouvez. Pour citer John Tukey:
An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.
(je pense en fait que la citation de JT ‘ est incroyablement perspicace.) - » Bien mieux une réponse approximative à la bonne question, qui est souvent vague, quune réponse exacte à la mauvaise question, qui peut toujours être précise. » John W. Tukey 1962 Lavenir de lanalyse des données. Annals of Mathematical Statistics 33: 1-67 (voir pages 13-14) Il a sans doute dit des choses similaires à dautres moments, mais que ‘ est la source habituelle.
- Jai copié la mienne à partir de la publication originale.
Réponse
Jai trouvé ceci 2009 JSA talk par Thad Tarpey pour fournir une explication et un commentaire utiles sur le passage de Box.Il soutient que si nous considérons les modèles comme des approximations de la vérité, nous pourrions tout aussi bien appeler tous les modèles correctement.
Voici le résumé:
Les étudiants en statistiques sont souvent initiés à la célèbre citation de George Box: « tous les modèles sont faux, certains sont utiles. » Dans cet exposé, je soutiens que cette citation, bien quutile, est fausse. Une perspective différente et plus positive consiste à reconnaître quun modèle est simplement un moyen dextraire des informations dintérêt à partir de données. La vérité est infiniment complexe et un modèle nest quune approximation de la vérité. Si lapproximation est mauvaise ou trompeuse, alors le modèle est inutile. Dans cet exposé, je donne des exemples de modèles corrects qui ne sont pas de vrais modèles. Jillustre comment la notion de «mauvais» modèle peut conduire à de fausses conclusions.
Réponse
Comme personne ne la ajouté, George Box a utilisé la phase citée pour introduire la section suivante dans un livre. Je crois quil fait le meilleur travail pour expliquer ce quil voulait dire:
Maintenant, ce serait très remarquable si un système existant dans le monde réel pouvait être exactement représenté par nimporte quel modèle simple. Cependant, des modèles parcimonieux judicieusement choisis fournissent souvent des approximations remarquablement utiles. Par exemple, la loi $ PV = RT $ relative à la pression $ P $ , volume $ V $ et température $ T $ dun » idéal » gaz via une constante $ R $ nest pas exactement vrai pour nimporte quel gaz réel, mais il fournit souvent une approximation utile et de plus sa structure est informatif puisquil découle dune vue physique du comportement des molécules de gaz.
Pour un tel modèle, il nest pas nécessaire de se poser la question » Le modèle est-il vrai ? « . Si » vérité » doit être la » vérité entière » la réponse doit être » Non « . La seule question intéressante est » Le modèle est-il éclairant et utile? « .
Encadré, GEP (1979 ), » Robustesse dans la stratégie de construction de modèles scientifiques « , dans Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, pp. 201-236.
Réponse
Pour moi, la perspicacité réelle réside dans laspect suivant:
Un modèle na pas à être correct pour être utile.
Malheureusement, dans de nombreuses sciences, on oublie souvent que les modèles nont pas nécessairement besoin dêtre des représentations exactes de la réalité pour permettre de nouvelles découvertes et des prédictions!
Alors ne perdez pas votre temps à construire un modèle compliqué qui nécessite des mesures précises dune myriade de variables. Le vrai génie invente un modèle simple qui fait le travail.
Réponse
Un modèle ne peut pas fournir de prédictions précises à 100% sil y a un caractère aléatoire dans les résultats. Sil ny a pas dincertitude, pas de hasard et pas derreur, alors il serait considéré comme un fait plutôt que comme un modèle. Le premier est très important, car les modèles sont fréquemment utilisé pour modéliser les attentes dévénements qui ne se sont pas produits. Cela garantit presque quil y a une certaine incertitude sur les événements réels.
Avec des informations parfaites, en théorie, il pourrait être possible de créer un modèle qui donne des prédictions parfaites pour des événements connus avec précision. Cependant, même dans ces circonstances improbables, un tel modèle peut être si complexe quil est impossible à utiliser dun point de vue informatique, et ne peut être précis quà un moment donné, car dautres facteurs modifient la façon dont les valeurs changent avec les événements.
Puisque lincertitude et le caractère aléatoire sont présents dans la plupart des données du monde réel, les efforts pour obtenir un modèle parfait sont un exercice futile. Au lieu de cela, il est plus intéressant de chercher à obtenir un modèle suffisamment précis et suffisamment simple pour être utilisable en termes à la fois de données et de calculs nécessaires à son utilisation. Bien que ces modèles soient connus pour être imparfaits, certains de ces défauts sont bien connus et peuvent être pris en compte pour la prise de décision basée sur les modèles.
Les modèles plus simples peuvent être imparfaits, mais ils sont également plus faciles à raisonner. , à comparer les uns aux autres, et peuvent être plus faciles à utiliser car ils sont probablement moins exigeants en termes de calcul.
Réponse
Si vous me le permettez, un seul commentaire de plus peut être utile. La version de la prase que je préfère est
(…) tous les modèles sont des approximations. Essentiellement, tous les modèles sont faux, mais certains sont utiles (…)
extrait de Response Surfaces, Mixtures, and Ridge Analyzes par Box et Draper (2007, p. 414, Wiley) . En regardant la citation étendue, ce que voulait dire Box est plus clair – la modélisation statistique consiste à approximer la réalité et lapproximation nest jamais exacte, il sagit donc de trouver lapproximation la plus appropriée . Ce qui convient à votre objectif est une chose subjective, cest pourquoi ce nest pas lun des modèles qui est utile, mais peut-être certains le sont, selon lobjectif de la modélisation.
Réponse
Vous pourriez y penser de cette façon. la complexité maximale (cest-à-dire lentropie) dun objet obéit à une forme quelconque de la borne de Bekenstein :
$$ I \ le \ frac { 2 \ pi RE} {\ hbar c \ ln 2} $$
où $ E $ est lénergie de repos totale, masse comprise, et $ R $ est le rayon dune sphère qui entoure lobjet.
Cest « un grand nombre, dans la plupart des cas:
La borne de Bekenstein pour un cerveau humain moyen serait de 2,58991 $ · 10 ^ {42} $ bit et représente une limite supérieure des informations nécessaires pour recréer parfaitement le cerveau humain moyen jusquau niveau quantique. Cela implique que le nombre détats différents ($ Ω = 2 ^ I $) du cerveau humain (et de lesprit si le physicalisme est vrai) est au plus de 107,79640 $ · 10 ^ {41} $.
Voulez-vous donc utiliser « la meilleure carte », cest-à-dire le territoire lui-même, avec toutes les équations donde pour toutes les particules de chaque cellule? Absolument pas. Non seulement ce serait un désastre informatique, mais vous Vous modéliseriez des choses qui nont pratiquement rien à voir avec ce qui vous tient à cœur. Si tout ce que vous voulez faire est, disons, identifier si je suis éveillé ou non, vous navez pas besoin de savoir ce que fait lélectron # 32458 dans le neurone # 844030 ribosome # 2305 molécule # 2. Si vous ne modélisez pas cela, votre modèle est en effet « faux », mais si vous pouvez identifier si je suis réveillé ou non, votre modèle est certainement utile.
Réponse
Je pense que Peter et user11852 ont donné dexcellentes réponses. Jajouterais aussi (par négation) que si un modèle était vraiment bon, il serait probablement inutile à cause du surajustement (donc non généralisable).
Commentaires
- +1 pour le point de surajustement. Les algorithmes tels que Naive Bayes et lanalyse discriminante linéaire fonctionnent souvent très bien, même si vous savez que le modèle sous-jacent est incorrect (par exemple, le filtrage anti-spam), simplement parce que moins de données sont nécessaires pour estimer les paramètres.
Réponse
Mon interprétation acide est: Croire quun modèle mathématique décrit exactement tous les facteurs, et leurs interactions, régissant un phénomène dintérêt serait trop simpliste et arrogant. Nous ne savons même pas si la logique que nous utilisons est suffisante pour comprendre notre univers. Cependant, certains modèles mathématiques représentent une approximation suffisamment bonne (en termes de méthode scientifique) qui sont utiles pour tirer des conclusions sur un tel phénomène.
Answer
En tant quastrostatisticien (une race rare peut-être), je trouve malheureuse la renommée du dicton de Box. Dans les sciences physiques, nous avons souvent un fort consensus pour comprendre les processus sous-jacents à un phénomène observé, et ces processus peuvent souvent être exprimés par des modèles mathématiques découlant des lois de la gravitation, de la mécanique quantique, de la thermodynamique, etc. Les objectifs statistiques sont destimer les propriétés physiques des paramètres du modèle les mieux adaptés, ainsi que la sélection et la validation du modèle. Un cas récent dramatique sest présenté extrait de la publication de mars 2013 darticles de lAgence spatiale européenne sur les mesures du satellite Planck « de lAgence spatiale européenne, qui établissent de manière convaincante un LambdaCDM simple à 6 paramètres « modèle pour le Big Ba ng. Je doute que le dicton de Box s’applique partout dans le large éventail de méthodes statistiques avancées utilisées dans ces 29 articles.
Réponse
Je viens de reformuler la réponse ci-dessus en considérant les modèles de processus comme point focal. Lénoncé peut être interprété comme suit:
« Tous les modèles sont faux » cest-à-dire que chaque modèle est faux car il sagit dune simplification de La réalité. Certains modèles sont seulement un peu faux. Ils ignorent certaines choses, par exemple: -> lévolution des exigences, -> Ignorer lachèvement du projet dans les délais, -> ne pas tenir compte du niveau de qualité souhaité par le client, etc. … Dautres modèles sont très faux – ils ignorent les choses plus importantes. Les modèles de processus logiciels classiques ignorent beaucoup par rapport aux modèles de processus agiles qui en ignorent moins.
« Mais certains sont utiles » – les simplifications de la réalité peuvent être très utiles. Ils peuvent nous aider à expliquer, prévoir et comprendre lensemble du projet et toutes ses différentes composantes. Les modèles sont utilisés car leurs fonctionnalités correspondent à la plupart des programmes de développement logiciel.
Réponse
Je voudrais donner une autre interprétation du terme « utile ». Probablement pas celle à laquelle Box a pensé.
Lorsque vous devez prendre des décisions, et cest à cela que toutes les informations seront finalement utilisées, vous devez alors mesurer votre succès sous une forme ou une autre. Lorsquon parle de décisions avec des informations incertaines, cette mesure est souvent appelée utilité.
Nous pouvons donc aussi considérer les modèles utiles comme ceux qui nous permettent de prendre des décisions plus éclairées; pour atteindre nos objectifs plus efficacement.
Cela ajoute une autre dimension en plus des critères habituels, tels que la capacité dun modèle à prédire quelque chose correctement: cela nous permet de peser les différents aspects dun modèle par rapport à chacun autre.
Réponse
« Tous les modèles sont faux, mais certains sont utiles ». Cela signifie peut-être: nous devrions faire de notre mieux avec ce que nous savons + rechercher de nouveaux apprentissages?
Commentaires
- (-1) Pouvez-vous fournir une référence suggérant que G.E.P. Box voulait dire ça? Comme vous pouvez le constater dans les autres réponses, il voulait dire quelque chose de totalement différent.
- Le PO prend peut-être la citation et lui donne une nouvelle interprétation. Je suis daccord avec Tim pour dire que Box disait plus ou moins ne ‘ t prendre le modèle comme une interprétation exacte de la réalité, mais je reconnais que certains modèles peuvent bien décrire les données.
Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.
Cest peut-être plus utile.