” Zasadniczo wszystkie modele są błędne, ale niektóre są przydatne. „
— Box, George EP; Norman R. Draper (1987). Empiryczne budowanie modeli i powierzchnie odpowiedzi, s. 424, Wiley. ISBN 0471810339.
Jakie dokładnie jest znaczenie powyższej frazy?
Komentarze
Odpowiedź
Myślę, że jej znaczenie najlepiej przeanalizować, analizując je w dwóch częściach:
„Wszystkie modele są złe”, czyli każdy model jest zły, ponieważ jest uproszczeniem rzeczywistości. Niektóre modele, zwłaszcza w naukach ścisłych, są tylko trochę błędne. Ignorują takie rzeczy, jak tarcie lub efekt grawitacji małych ciał. Inne modele są bardzo błędne – ignorują większe rzeczy. W naukach społecznych dużo ignorujemy.
„Ale niektóre są przydatne” – uproszczenia rzeczywistości mogą być całkiem przydatne. Mogą nam pomóc wyjaśnić, przewidzieć i zrozumieć wszechświat i wszystkie jego różne elementy.
To nie tylko prawda w statystykach! Mapy to typ modelu; są błędne. Ale dobre mapy są bardzo przydatne. Istnieje wiele przykładów innych przydatnych, ale złych modeli.
Komentarze
- +1 Bo podoba mi się analogia map. ' Użyję jej w przyszłości!
- Wiele modeli z ” twardych ” nauk ścisłych również jest dość odległych (wczoraj uczestniczyłem w seminarium, na którym pomiary znajdował się w obrębie paska błędów, ale pasek błędów miał dwa rzędy wielkości).
- +1. Myślę, że Twoje zdanie kluczowe to ” każdy model jest błędny, ponieważ jest uproszczenie rzeczywistości „. Ludzie często o tym zapominają – na przykład w naiwnej krytyce ekonomii (mam własne uwagi, ale muszą one być bardziej wyrafinowane niż tylko to, że rzeczywistość jest bardziej złożona niż Twój model „). Gdybyśmy nie Nie upraszczaj, masz surową rzeczywistość, która jest zbyt złożona, abyśmy mogli ją zrozumieć. Musimy więc to uprościć, aby uzyskać jakikolwiek wgląd.
- Fantazja doskonałej mapy w skali 1: 1 była wykorzystywana przez wielu autorów, w tym Lewisa Carrolla, Jorge Luisa Borgesa i Umberto Eco. W rzeczywistości nie miałoby to sensu, ponieważ z konieczności byłoby po prostu skomplikowane ze względu na obszar, który mapuje, i nie byłby łatwiejszy do zrozumienia (nie wspominając o niezręczności związanej z rozkładaniem i układaniem do czytania).
- Może możesz dodaj również, że model musi być trochę błędny, ponieważ w przeciwnym razie nie uogólniałby i tym samym nie miałby zastosowania gdzie indziej. Poniżej znajduje się kilka odpowiedzi. Ale teraz jest zbyt wiele odpowiedzi, aby przeczytać je wszystkie.
Odpowiedź
Oznacza to, że można uzyskać przydatne informacje z modeli, które nie są doskonałą reprezentacją zjawisk, które modelują.
Model statystyczny to opis systemu wykorzystujący pojęcia matematyczne. W związku z tym w wielu przypadkach dodajesz pewną warstwę abstrakcji, aby ułatwić procedurę wnioskowania (np. Normalność błędów pomiarowych, symetria złożona w strukturach korelacji itp.). Jest prawie niemożliwe , aby jeden model doskonale opisał zjawisko świata rzeczywistego, mając na uwadze subiektywny pogląd na świat (nasz system zmysłów nie jest doskonały); niemniej jednak udane wnioskowanie statystyczne ma miejsce, ponieważ nasz świat ma pewien stopień spójności, który wykorzystujemy. Tak więc nasze prawie zawsze błędne modele okazują się przydatne .
(Jestem pewien, że wkrótce otrzymasz odważną odpowiedź, ale starałem się być zwięzły na ten!)
Komentarze
- Czy możemy powiedzieć, że te przydatne modele są przybliżonymi rozwiązaniami?
- @gpuguy : Jasne, że możesz. Cytując Johna Tukeya:
An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.
(wydaje mi się, że cytat JT ' jest niesamowicie wnikliwy.) - ” O wiele lepsza przybliżona odpowiedź na właściwe pytanie, które jest często niejasne, niż dokładna odpowiedź na niewłaściwe pytanie, które zawsze można sprecyzować. ” John W. Tukey 1962 Przyszłość analizy danych. Annals of Mathematical Statistics 33: 1-67 (patrz strony 13-14) Bez wątpienia mówił podobne rzeczy w innych przypadkach, ale ' to zwykłe źródło.
- Skopiowałem swoje z oryginalnej publikacji.
Odpowiedź
Udało mi się to znaleźć Wystąpienie JSA z 2009 r. autorstwa Thada Tarpeya, które zawiera przydatne wyjaśnienie i komentarz do fragmentu Box.Twierdzi, że jeśli uznamy modele za przybliżenie prawdy, równie łatwo możemy nazwać wszystkie modele właściwymi.
Oto streszczenie:
Studentów statystyki często przedstawia się słynny cytat Georgea Boxa: „wszystkie modele są błędne, niektóre są przydatne”. W tym wystąpieniu twierdzę, że ten cytat, choć użyteczny, jest błędny. Inną i bardziej pozytywną perspektywą jest uznanie, że model jest po prostu środkiem do wydobywania interesujących informacji z danych. Prawda jest nieskończenie złożona, a model jest jedynie przybliżeniem prawdy. Jeśli przybliżenie jest słabe lub mylące, model jest bezużyteczny. W tym wykładzie podam przykłady prawidłowych modeli, które nie są prawdziwymi modelami. Ilustruję, jak pojęcie „niewłaściwego” modelu może prowadzić do błędnych wniosków.
Odpowiedź
Ponieważ nikt tego nie dodał, George Box wykorzystał zacytowaną fazę, aby przedstawić następną część książki. Uważam, że wykonuje najlepszą robotę, wyjaśniając, co miał na myśli:
Teraz byłoby bardzo niezwykłe, gdyby jakikolwiek system istniejący w prawdziwym świecie mógł być dokładnie reprezentowane przez dowolny prosty model. Jednak sprytnie wybrane oszczędne modele często dostarczają niezwykle użytecznych przybliżeń. Na przykład prawo $ PV = RT $ dotyczące ciśnienia $ P $ , objętość $ V $ i temperatura $ T $ ” idealny ” gaz przez stałą $ R $ nie jest dokładnie prawdziwe dla żadnego rzeczywistego gazu, ale często zapewnia użyteczne przybliżenie, a ponadto jego struktura jest informacyjny, ponieważ wynika z fizycznego spojrzenia na zachowanie cząsteczek gazu.
W przypadku takiego modelu nie ma potrzeby zadawania pytania ” Czy model jest prawdziwy ? „. Jeśli ” prawda ” ma być ” całą prawdą ” odpowiedź musi brzmieć ” Nie „. Jedyne interesujące pytanie brzmi: ” Czy model jest pouczający i użyteczny? „.
Box, GEP (1979 ), ” Solidność w strategii budowania modeli naukowych „, w programie Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, s. 201–236.
Odpowiedź
Dla mnie rzeczywisty wgląd leży w następującym aspekcie:
Model nie musi być poprawne, aby były użyteczne.
Niestety w wielu naukach często zapomina się, że modele niekoniecznie muszą być dokładnymi reprezentacjami rzeczywistości, aby umożliwić nowe odkrycia i przewidywania!
Więc nie trać czasu na tworzenie skomplikowanego modelu, który wymaga dokładnych pomiarów miriady zmiennych. Prawdziwy geniusz wymyśla prosty model, który spełnia swoje zadanie.
Odpowiedź
Model nie może zapewnić w 100% dokładnych prognoz, jeśli w wynikach występuje jakakolwiek przypadkowość. Jeśli nie było niepewności, losowości ani błędu, wtedy byłoby to raczej faktem niż wzorcem.Pierwszy jest bardzo ważny, ponieważ modele są często służy do modelowania oczekiwań dotyczących zdarzeń, które nie miały miejsca. To prawie gwarantuje, że istnieje niepewność co do rzeczywistych wydarzeń.
Mając doskonałe informacje, teoretycznie można by stworzyć model, który daje doskonałe prognozy dla tak dokładnie znanych wydarzeń. Jednak nawet biorąc pod uwagę te mało prawdopodobne okoliczności, taki model może być tak złożony, że jego użycie obliczeniowe nie jest możliwe, i może być dokładny tylko w określonym momencie, gdy inne czynniki zmieniają sposób, w jaki wartości zmieniają się wraz ze zdarzeniami.
Ponieważ niepewność i przypadkowość występują w większości rzeczywistych danych, próby uzyskania idealnego modelu są daremne. Zamiast tego bardziej wartościowe jest przyjrzenie się uzyskaniu wystarczająco dokładnego modelu, który byłby na tyle prosty, aby był użyteczny zarówno pod względem danych, jak i obliczeń wymaganych do jego użycia. Chociaż wiadomo, że modele te są niedoskonałe, niektóre z tych wad są dobrze znane i można je wziąć pod uwagę przy podejmowaniu decyzji na podstawie modeli.
Prostsze modele mogą być niedoskonałe, ale są też łatwiejsze do rozważenia , aby porównać je ze sobą i mogą być łatwiejsze w użyciu, ponieważ prawdopodobnie będą mniej wymagające obliczeniowo.
Odpowiedź
Jeśli mogę, przydatny może być tylko jeden komentarz. Preferowana przeze mnie wersja Prase to
(…) wszystkie modele są przybliżeniami. Zasadniczo wszystkie modele są błędne, ale niektóre są przydatne (…)
zaczerpnięte z Response Surfaces, Mixtures, and Ridge Analyzes autorstwa Box and Draper (2007, s. 414, Wiley) . Patrząc na rozszerzony cytat, jest bardziej jasne, co miał na myśli Box – modelowanie statystyczne polega na przybliżeniu rzeczywistości, a przybliżenie nigdy nie jest dokładne, więc chodzi o znalezienie najbardziej odpowiedniego przybliżenia . To, co jest odpowiednie dla twojego celu, jest kwestią subiektywną, dlatego nie jest to jeden z użytecznych modeli, ale prawdopodobnie niektóre z nich są, w zależności od celu modelowania.
Odpowiedź
Możesz o tym pomyśleć w ten sposób. maksymalna złożoność (tj. entropia) obiektu jest zgodna z pewną formą Bekensteina :
$$ I \ le \ frac { 2 \ pi RE} {\ hbar c \ ln 2} $$
gdzie $ E $ to całkowita energia spoczynkowa wraz z masą, a $ R $ to promień kuli otaczającej obiekt.
To „duża liczba w większości przypadków:
Bekenstein dla przeciętnego ludzkiego mózgu wyniesie 2,58991 $ · 10 ^ {42} bitów i stanowi górną granicę informacji potrzebnych do doskonałego odtworzenia przeciętnego ludzkiego mózgu aż do poziomu kwantowego. Oznacza to, że liczba różnych stanów ($ Ω = 2 ^ I $) ludzkiego mózgu (i umysłu, jeśli fizykalizm jest prawdziwy) wynosi co najwyżej 107,79640 $ · 10 ^ {41} $.
Czy chcesz użyć „najlepszej mapy”, tj. samego terytorium, ze wszystkimi równaniami falowymi dla wszystkich cząstek w każdej komórce? Absolutnie nie. Nie tylko byłaby to katastrofa obliczeniowa, ale yo Będziesz modelować rzeczy, które w zasadzie nie mają nic wspólnego z tym, na czym ci zależy. Jeśli wszystko, co chcesz zrobić, to, powiedzmy, zidentyfikować, czy się obudziłem, czy nie, nie musisz wiedzieć, co elektron # 32458 robi w neuronie # 844030 rybosomie # 2305 cząsteczce # 2. Jeśli tego nie modelujesz, Twój model jest rzeczywiście „zły”, ale jeśli potrafisz określić, czy jestem obudzony, Twój model jest zdecydowanie przydatny.
Odpowiedź
Myślę, że Peter i user11852 udzielili świetnych odpowiedzi. Dodałbym również (zaprzeczając), że gdyby model był naprawdę dobry, prawdopodobnie byłby bezużyteczny z powodu nadmiernego dopasowania (stąd nie można go uogólniać).
Komentarze
- +1 za punkt nadmiernego dopasowania. Algorytmy takie jak Naive Bayes i liniowa analiza dyskryminacyjna często działają bardzo dobrze, nawet jeśli wiesz, że model bazowy jest nieprawidłowy (np. Filtrowanie spamu), po prostu dlatego, że do oszacowania parametrów potrzeba mniej danych.
Odpowiedź
Moja interpretacja acidu to: Wiara, że model matematyczny opisuje dokładnie wszystkie czynniki i ich interakcje rządzące interesującym zjawiskiem, byłoby zbyt uproszczone i arogancki. Nie wiemy nawet, czy logika, której używamy, wystarczy do zrozumienia naszego wszechświata. Jednak niektóre modele matematyczne stanowią wystarczająco dobre przybliżenie (pod względem metody naukowej), które jest przydatne do wyciągania wniosków na temat takiego zjawiska.
Odpowiedź
Jako astrostatyk (być może rzadka rasa) uważam, że sława powiedzenia Boxa jest niefortunna. W naukach ścisłych często jesteśmy zgodni co do zrozumienia procesów leżących u podstaw obserwowanego zjawiska i procesy te można często wyrazić za pomocą modeli matematycznych wynikających z praw grawitacji, mechaniki kwantowej, termodynamiki itp. Celem statystycznym jest oszacowanie najlepiej dopasowanych parametrów modelu, właściwości fizycznych, a także wybór i walidacja modelu. Powstał ostatnio dramatyczny przypadek od opublikowanych w marcu 2013 r. dokumentów Europejskiej Agencji Kosmicznej „s satelity Plancka ” pomiarów kosmicznego mikrofalowego tła, które w przekonujący sposób określa proste 6-parametrowe `LambdaCDM „wzór dla Big Ba ng. Wątpię, czy stwierdzenie Boxa miałoby zastosowanie wszędzie w ramach szerokiego zakresu zaawansowanych metod statystycznych używanych w tych 29 artykułach.
Odpowiedź
Właśnie przeformułowałem powyższą odpowiedź, traktując modele procesów jako punkt skupienia. Stwierdzenie można zinterpretować w następujący sposób:
„Wszystkie modele są błędne”, to znaczy każdy model jest błędny, ponieważ jest uproszczeniem rzeczywistość. Niektóre modele są tylko trochę błędne. Ignorują pewne rzeczy, na przykład: -> zmieniające się wymagania, -> ignorowanie zakończenia projektu w terminie, -> nieuwzględnianie pożądanego poziomu jakości klienta itp. … Inne modele są bardzo błędne – ignorują większe rzeczy. Klasyczne modele procesów oprogramowania dużo ignorują w porównaniu do zwinnych modeli procesów, które ignorują mniej.
„Ale niektóre są przydatne” – uproszczenia rzeczywistości mogą być całkiem przydatne. Mogą nam pomóc wyjaśnić, przewidzieć i zrozumieć cały projekt i wszystkie jego różne elementy. Modele są używane, ponieważ ich funkcje odpowiadają większości programów do tworzenia oprogramowania.
Odpowiedź
Chciałbym przedstawić inną interpretację terminu „przydatne”. Prawdopodobnie nie ten, o którym myślał Box.
Kiedy musisz podejmować decyzje i do tego w końcu zostaną wykorzystane wszystkie informacje, musisz zmierzyć swój sukces w jakiejś formie. Mówiąc o decyzjach z niepewnymi informacjami, miara ta jest często nazywana użytecznością.
Możemy więc również myśleć o modelach użytecznych jako takich, które pozwalają nam podejmować bardziej świadome decyzje; aby skuteczniej osiągać nasze cele.
Dodaje to kolejny wymiar do zwykłych kryteriów, takich jak zdolność modelu do prawidłowego przewidywania czegoś: pozwala nam zważyć różne aspekty, których dotyczy model w odniesieniu do każdego inne.
Odpowiedź
„Wszystkie modele są błędne, ale niektóre są przydatne”. Może to oznacza: powinniśmy robić wszystko, co w naszej mocy, z tym, co wiemy + szukać nowej wiedzy?
Komentarze
- (-1) Czy możesz podać odniesienia sugerujące, że G.E.P. Box miał to na myśli? Jak widać z innych odpowiedzi, miał na myśli coś zupełnie innego.
- OP prawdopodobnie bierze cytat i nadaje mu nową interpretację. Zgadzam się z Timem, że Box powiedział mniej więcej, że nie ' nie traktuj modelu jako dokładnej interpretacji rzeczywistości, ale zdaję sobie sprawę, że jakiś model może dobrze opisać dane.
Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.
Może to jest bardziej pomocne.