„ V zásadě jsou všechny modely chybné, ale některé jsou užitečné. “

— Box, George EP; Norman R. Draper (1987). Empirická tvorba modelů a povrchy odpovědí, s. 424, Wiley. ISBN 0471810339.

Co přesně znamená výše uvedená fráze?

Komentáře

  • Ve stejné knize je již zmíněno: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful. Možná je to užitečnější.

Odpověď

Myslím, že jeho význam je nejlépe analyzovat tím, že se na něj podíváme ve dvou částech:

„Všechny modely se mýlí“, tj. každý model se mýlí, protože se jedná o zjednodušení reality. Některé modely, zejména v „tvrdých“ vědách, se mýlí jen trochu. Ignorují věci jako tření nebo gravitační účinek drobných těl. Jiné modely se hodně mýlí – ignorují větší věci. Ve společenských vědách toho hodně ignorujeme.

„Ale některé jsou užitečné“ – zjednodušení reality může být docela užitečné. Mohou nám pomoci vysvětlit, předvídat a porozumět vesmíru a všem jeho různým složkám.

Ve statistikách to neplatí! Mapy jsou typem modelu; jsou špatné. Dobré mapy jsou však velmi užitečné. Existuje mnoho dalších užitečných, ale nesprávných modelů.

Komentáře

  • +1 Protože se mi líbí analogie map. ‚ ji v budoucnu použiji!
  • Mnoho modelů ve “ tvrdých “ vědách je také dost daleko (včera jsem se zúčastnil semináře, kde se měření, kde model byl na chybové liště, ale chybová lišta měla dva řády).
  • +1. Myslím, že vaše klíčová věta je “ každý model je špatný, protože je zjednodušení reality „. Lidé na to často zapomínají – například v naivní kritice ekonomie (mám vlastní kritiku, ale musí být propracovanější než jen ta “ realita je složitější než váš model „). Pokud bychom to neudělali Když to zjednodušíme, máte surovou realitu, která je příliš složitá na to, abychom ji pochopili. Abychom získali jakýkoli vhled, musíme jej zjednodušit.
  • Fantazie dokonalé mapy v měřítku 1: 1 byla použita mnoha autory, včetně Lewise Carrolla, Jorge Luise Borgesa a Umberta Eca. Ve skutečnosti by to nebylo k ničemu, protože by to bylo nutně jen komplikované jako oblast, kterou mapuje, a nebylo by snadnější ji pochopit (nemluvě o trapasech jejího rozložení a rozložení ke čtení).
  • Možná můžete také dodejte, že model se musí trochu mýlit, protože jinak by se nezobecnil a nebyl by tedy použitelný jinde. Existuje několik odpovědí, které to říkají dále. Odpovědí je však nyní příliš mnoho na to, abyste si je všechny přečetli.

Odpověď

To znamená, že lze poskytnout užitečné informace z modelů, které nejsou dokonalým vyjádřením jevů, které modelují.

Statistický model je popis systému využívajícího matematické pojmy. Jako takový v mnoha případech přidáte určitou vrstvu abstrakce, která usnadní váš inferenční postup (např. Normálnost chyb měření, složená symetrie v korelačních strukturách atd.). Je téměř nemožné , aby jediný model dokonale popsal fenomén reálného světa, protože máme subjektivní pohled na svět (náš smyslový systém není dokonalý); nicméně dochází k úspěšným statistickým závěrům, protože náš svět má určitou míru konzistence, kterou využíváme. Naše téměř vždy nesprávné modely se tedy hodí .

(Jsem si jistý, že brzy dostanete velkou odvážnou odpověď, ale snažil jsem se být stručný o tomto!)

Komentáře

  • Můžeme říci, že tyto užitečné modely poskytují přibližná řešení?
  • @gpuguy : Určitě můžete. Citovat Johna Tukeyho: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem. (citát JT ‚ je ve skutečnosti úžasný.)
  • “ Daleko lepší je přibližná odpověď na správnou otázku, která je často vágní, než přesná odpověď na nesprávnou otázku, kterou lze vždy přesně zpřesnit. “ John W. Tukey 1962 Budoucnost analýzy dat. Annals of Mathematical Statistics 33: 1–67 (viz str. 13–14) Bezpochyby řekl podobné věci jindy, ale to ‚ je obvyklý zdroj.
  • Zkopíroval jsem důl z původní publikace.

Odpověď

Našel jsem to Přednáška JSA z roku 2009 Thada Tarpeye, která poskytne užitečné vysvětlení a komentář k pasáži Box.Tvrdí, že pokud považujeme modely za aproximaci pravdy, mohli bychom stejně snadno označit všechny modely za správné.

Zde je abstrakt:

Studenti statistik jsou často seznámeni se slavným citátem George Boxa: „všechny modely se mýlí, některé jsou užitečné.“ V této přednášce tvrdím, že i když je tento citát užitečný, je chybný. Odlišnou a pozitivnější perspektivou je uznání, že model je jednoduše prostředkem k extrakci zajímavých informací z dat. Pravda je nekonečně složitá a model je pouze přiblížením pravdě. Pokud je aproximace špatná nebo zavádějící, pak je model k ničemu. V této přednášce uvádím příklady správných modelů, které nejsou skutečnými modely. Ilustruji, jak může pojem „nesprávného“ modelu vést k nesprávným závěrům.

Odpovědět

Protože jej nikdo nepřidal, použil George Box uvedenou fázi k zavedení následující části knihy. Věřím, že nejlépe vysvětluje, co tím myslel:

Nyní by bylo velmi pozoruhodné, kdyby mohl být jakýkoli systém existující v reálném světě přesně reprezentovaný libovolným jednoduchým modelem. Avšak rafinovaně vybrané šetrné modely často poskytují pozoruhodně užitečné aproximace. Například zákon $ PV = RT $ týkající se tlaku $ P $ , objem $ V $ a teplota $ T $ z “ ideálu plyn přes konstantní $ R $ neplatí přesně pro žádný skutečný plyn, ale často poskytuje užitečnou aproximaci a navíc jeho struktura je informativní, protože pramení z fyzického pohledu na chování molekul plynu.

U takového modelu není třeba klást otázku “ Je model pravdivý ? „. Pokud má být “ pravda “ “ celá pravda “ odpověď musí být “ žádná „. Jedinou zajímavou otázkou je “ Je model poučný a užitečný? „.

Box, GEP (1979 ), “ Robustnost ve strategii budování vědeckých modelů “ v Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, s. 201–236.

Odpověď

Aktuální přehled pro mě spočívá v následujícím aspektu:

Model nemusí být být správný, aby byl užitečný.

Bohužel v mnoha vědách se často zapomíná, že modely nemusí nutně být přesnou reprezentací reality, aby umožnily nové objevy a předpovědi!

Takže neztrácejte čas vytvářením komplikovaného modelu, který vyžaduje přesné měření myriady proměnných. Skutečný génius vymyslí jednoduchý model, který to zvládne.

Odpověď

Model nemůže poskytnout 100% přesné předpovědi, pokud je ve výsledcích nějaká náhodnost. Pokud neexistovala nejistota, žádná náhodnost a žádná chyba, pak by to bylo považováno spíše za fakt než za model. První je velmi důležitý, protože modely jsou často slouží k modelování očekávání událostí, které nenastaly. To téměř zaručuje, že ohledně skutečných událostí existuje určitá nejistota.

Vzhledem k dokonalým informacím by teoreticky bylo možné vytvořit model, který poskytne dokonalé předpovědi pro takové přesně známé události. I za těchto nepravděpodobných okolností však může být takový model tak složitý, že je výpočetně neproveditelný, a může být přesný pouze v určitém časovém okamžiku, protože jiné faktory mění způsob, jakým se hodnoty mění s událostmi.

Jelikož nejistota a náhodnost je přítomna ve většině údajů z reálného světa, jsou snahy o získání dokonalého modelu marným cvičením. Místo toho je cennější podívat se na získání dostatečně přesného modelu, který je dostatečně jednoduchý na to, aby byl použitelný z hlediska dat i výpočtu požadovaného pro jeho použití. I když je o těchto modelech známo, že jsou nedokonalé, některé z těchto nedostatků jsou dobře známy a lze je vzít v úvahu při rozhodování na základě těchto modelů.

Jednodušší modely mohou být nedokonalé, ale je také snazší je o nich uvažovat , vzájemně se porovnávat a může být jednodušší s nimi pracovat, protože je pravděpodobné, že budou výpočetně méně náročné.

Odpověď

Pokud mohu, může být užitečný více než jeden komentář. Verze, kterou preferuji, je

(…) všechny modely jsou přibližné. V zásadě jsou všechny modely špatné, ale některé jsou užitečné (…)

převzato z Response Surfaces, Mixtures, and Ridge Analyses od Box and Draper (2007, s. 414, Wiley) . Při pohledu na rozšířenou nabídku je jasnější, co měl Box na mysli – statistické modelování je o aproximaci reality a aproximace není nikdy přesná, takže jde o nalezení nejvhodnější aproximace . To, co je pro váš účel vhodné, je subjektivní věc, proto nejde o jeden z modelů, který je užitečný, ale pravděpodobně některé z nich jsou, v závislosti na účelu modelování.

Odpověď

Možná si to tak myslíte. maximální složitost (tj. entropie) objektu se řídí nějakou formou Bekensteinovy vazby :

$$ I \ le \ frac { 2 \ pi RE} {\ hbar c \ ln 2} $$

kde $ E $ je celková klidová energie včetně hmoty a $ R $ je poloměr koule, která obklopuje objekt.

To je ve většině případů velké číslo:

Bekenstein pro průměrný lidský mozek by byl 2,58 991 $ 10 ^ {42} $ bit a představuje horní hranici informací potřebných k dokonalému opětovnému vytvoření průměrného lidského mozku až na kvantovou úroveň. To znamená, že počet různých stavů ($ Ω = 2 ^ I $) lidského mozku (a mysli, pokud je fyzikalismus pravdivý) je maximálně 107,79640 $ · 10 ^ {41} $.

Takže chcete použít „nejlepší mapu“, tj. samotné území, se všemi vlnovými rovnicemi pro všechny částice v každé buňce? Absolutně ne. Nejen, že by to byla výpočetní katastrofa, ale jo modeloval bys věci, které by neměly v podstatě nic společného s tím, na čem ti záleží. Pokud vše, co chcete udělat, je, řekněme, určit, zda jsem vzhůru, nemusíte vědět, co dělá elektron # 32458 v molekule neuronu # 844030 ribozomu # 2305 # 2. Pokud to nemodelujete, váš model je skutečně „špatný“, ale pokud zjistíte, zda jsem vzhůru, váš model je určitě užitečný.

Odpověď

Myslím, že Peter a user11852 poskytli skvělé odpovědi. Rovněž bych dodal (negací), že pokud by byl model opravdu dobrý, byl by pravděpodobně zbytečný kvůli nadměrnému vybavení (tedy ne zobecnitelný).

Komentáře

  • +1 pro nadměrné vybavení. Algoritmy jako Naive Bayes a lineární diskriminační analýza často fungují velmi dobře, i když víte, že podkladový model je nesprávný (např. Filtrování spamu), jednoduše proto, že k odhadu parametrů je potřeba méně dat.

Odpověď

Moje kyselá interpretace je: Věřit, že matematický model popisuje přesně všechny faktory a jejich interakce, kterými se řídí fenomén zájmu, by bylo příliš zjednodušující a arogantní. Ani nevíme, jestli logika, kterou používáme, stačí k pochopení našeho vesmíru. Některé matematické modely však představují dostatečně dobrou aproximaci (z hlediska vědecké metody), která je užitečná pro vyvození závěrů o takovém jevu.

Odpověď

Jako astrostatista (možná vzácné plemeno) považuji slávu Boxova výroku za nešťastnou. Ve fyzikálních vědách máme často silnou shodu v porozumění procesům, které jsou základem pozorovaného jevu, a tyto procesy lze často vyjádřit matematickými modely vyplývajícími ze zákonů gravitace, kvantové mechaniky, termodynamiky atd. Statistickými cíli je odhad fyzikálních vlastností nejlépe vyhovujících parametrů modelu, stejně jako výběr a validace modelu. z vydání článků z března 2013 Planckova družice z měření kosmického mikrovlnného pozadí Evropskou kosmickou agenturou, které přesvědčivě zavádí jednoduchý 6parametrový `LambdaCDM „model pro Velkou Ba ng. Pochybuji, že by Boxovo diktum platilo kdekoli v širokém rozsahu pokročilých statistických metod použitých v těchto 29 příspěvcích.

Odpověď

Právě jsem přeformuloval výše uvedenou odpověď tím, že jsem považoval procesní modely za zaostřovací bod. Výrok lze interpretovat takto:

„Všechny modely se mýlí“, tj. Každý model se mýlí, protože jde o zjednodušení realita. Některé modely se jen trochu mýlí. Ignorují některé věci, například: -> měnící se požadavky, -> ignorování dokončení projektu ve stanoveném termínu, -> nezohlednění požadované úrovně kvality zákazníka atd. … Jiné modely se hodně mýlí – ignorují větší věci. Klasické softwarové procesní modely ve srovnání s hbitými procesními modely, které ignorují méně, hodně ignorují.

„Ale některé jsou užitečné“ – zjednodušení reality může být docela užitečné. Mohou nám pomoci vysvětlit, předpovědět a pochopit celkový projekt a všechny jeho různé součásti. Používají se modely, protože jejich funkce odpovídají většině programů pro vývoj softwaru.

Odpověď

Chtěl bych podat další výklad pojmu „užitečné“. Pravděpodobně to nebylo to, o čem Box uvažoval.

Když se musíte rozhodovat a k tomu budou nakonec použity všechny informace, musíte určitým způsobem změřit svůj úspěch. Když mluvíme o rozhodnutích s nejistými informacemi, toto měřítko se často nazývá užitečnost.

Takže si můžeme také představit užitečné modely jako ty, které nám umožňují přijímat informovanější rozhodnutí; abychom efektivněji dosáhli našich cílů.

To přidává další dimenzi nad obvyklá kritéria, jako je schopnost modelu správně předpovídat něco: Umožňuje nám porovnat různé aspekty, o které model jde, s každým ostatní.

Odpověď

„Všechny modely jsou chybné, ale některé jsou užitečné“. Možná to znamená: Měli bychom dělat to, co můžeme, s tím, co víme, + hledat nové učení?

Komentáře

  • (-1) Můžete uvést jakýkoli odkaz naznačující, že G.E.P. Box to myslel? Jak zjistíte z ostatních odpovědí, myslel tím něco úplně jiného.
  • OP možná vezme citát a dá mu nový výklad. Souhlasím s Timem, že Box víceméně tvrdil, že model nebere jako přesnou interpretaci reality, ale uznává, že některý model dokáže data dobře popsat.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *