” Essenzialmente, tutti i modelli sono sbagliati, ma alcuni sono utili. “

— Box, George EP; Norman R. Draper (1987). Costruzione di modelli empirici e superfici di risposta, p. 424, Wiley. ISBN 0471810339.

Qual è esattamente il significato della frase precedente?

Commenti

  • Nello stesso libro è stato menzionato in precedenza: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful. Forse questo è più utile.

Risposta

Penso che il suo significato sia meglio analizzato guardandolo in due parti:

“Tutti i modelli sono sbagliati” cioè ogni modello è sbagliato perché è una semplificazione della realtà. Alcuni modelli, specialmente nelle scienze “dure”, sono solo un po sbagliati. Ignorano cose come lattrito o leffetto gravitazionale di piccoli corpi. Altri modelli sbagliano moltissimo: ignorano le cose più grandi. Nelle scienze sociali, ignoriamo molto.

“Ma alcuni sono utili”: le semplificazioni della realtà possono essere molto utili. Possono aiutarci a spiegare, prevedere e comprendere luniverso e tutte le sue varie componenti.

Questo non è vero solo per le statistiche! Le mappe sono un tipo di modello; sono sbagliate. Ma le buone mappe sono molto utili. Esempi di altri modelli utili ma sbagliati abbondano.

Commenti

  • +1 Perché mi piace lanalogia delle mappe. Lo ‘ lo userò in futuro!
  • Molti modelli nelle scienze ” hard ” sono abbastanza lontani (ieri ho partecipato a un seminario in cui le misurazioni era allinterno dellerrorbar, ma lerrorbar era di due ordini di grandezza).
  • +1. Penso che la tua frase chiave sia ” ogni modello è sbagliato perché è una semplificazione della realtà “. Le persone spesso lo dimenticano, ad esempio nelle ingenue critiche economiche (ho le mie critiche, ma devono essere più sofisticate di questo ” la realtà è più complessa del tuo modello “). Se non lo facessimo Per semplificarlo, hai una realtà cruda, che è troppo complessa per noi da capire. Quindi dobbiamo semplificarlo per ottenere qualsiasi intuizione.
  • La fantasia di una mappa perfetta in scala 1: 1 è stata utilizzata da molti autori, tra cui Lewis Carroll, Jorge Luis Borges e Umberto Eco. In realtà non sarebbe utile perché sarebbe necessariamente complicato come larea che mappa e non più facile da capire (per non parlare dellimbarazzo di aprirlo e disporlo per leggerlo).
  • Forse puoi aggiungo anche che un modello deve essere un po sbagliato, perché altrimenti non sarebbe generalizzato e quindi non sarebbe applicabile altrove. Ci sono alcune risposte che lo dicono più in basso. Ma ora ci sono troppe risposte per leggerle tutte.

Risposta

Significa che possono essere fornite informazioni utili da modelli che non sono una rappresentazione perfetta dei fenomeni che modellano.

Un modello statistico è una descrizione di un sistema che utilizza concetti matematici. Pertanto, in molti casi si aggiunge un certo livello di astrazione per facilitare la procedura inferenziale (es. Normalità degli errori di misurazione, simmetria composta nelle strutture di correlazione, ecc.). È quasi impossibile per un singolo modello descrivere perfettamente un fenomeno del mondo reale dato che noi stessi abbiamo una visione soggettiva del mondo (il nostro sistema sensoriale non è perfetto); tuttavia linferenza statistica riuscita si verifica poiché il nostro mondo ha un certo grado di coerenza che sfruttiamo. Quindi i nostri modelli quasi sempre sbagliati si dimostrano utili .

(Sono sicuro che riceverai presto una grande risposta in grassetto, ma ho cercato di essere conciso su questo!)

Commenti

  • Possiamo dire che questi utili modelli forniscono soluzioni approssimative?
  • @gpuguy : Certo che puoi. Per citare John Tukey: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem. (in realtà penso che la citazione di JT ‘ sia incredibilmente perspicace.)
  • ” Molto meglio una risposta approssimativa alla domanda giusta, spesso vaga, piuttosto che una risposta esatta alla domanda sbagliata, che può sempre essere resa precisa. ” John W. Tukey 1962 Il futuro dellanalisi dei dati Annals of Mathematical Statistics 33: 1-67 (vedi pp.13-14) Senza dubbio ha detto cose simili altre volte, ma che ‘ è la solita fonte.
  • Ho copiato il mio dalla pubblicazione originale.

Risposta

Ho trovato questo Conferenza sulla JSA del 2009 di Thad Tarpey per fornire unutile spiegazione e commento al passaggio di Box.Sostiene che se consideriamo i modelli come approssimazioni alla verità, potremmo altrettanto facilmente chiamare tutti i modelli giusti.

Ecco labstract:

Gli studenti di statistica vengono spesso introdotti alla famosa citazione di George Box: “tutti i modelli sono sbagliati, alcuni sono utili”. In questo discorso sostengo che questa citazione, sebbene utile, è sbagliata. Una prospettiva diversa e più positiva è riconoscere che un modello è semplicemente un mezzo per estrarre informazioni di interesse dai dati. La verità è infinitamente complessa e un modello è solo unapprossimazione alla verità. Se lapprossimazione è scarsa o fuorviante, il modello è inutile. In questo discorso fornisco esempi di modelli corretti che non sono veri modelli. Illustro come la nozione di un modello “sbagliato” possa portare a conclusioni sbagliate.

Risposta

Poiché nessuno lha aggiunta, George Box ha utilizzato la fase citata per introdurre la sezione seguente in un libro. Credo che faccia il lavoro migliore nello spiegare cosa intendeva:

Ora sarebbe davvero straordinario se un sistema esistente nel mondo reale potesse essere esattamente rappresentato da qualsiasi modello semplice. Tuttavia, modelli parsimoniosi scelti con astuzia spesso forniscono approssimazioni straordinariamente utili. Ad esempio, la legge $ PV = RT $ relativa alla pressione $ P $ , volume $ V $ e la temperatura $ T $ di un ” ideal ” gas tramite una costante $ R $ non è esattamente vero per nessun gas reale, ma spesso fornisce unapprossimazione utile e inoltre la sua struttura è informativo poiché deriva da una visione fisica del comportamento delle molecole di gas.

Per un modello di questo tipo non è necessario porre la domanda ” Il modello è vero ? “. Se ” verità ” deve essere ” tutta la verità ” la risposta deve essere ” No “. Lunica domanda di interesse è ” Il modello è illuminante e utile? “.

Box, GEP (1979 ), ” Robustezza nella strategia di costruzione di modelli scientifici “, in Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, pp. 201–236.

Answer

Per me la vera intuizione sta nel seguente aspetto:

Un modello non “deve necessariamente essere corretti per essere utili.

Sfortunatamente in molte scienze si dimentica spesso che i modelli non devono necessariamente essere rappresentazioni esatte della realtà per consentire nuove scoperte e previsioni!

Quindi non sprecare il tuo tempo a costruire un modello complicato che richiede misurazioni accurate di una miriade di variabili. Il vero genio inventa un modello semplice che fa il lavoro.

Risposta

Un modello non può fornire previsioni accurate al 100% se cè una qualsiasi casualità nei risultati. Se non cera incertezza, nessuna casualità e nessun errore, allora sarebbe considerato un fatto piuttosto che un modello Il primo è molto importante, perché i modelli sono frequenti utilizzato per modellare le aspettative di eventi che non si sono verificati. Questo quasi garantisce che ci sia una certa incertezza sugli eventi reali.

Data uninformazione perfetta, in teoria potrebbe essere possibile creare un modello che dia previsioni perfette per eventi così noti con precisione. Tuttavia, anche date queste circostanze improbabili, un tale modello può essere così complesso da essere computazionalmente impossibile da usare e può essere accurato solo in un particolare momento nel tempo, poiché altri fattori cambiano il modo in cui i valori cambiano con gli eventi.

Poiché lincertezza e la casualità sono presenti nella maggior parte dei dati del mondo reale, gli sforzi per ottenere un modello perfetto sono un esercizio inutile. Invece, è più prezioso cercare di ottenere un modello sufficientemente accurato che sia abbastanza semplice da essere utilizzabile sia in termini di dati che di calcolo richiesti per il suo utilizzo. Sebbene questi modelli siano noti per essere imperfetti, alcuni di questi difetti sono ben noti e possono essere presi in considerazione per il processo decisionale basato sui modelli.

I modelli più semplici possono essere imperfetti, ma sono anche più facili da ragionare , da confrontare tra loro e potrebbe essere più facile lavorarci perché è probabile che richiedano meno risorse di calcolo.

Risposta

Se posso, potrebbe essere utile un solo commento in più. La versione del prase che preferisco è

(…) tutti i modelli sono approssimazioni. In sostanza, tutti i modelli sono sbagliati, ma alcuni sono utili (…)

tratto da Response Surfaces, Mixtures and Ridge Analyzes di Box and Draper (2007, p. 414, Wiley) . Guardando la citazione estesa è più chiaro cosa intendesse Box: la modellazione statistica riguarda l approssimazione della realtà e lapprossimazione non è mai esatta, quindi si tratta di trovare lapprossimazione più appropriata . Ciò che è appropriato per il tuo scopo è una cosa soggettiva, ecco perché non è uno dei modelli che è utile, ma forse alcuni lo sono, a seconda dello scopo della modellazione.

Risposta

Potresti pensarla in questo modo. la complessità massima (cioè lentropia) di un oggetto obbedisce a una qualche forma di Bekenstein legato :

$$ I \ le \ frac { 2 \ pi RE} {\ hbar c \ ln 2} $$

dove $ E $ è lenergia a riposo totale inclusa la massa e $ R $ è il raggio di una sfera che racchiude loggetto.

Questo è “un numero elevato, nella maggior parte dei casi:

Il limite di Bekenstein per un cervello umano medio sarebbe $ 2,58991 · 10 ^ {42} $ bit e rappresenta un limite superiore alle informazioni necessarie per ricreare perfettamente il cervello umano medio fino al livello quantico. Ciò implica che il numero di stati diversi ($ Ω = 2 ^ I $) del cervello umano (e della mente se il fisicalismo è vero) è al massimo $ 107,79640 · 10 ^ {41} $.

Quindi vuoi usare “la mappa migliore”, cioè il territorio stesso, con tutte le equazioni donda per tutte le particelle in ogni cella? Assolutamente no. Non solo sarebbe un disastro computazionale, ma yo modelleresti cose che potrebbero non avere essenzialmente nulla a che fare con ciò che ti interessa. Se tutto quello che vuoi fare è, ad esempio, identificare se sono sveglio o meno, non hai bisogno di sapere cosa fa lelettrone # 32458 nel neurone # 844030 ribosoma # 2305 molecola # 2. Se non lo modifichi, il tuo modello è effettivamente “sbagliato”, ma se riesci a identificare se sono sveglio o meno, il tuo modello è sicuramente utile.

Rispondi

Penso che Peter e user11852 abbiano dato ottime risposte. Aggiungerei anche (per negazione) che se un modello fosse davvero buono, probabilmente sarebbe inutile a causa delloverfitting (quindi non generalizzabile).

Commenti

  • +1 per il punto di overfitting. Algoritmi come Naive Bayes e analisi discriminante lineare spesso funzionano molto bene, anche se sai che il modello sottostante non è corretto (ad es. Filtro antispam), semplicemente perché sono necessari meno dati per stimare i parametri.

Risposta

La mia interpretazione acida è: credere che un modello matematico descriva esattamente tutti i fattori, e le loro interazioni, che governano un fenomeno di interesse sarebbe troppo semplicistico e arrogante. Non sappiamo nemmeno se la logica che usiamo è sufficiente per capire il nostro universo. Tuttavia, alcuni modelli matematici rappresentano unapprossimazione abbastanza buona (in termini di metodo scientifico) utile per trarre conclusioni su tale fenomeno.

Risposta

In qualità di astrostatista (forse una razza rara), trovo che la fama del detto di Box sia infelice. Nelle scienze fisiche, spesso abbiamo un forte consenso per la comprensione dei processi alla base di un fenomeno osservato, e questi processi possono spesso essere espressi da modelli matematici derivanti dalle leggi di gravitazione, meccanica quantistica, termodinamica, ecc. Gli obiettivi statistici sono stimare le proprietà fisiche dei parametri del modello più adatti, nonché la selezione e la convalida del modello. dal rilascio di marzo 2013 dei documenti dellAgenzia spaziale europea “s satellite Planck ” s misurazioni del fondo cosmico a microonde che stabiliscono in modo convincente un semplice `LambdaCDM a 6 parametri “modello per il Big Ba ng. Dubito che il detto di Box si applicherebbe ovunque allinterno dellampia gamma di metodi statistici avanzati utilizzati in questi 29 articoli.

Risposta

Ho appena riformulato la risposta precedente considerando i modelli di processo come punto focale. Laffermazione può essere interpretata come segue:

“Tutti i modelli sono sbagliati” ovvero, ogni modello è sbagliato perché è una semplificazione di realtà. Alcuni modelli sono solo leggermente sbagliati. Ignorano alcune cose, ad esempio: -> modifica dei requisiti, -> ignorando il completamento del progetto entro la scadenza, -> non considerando il livello di qualità desiderato dal cliente ecc. … Altri modelli sbagliano moltissimo: ignorano le cose più grandi. I modelli di processo software classici ignorano molto rispetto ai modelli di processo agili che ignorano meno.

“Ma alcuni sono utili” – le semplificazioni della realtà possono essere molto utili. Possono aiutarci a spiegare, prevedere e comprendere il progetto complessivo e tutte le sue varie componenti. I modelli vengono utilizzati perché le loro caratteristiche corrispondono alla maggior parte dei programmi di sviluppo software.

Risposta

Vorrei dare unaltra interpretazione del termine “utile”. Probabilmente non quello a cui Box ha pensato.

Quando devi prendere decisioni, e questo è ciò per cui verranno finalmente utilizzate tutte le informazioni, allora devi misurare il tuo successo in qualche forma. Quando si parla di decisioni con informazioni incerte, questa misura è spesso chiamata utilità.

Quindi possiamo anche pensare a modelli utili come quelli che ci consentono di prendere decisioni più informate; per raggiungere i nostri obiettivi in modo più efficace.

Ciò aggiunge unaltra dimensione oltre ai criteri usuali, come la capacità di un modello di prevedere qualcosa correttamente: ci consente di valutare i diversi aspetti di un modello rispetto a ciascuno altro.

Risposta

“Tutti i modelli sono sbagliati, ma alcuni sono utili”. Forse significa: dovremmo fare del nostro meglio con ciò che sappiamo + cercare nuovo apprendimento?

Commenti

  • (-1) Puoi fornire qualche riferimento che suggerisca che G.E.P. Box voleva dire questo? Come puoi trovare dalle altre risposte, intendeva qualcosa di completamente diverso.
  • LOP forse sta prendendo la citazione e dandole una nuova interpretazione. Sono daccordo con Tim sul fatto che Box stesse più o meno dicendo di non ‘ prendere il modello come uninterpretazione esatta della realtà, ma riconoscere che alcuni modelli possono descrivere bene i dati.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *