Tengo dos instrumentos de medida diferentes, A y B, ambos miden la misma cantidad física pero con diferentes unidades de medida: $ u_A $ y $ u_B $.
A es un instrumento de referencia.
Medí una parte de referencia $ L $ $ n $ veces con A y obtengo los valores de $ n $ $ L_ { Ai} $ ($ i = 1 \ dots n $) expresado en términos de la unidad de medida $ u_A $.
Luego mido la misma parte de referencia, $ L $, $ m $ veces con B y obtengo los $ m $ valores $ L_ {Bj} $ ($ j = 1 \ dots m $) expresados en términos de la unidad de medida $ u_B $.
En el futuro haré mi medidas con B, pero me interesará la medida expresada en términos de la unidad de medida $ u_A $.
Supongo que puedo convertir $ u_B $ en $ u_A $ mediante un solo factor de conversión multiplicativo $ k $.
Ahora, tengo tres preguntas:
-
¿Es posible evaluar la validez de la suposición anterior a partir de los valores $ L_ {Ai } $ y $ L_ {Bj} $?
-
Si la suposición es válida, ¿cómo puedo calcular el factor de conversión $ k $ para convertir la medida de $ u_B $ a $ u_A $, es decir, $ L_A = k L_B $?
-
Cómo administrar el caso en el que tengo más de una parte, es decir, $ L_1 $, $ L_2 $, etc.
Mi primer intento es asumir la suposición es válida y luego calcula $ k $ como $ k = \ frac {m \ sum_ {i = 1} ^ n LA_i} {n \ sum_ {j = 1} ^ m LB_i} $ pero se basa más en » sentido común «en lugar de una base estadística adecuada.
¿Puede darme algunas pistas sobre la parte de las estadísticas que cubre este tipo de problema? ¿Quizás una regresión lineal?
Comentarios
- Su método (buscando » un factor de conversión multiplicativo «) no funcionaría entre Fahrenheit y Celsius.
- @Henry Sí, lo sé, es por esa razón que hice la pregunta número 1.
- ¿Nos está diciendo que sabe que la misma cantidad física se mide en diferentes unidades pero no sabe cómo se convierten las unidades?
- @cbeleites Sí.
- Pero ¿Conoces las unidades?
Responder
Según tus comentarios, lo que quieres hacer es un calibración , que también desea validar :
tiene
- mediciones de referencia de una temperatura ( termómetro A), y
- mediciones de instrumento B que aún no es un termómetro, ya que no obtiene respuesta de las temperaturas de la cantidad física pero de una cantidad física como p. ej. electrones / s.
La lectura de la cámara no es la misma cantidad física que la temperatura.
Entonces, de hecho, su tarea es encontrar la conversión entre electrones / sy temperatura, es decir, calibre la salida de su cámara a las temperaturas.
Soy quimiométrico, hago calibraciones para relacionar la lectura del instrumento con las cantidades químicas. Hay libros completos escritos sobre el tema de cómo obtener un buen modelo de calibración (su pregunta 2 ) y luego cómo validar este método (su pregunta 1).
Entonces:
Pregunta 1: cómo calcular el parámetro $ k $ ?
Esto se llama ajustar el modelo de calibración.
Y esta parte realmente comienza con decidir qué tipo de modelo es apropiado. Esta es su suposición (multiplicativa) es.
En quimiometría, a veces los términos modelos suaves y duros a veces se usan para distinguir:
- modelos duros: derivar el ansatz para el modelo a partir de los primeros principios (globales) ,
por ejemplo, describiendo g lectura de la cámara en función de la temperatura (p. ej. radiación de cuerpo negro, eficiencia cuántica de la cámara en diferentes longitudes de onda, …) y luego resolviendo la temperatura y simplificando tanto como sea posible fusionando tantos parámetros como sea posible en menos parámetros que necesitan ser determinados experimentalmente.
Ej. puede suponer que si su rango de temperatura es lo suficientemente estrecho, puede aproximar el ansatz duro desconocido mediante un modelo lineal. Si eso no es suficiente, la cuadrática puede ser apropiada, etc. O, puede esperar un comportamiento sigmoide, etc.
Recomendación 1: piense un poco y decida aproximadamente qué tipo de relación espera.
El modelado suave es una opción válida y ampliamente utilizada, pero debería poder ofrecer razonando por qué la relación multiplicativa es sensible en comparación con otras familias de funciones como sigmoidea, exponencial o logarítmica.
Pregunta 3: Qué hacer con más $ L $ s?
No estoy seguro de haber entendido correctamente cuáles son los diferentes $ L $ .
-
si son medidas de piezas con otra temperatura, las va a necesitar como ya dijeron Peter Flom y Gung.
Por lo general, la extrapolación fuera del rango calibrado (es decir, el rango de temperatura abarcado por los datos de ajuste de su modelo) no se considera válido . Puede argumentar a favor de una excepción si valida (ver más abajo) el método para un rango más amplio; pero si puede obtener una amplia gama de datos de validación, no hay ninguna razón por la que no pueda obtener datos de entrenamiento para esa gama también. -
si se refiere a la cámara tener muchos píxeles: dependerá de las propiedades de la cámara si puede asumir razonablemente que todos los píxeles siguen la misma calibración o si necesita calibrar cada píxel.
Pregunta 1: ¿Cómo saber si la relación multiplicativa es apropiada? Parte I
En quimiometría, la multiplicación sin intercepto ni siquiera se realiza en situaciones en las que el modelo difícil sugiere una relación sólo multiplicativa (por ejemplo, la ley de Beer-Lambert) como Por lo general, hay muchas cosas en la construcción de instrumentos que conducen a una intercepción.
Mi experiencia sugiere que la relación multiplicativa sin un término de intercepción casi nunca es apropiada para la lectura de la cámara.
Por ejemplo, lectura de todas las cámaras I » con el que he trabajado hasta ahora tenía un sesgo o una corriente oscura que sería una intersección en el modelo.
Recomendación 2: si opta por un modelo multiplicativo sin intercepción, debería poder dar muy buenas razones por las que no puede ocurrir ninguna intercepción. Esto puede ser más fácil al revés: intente inventar situaciones que conduzcan a una intercepción para la lectura de la cámara. Si puede encontrar una intersección, debe incluir una en el modelo.
Los llamados diagnósticos de regresión para modelos lineales le dirán si la intersección no se puede distinguir de cero . Esa sería una evidencia que le permite ajustar un modelo sin interceptar. Del mismo modo, puede ajustar un modelo cuadrático y ver si el término cuadrático se puede distinguir de cero.
Pregunta 1: ¿Cómo saber si la relación multiplicativa es apropiada? Parte II
Si bien puede detectar ciertas cosas que van mal dentro del conjunto de medidas utilizado para construir el modelo de calibración, » válido » significa más que eso. Por lo general, significa demostrar que su calibración se puede aplicar con éxito a la lectura de la cámara de muestras completamente desconocidas (posiblemente medidas algún tiempo después de que se realizó la calibración). Una vez más, hay una gran cantidad de literatura para validación , y dependiendo de cuál sea su campo exacto, también hay normas que debe seguir.
Brevemente, para la validación necesita un segundo conjunto de medidas que no estuvo involucrado de ninguna manera en la construcción de la calibración. Luego, compara la salida del instrumento de referencia con las predicciones de la calibración. Si observa las desviaciones, puede evaluar varios aspectos de la corrección de su calibración:
- sesgo (es decir, su modelo tiene un sesgo sistemático desviación)
- varianza (incertidumbre aleatoria)
- deriva (es decir, $ k $ cambia con el tiempo; requiere una planificación adecuada de las mediciones )
Algo de literatura
- Recomendaciones de la IUPAC: Directrices para la calibración en química analítica. Parte I. Fundamentos y calibración de un solo componente
Esto es como una norma. - American Laboratory tiene una serie llamada » Estadísticas en química analítica »
muchas cosas aquí, incluidos estudios de casos - Richard G. Brereton: Introducción a la calibración multivariante en química analítica, Analista, 2000, 125, 2125-2154.
parece cubrir también la calibración univariante. - Esbensen, KH & Geladi, P. Principles of Proper Validation: uso y abuso del remuestreo para validación J. Chemometrics, John Wiley & Sons, Ltd., 2010, 24 , 168-187
ofrece una buena discusión sobre lo que debe tener en cuenta al elegir muestras de validación.
Comentarios
- Muchas gracias. ¿Tienes alguna sugerencia para un buen tutorial online o un libro?
- @uvts_cvs: Agregué algunos enlaces a la literatura. Los dos últimos son artículos de revistas que pueden estar detrás de un muro de pago para usted. Además de eso podría recomendarte algunos libros en idioma alemán.
Respuesta
Si hace la suposición menos restrictiva de que las dos medidas están relacionadas por alguna ecuación lineal, entonces : Para la pregunta 1, puede evaluar el supuesto mediante regresión lineal. Si es válida, la intersección debe ser 0 (o muy cercana a 0, si hay un error de medición).
Para la pregunta 2, el coeficiente le dirá la constante a usar
No estoy seguro acerca de la pregunta 3, pero hacer varias regresiones múltiples debería dar resultados muy similares, a menos que haya muchos errores de medición.
Ej. para Fahrenheit y Celsius:
set.seed(1919187321) LAbase <- c(0, 10, 20) LBbase <- LAbase*9/5 + 32 #Add error LA <- LAbase + rnorm(3) LB <- LBbase + rnorm(3) #regress m1 <- lm(LB~LA) summary(m1)
y, al menos con esta semilla, los resultados son bastante parecidos.
Dado que tendrá más de tres mediciones con cada instrumento, puede evaluar la suposición inicial dibujando un diagrama de dispersión de las dos mediciones y luego usando una curva suave como loess o splines. Si la suposición es correcta, la curva suave será casi recta.
Comentarios
- Gracias. Tu ejemplo de código es significativo porque usas tres valores diferentes para
LAbase
, mi caso es más comoLAbase <- c(10, 10, 10)
dondeL=10
yn=3
y, en ese caso, el modelo calculadom1
no es significativo para mí. - Si obtiene los mismos valores todo el tiempo para LAbase, no hay forma de hacer nada.
Responder
- Su suposición de que las medidas solo diferirán por una constante multiplicativa me parece ciertamente falsa. El hecho de que esto no funcionaría para convertir de Fahrenheit a Celsius lo demuestra.
- (también conocido como # 3) Deberá evaluar más de una parte. No tendrá suficientes grados de libertad para determinar la conversión entre las dos medidas si solo usa una parte. Además, intente obtener partes en las que los valores reales de las medidas abarquen un rango lo más grande posible y, ciertamente, abarquen el rango dentro del cual querrá realizar la conversión en el futuro.
- aña (también conocido como # 2) Puede determinar la ecuación de conversión mediante un análisis de regresión. Con múltiples medidas, podría usar un modelo de varios niveles, pero sospecho que esto es más de lo necesario. Si toma varias medidas de cada parte con cada instrumento de medida, puede usar los promedios, como describe, para obtener una medida más sólida. Entonces puede usar esos dos medios como sus valores $ x $ y $ y $ para esa parte. Las estimaciones beta de la ecuación de regresión le darán el cambio requerido.
Tenga en cuenta que estos no serán los mismos valores que podría obtener a través de otras estrategias de conversión, sin embargo, porque el procedimiento es diferente; por ejemplo, para convertir de Fahrenheit a Celsius, puede restar 32 y dividir por 1.8 , pero para usar una ecuación de regresión, $ \ beta_0 \ approx18 $ y $ \ beta_1 \ approx.6 $. Esto no importa, siempre que sepa qué procedimiento está usando.
Otro La ventaja del método de regresión, por cierto, es que la conversión entre dos instrumentos de medición no será necesariamente lineal en todo el rango posible, lo que un análisis de regresión puede permitirle modelar.
Responder
Si tiene varias medidas del mismo cantidad varias veces en las dos unidades, en general, no hay forma de estimar la transformación de una unidad a otra.
Sin embargo, si sabía que existe una relación multiplicativa entre los dos, y que el ruido en los dos conjuntos si las mediciones es cero- media normal (con varianzas iguales o varianzas diferentes pero conocidas), entonces puede estimar el factor multiplicativo $ k $ por máxima verosimilitud.
Si hace las suposiciones anteriores, puede proceder de la siguiente manera. Sea $ X_B $ el valor real de la cantidad que mide repetidamente en unidades de $ B $. Entonces $ L_ {Ai} = k X_B + e_i $, $ i = 1, \ dots, n $ y $ L_ {Bj} = X_B + f_j $, $ j = 1, \ dots, m $.
$ e_i $ y $ f_j $ son i.i.d. normales, variables aleatorias normales con media 0 y varianza $ \ sigma ^ 2 $. Puede escribir la probabilidad de registro de los datos como
$$ L (data; k, X_B) = const – \ frac {1} {\ sigma ^ 2} \ sum_i (L_ {Ai} – k X_B) ^ 2 – \ frac {1} {\ sigma ^ 2} \ sum_i (L_ {Bi} – X_B) ^ 2 $$
Debería poder maximizar esta cantidad en términos de $ k $ y $ X_B $ para obtener su transformación (y una estimación de la cantidad).
De hecho, si pasa por el álgebra de establecer las derivadas parciales de la función logarítmica de verosimilitud con respecto a $ k $ y $ X_B $ a cero, debe obtener la expresión para $ k $ que tiene en su pregunta.
$ X_B = \ frac {\ sum_j L_ {Bj}} {m} $ y $ k = \ frac {m \ sum_i L_ {Ai}} {n \ sum_j L_ {Bj}} $
Respuesta
El documento clave que necesita es la GUM (Guía para la incertidumbre en la medición) – JCGM 100: 2008 (GUM 1995 con correcciones menores) Bureau International de Poids et Mesures / guides / gum que brinda los detalles completos (estándar internacional) sobre cómo evaluar el rendimiento de una medida frente a una referencia (su referencia ya tendrá una incertidumbre evaluable). Los documentos del NIST de EE. UU. También se basan directamente en esto.
La GUM le permite elegir el método de evaluación, pero luego requiere que proporcione un término de error para cualquier suposición, como la creencia de que los dos los instrumentos no tienen compensación.
Tendrá términos sistemáticos y términos aleatorios. Los términos sistemáticos suelen ser el mayor error y, por lo general, se subestiman (mire las estimaciones de principios de 1900 para la velocidad de la luz y sus barras de error, ¡que no se superponen!).
Porque usted solo tiene una parte de referencia, todo lo que puede hacer, hasta ahora, es evaluar los tamaños relativos de los dos errores aleatorios de medición (incluida la variación sistemática local, como la temperatura, el operador, la hora del día …)
Al final, podrá indicar un error y un factor de cobertura para sus nuevas lecturas en algún rango de validez.