Quimiometría Licenciatura en Química Interperiodo 2025 1
2 Es una disciplina metrológica qué aplica conocimientos matemáticos, especialmente estadísticos, a procesos químicos para extraer de los datos experimentales la mayor cantidad posible de información y extender el conocimiento del sistema químico. Además, para que este conocimiento sea óptimo se deberá discriminar entre la información relevante y aquella de menos interés., ¿Qué es y para qué sirve?
Tarea 1 3 1.1 Investigar de forma breve la historia de la Quimiometría (media cuartilla) 1.2 Investigar un artículo donde se aplique la Quimiometría para resolver un problema, debe contener: - introducción - objetivo - desarrollo - conclusión - bibliografía: cita del artículo en APA
Técnicas estadísticas comunes 4
Análisis de Componentes Principales (PCA) 5 Es una herramienta estadística que sirve para resumir muchos datos en pocos datos importantes , sin perder la información más relevante. Imagina que tienes una tabla con muchísimas columnas (por ejemplo, mediciones de una sustancia en diferentes condiciones o longitudes de onda). El PCA toma toda esa información y la condensa en unas pocas "nuevas variables" que explican lo más importante del conjunto de datos. Estas nuevas variables se llaman componentes principales . Esto es muy útil en quimiometría porque ayuda a ver patrones que no se notan fácilmente. Por ejemplo, si analizas distintos vinos, el PCA puede ayudarte a ver si hay grupos que se parecen entre sí (porque vienen de la misma región, tienen la misma calidad, etc.), o si alguno es diferente y puede estar adulterado o tener un problema. Además, sirve para detectar errores o muestras extrañas ( outliers ) en una producción industrial, lo que permite detectar desviaciones en el proceso antes de que se conviertan en un problema serio.
Regresión de mínimos cuadrados parciales (PLS) 6 La regresión PLS es una herramienta estadística que sirve para predecir algo complicado a partir de muchos datos al mismo tiempo . Por ejemplo, si se requiere saber cuánta azúcar hay en una bebida , pero en lugar de hacer una prueba química directa, se tiene un espectro. Por sí solos, esos números no dicen nada claro, pero PLS relaciona esos datos con la cantidad real de azúcar, usando ejemplos anteriores. Algunas características de PLS son: Toma muchos datos (como espectros, mediciones o señales) Busca patrones que se relacionan con lo que quieres predecir (como concentración de azúcar, calidad, humedad, etc.) Crea un modelo que luego puedes usar para predecir resultados en muestras nuevas, sin necesidad de hacer pruebas largas o destructivas Es muy útil en industrias como la alimentaria, farmacéutica o petroquímica, porque permite analizar muestras rápidamente y sin necesidad de laboratorio, solo con sensores y modelos matemáticos bien entrenados.
Análisis Discriminante (LDA, PLS-DA) 7 Es una técnica estadística que sirve para clasificar cosas en grupos, basándose en varias características al mismo tiempo. Algunas características de este análisis son: Analiza los datos de algo nuevo. Lo clasifica en el grupo que más se le parece Detecta grupos o productos falsificados, como un medicamento que no pertenece al lote correcto. Clasificar muestras según su origen o calidad (por ejemplo, si un café es premium o estándar). Identificar errores o contaminaciones en procesos industriales. En resumen, el análisis discriminante revisa características e indica de qué grupo viene cada muestra, ayudando a mantener el control y la calidad de los productos.
Análisis de clusters 8 Es una técnica que agrupa cosas parecidas entre sí , de acuerdo con sus características similares. Aplicaciones: Para descubrir patrones ocultos . Para organizar datos en grupos naturales . Para detectar tipos diferentes de muestras, aunque no se tenga información inicial de ellas. En la industria alimentaria, se puede usar clúster para: Agrupar productos que tienen perfiles químicos parecidos. Distinguir entre varios tipos de muestras de un mismo tipo (por ejemplo, vinos), solo viendo su composición química. El análisis de clúster es muy útil cuando se tienen muchos datos y se requieren organizar de forma natural.
Diseño de experimentos ( DoE ) 9 Es una metodología sistemática utilizada para planificar y ejecutar estudios de manera eficiente. Su objetivo es identificar, controlar y entender cómo diferentes factores o variables afectan los resultados de un proceso o sistema. En términos sencillos, en lugar de cambiar una variable a la vez, el DoE organiza el experimento de forma que se puedan evaluar varios factores simultáneamente. Esto permite: Detectar interacciones entre variables: Comprender cómo la combinación de dos o más variables influye en el resultado. Optimizar recursos: Disminuir la cantidad de experimentos necesarios, ahorrando tiempo y costos. Obtener conclusiones robustas: Recolectar datos de manera estructurada para que los análisis estadísticos sean más precisos y confiables. En la práctica, se pueden utilizar diferentes tipos de diseños, como los diseños factoriales o diseños de bloques, que ayudan a aislar los efectos individuales de cada variable y sus interacciones. Esto resulta fundamental para mejorar y estandarizar procesos, especialmente en industrias donde la calidad y la consistencia del producto son esenciales.
Unidad 2 Significancia de los factores de influencia 10
Conceptos básicos 11
Variables La característica fundamental de toda variable es suministrar un nivel de información que puede expresarse o no en términos numéricos. 12 Tipos de variables Cuantitativas o numéricas - se mueven dentro de una escala numérica de valores, siendo posible verificar cálculos y establecer relaciones entre ellas Numéricas de razón - parten de un origen absoluto o un cero, por ejemplo, la edad masa o volumen. Aportan un mayor nivel de información cheque la relación entre ellas tiene un sentido exacto Numéricas de intervalo - su origen es relativo, por lo que el cero no indica carencia, un ejemplo es la escala de °C, donde el cero no indica ausencia de temperatura. El nivel de información de esta Variables es menor, por lo que se prefiere transformarlas en numéricas de razón Cualitativas o categóricas - su información no se mueve en un dominio de valores numéricos y por lo tanto no se pueden establecer relaciones entre ellas Categóricas nominales - su información no es cuantificable, siendo imposible establecer un orden de prioridad o categoría, por ejemplo, los tipos de detectores en cromatografía o los colores de análisis cualitativo. En este caso sólo se tiene un sentido de agrupación, pero no de ordenación Categóricas ordinales - se puede establecer un orden natural jerárquico entre las variables, por ejemplo, la escala de la calidad de agua (no potable, aceptable, buena, excelente) o el olor de un producto (muy desagradable, desagradable, inodoro, agradable, muy agradable)
13
Inferencia Estadística 14 Inferir conclusiones sobre la población a partir de la muestra y proporcionar medidas que cuantifican el grado de confianza es misión de la inferencia estadística. Por ejemplo, para determinar la riqueza del hierro en un yacimiento se debería analizar todo el yacimiento, como esto generalmente no es posible, se analizan n muestras con repeticiones (estadística descriptiva) de manera que la información obtenida se pueda usar para estimar el contenido de hierro en el yacimiento con un margen de error (inferencia estadística)
Error Errores groseros o accidentales - son aquellos que son tan graves que no existe otra alternativa real que abandonar el experimento y empezar de nuevo por completo, por ejemplo, la avería total de un instrumento, la caída o vertido accidental de una muestra, descubrir impurezas en un reactivo, etc. Errores aleatorios – se originan por efectos de variables sin control y provocan que los resultados individuales difieran uno de otro de manera que caigan a ambos lados del valor medio. Errores sistemáticos - hace que la media de un conjunto de datos difiera del valor aceptado. Se origina principalmente por un fallo del diseño del experimento o por un fallo del equipo. Si se repite el experimento en idénticas condiciones, vuelve a producirse este error; provocando que todos los resultados se hallen por encima o por debajo del valor aceptado como real. Este tipo de error es difícil de descubrir, aunque no imposible. El error sistemático total se denomina sesgo 15 ¿Se puede evitar el error en una medición? “ No existen resultados cuantitativos de interés, si no van acompañados de alguna estimación de error ” Considerando que el valor tomado como real es 10.00, ¿cuál estudiante cuenta con los mejores resultados?
16 Ejemplo de análisis El estudiante A tiene resultados muy precisos, pero con un sesgo con respecto al valor real. Para el estudiante B la media está muy cerca del valor verdadero, pero sus resultados no son precisos, y tienen mucho sesgo. El estudiante C tiene poca precisión y su resultado promedio es muy sesgado El estudiante D tiene resultados precisos y sin sesgo ¿Cuál es el estudiante con mayor precisión? ¿Cuál es el estudiante con mayor exactitud? ¿Se tienen experimentos reproducibles o con repetibilidad ?
17 1. En el super la encuesta de satisfacción (nada satisfecho, satisfecho, muy satisfecho) se encuentra en escala: Cualitativa nominal/cualitativa ordinal/cuantitativa de razón/Cuantitativa de intervalo 2. ¿Qué significa hacer una inferencia estadística? 3. La diferencia entre un análisis discriminante y un análisis de clusters es…… 4. ¿Qué tipo de análisis usarías para reducir los datos de enfermedades en la población de un país? 5. Ejemplo de un error sistemático y uno aleatorio en una medición por IR Repaso
Exactitud - se define como el grado de concordancia entre el resultado de un ensayo y el valor de referencia aceptado del analito. La exactitud puede estar afectada por los dos errores: aleatorios y sistemáticos . Precisión - refleja la proximidad de diferentes medidas entre sí y es función exclusiva de los errores aleatorios . Reproducibilidad – es la precisión de un método con datos obtenidos a partir de determinaciones independientes, en distintas condiciones, equipos y personas. Repetibilidad - es la precisión de un método con datos obtenidos a partir de determinaciones efectuadas por la misma persona en las mismas condiciones y equipos. 18
Ejercicios 19 Lean el siguiente ejemplo y en parejas discutan e identifiquen lo que se pide ¿Cuál laboratorio (A-E) tiene las mejores mediciones? Una muestra patrón de suero sanguíneo humano contiene 42.0 g de albúmina por litro. Cinco laboratorios realizan 6 determinaciones con los siguientes resultados (en gL -1 ) 2. Se ha hecho la determinación de cuatro veces el número de lugares de unión por molécula en una muestra de anticuerpos monoclonados , con resultados 1.95, 1.95, 1.92 y 1.97, ¿se puede decir que se tienen resultados precisos, exactos y sin sesgo? Justifiquen la respuesta A 42.5 41.6 41.9 41.1 42.2 B 39.8 43.6 40.1 43.9 41.9 C 43.5 42.8 43.1 42.7 43.3 D 35 43 40.5 36.8 42.2 E 42.2 41.6 41.8 42.6 39
Tipos de errores sistemáticos 20 Debidos a los juicios del analista Se deben al comportamiento físico y químico no ideal de reactivos y reacciones Se deben a la discrepancia del valor nominal y real
Manejo de errores sistemáticos 21 Para evitar errores sistemáticos en este procedimiento se debe cuidar 1. Identificación de fuentes de error sistemático: Causas de contaminación – jeringas de acero inoxidables, tapones de tubos, restos de muestras anteriores, lavado ineficiente, lavados incompletos, etc. Exactitud del instrumento analítico – los equipos con monocromadores se desajustan paulatinamente, de manera que hay errores frecuentes por varias longitudes de onda a pesar de los reportes previos. Los instrumentos sencillos como material de vidrio, potenciómetro, termómetros pueden presentar errores sistemáticos, aunque ya hay instrumentos con auto-calibración . Sesgo humano – algunos analistas padecen astigmatismo o daltonismo que pueden afectar las lecturas y observaciones. También se ha registrado tendencia a favorecer los números pares o los dígitos 5 y 0. Supongamos que queremos evitar los errores sistemáticos al detectar metales de transición en muestras biológicas. Para ello se debe elegir el método: UV-Vis o espectrometría de absorción atómica.
Manejo de errores sistemáticos 22 2. Diseño del experimento en cada etapa Elegir el método más adecuado, por ejemplo, una pesada por diferencia con material higroscópico. Considerar las diferencias en lo que ya se da como “valor conocido”, por ejemplo, medir la longitud del paso óptico (1 cm) o la longitud de onda máxima experimental para cumplir la Ley de Lambert- Beer , A= e bc . Por ejemplo, si la adecuada es 405 nm en lugar de 400 nm, el valor de e será incorrecto 3. Uso de materiales de referencia y métodos estándar . Esto abarca la calibración de instrumentos conociendo su error sistemático de antemano. Organismos como el National Physical Laboratory , Laboratory of the Government Chemist (LGC), National Institute fos Science and Technology (NIST), el Centro Nacional de Metrología (CENAM), etc. Tienen manuales sobre la estandarización de equipos, además siempre debe usarse blancos. 4. Tener ensayos de colaboración . L os analistas experimentados de diferentes laboratorios pueden corroborar sus resultados. También es posible usar técnicas o equipos diferentes (UV-Vis y Absorción atómica). Se pueden construir metodologías de ensayos y esque mas de suficiencia y de evaluación estadística de los resultados.
Media y desviación estándar 23 Para revelar la presencia de errores sistemáticos en muchos experimentos se necesita realizar medidas repetidas. Uno de los conceptos básicos involucrando medidas repetitivas es la media aritmética dada por: El intervalo , es la medida definida como la diferencia entre el valor más alto y el más bajo. La desviación estándar (s) , define la variabilidad de una medición o dato con respecto a la media y puede definirse como: NOTA: recordemos que esta definición de media y de desviación estándar obedecen solo para la desviación estándar muestral, en caso de ser poblacional se definen como m y s , las cuales se verán más adelante.
Ejercicio 24 Encuentre la media y la deviación estándar de los resultados del estudiante A, completando la tabla dada Datos: 10.08, 10.11, 10.09, 10.10, 10.12 = ______ s = ______________ Total Total
Varianza y desviación estándar relativa 25 La varianza (s 2 ) , es otra medida de la variabilidad definida como el cuadrado de la desviación estándar Varianza = s 2 Esta medida no debe confundirse con el coeficiente de variación (CV) o desviación estándar relativa (DR) que viene dado por: y que expresa el error relativo y se expresa en %. Ejercicio: Obtener la varianza y el CV del valor más alto del estudiante A
Distribución de medidas repetidas 26 Cuando tenemos un gran conjunto de medidas repetidas conviene hacer una tabla de frecuencias para entender los resultados y obtener información posterior de ella. Como ejemplo tenemos estos resultados de 50 determinaciones de la concentración del ion nitrato en una muestra de agua en m g/ mL Concentración ( m g/ mL ) Frecuencia 0.46 1 0.47 3 0.48 5 0.49 10 0.50 10 0.51 13 0.52 5 0.53 3 0.51 0.51 0.51 0,50 0.49 0.52 0.53 0.50 0.47 0.51 0.52 0.53 0.48 0.50 0.52 0.49 0.49 0.50 0.49 0.48 0.46 0.49 0.48 0.49 0.49 0.51 0.47 0.51 0.51 0.51 0.48 0.47 0.50 0.51 0.49 0.48 0.51 0.50 0.50 0.53 0.52 0.50 0.50 0.51 0.51
Distribución de medidas repetidas 27 La distribución de los datos también puede apreciarse en un histograma, donde todas las medidas representan la población y si no existen errores sistemáticos la media de la población ( m ) es un valor verdadero de la concentración y la desviación estándar ( s ) es el valor verdadero de la desviación estándar. En cambio, x y s nos proporcionan una estimación de estas medidas 0.51 0.51 0.51 0,50 0.49 0.52 0.53 0.50 0.47 0.51 0.52 0.53 0.48 0.50 0.52 0.49 0.49 0.50 0.49 0.48 0.46 0.49 0.48 0.49 0.49 0.51 0.47 0.51 0.51 0.51 0.48 0.47 0.50 0.51 0.49 0.48 0.51 0.50 0.50 0.53 0.52 0.50 0.50 0.51 0.51
DISTRIBUCIÓN DE GAUSS 28 Si un experimento se repite un gran número de veces (>30), los resultados siempre se agrupan simétricamente en torno al valor medio como se muestra en el histograma . Cuántas más veces se repite el experimento más se acercan los resultados a una curva suave ideal llamada distribución normal o de Gauss . En un laboratorio no podemos hacer tantos experimentos, por ellos usamos la curva para hacer estimaciones estadísticas. Las curvas de este tipo pueden ser descritas por una ecuación que contiene solo dos parámetros la media poblacional m y la desviación estándar de la población s .
29
Tarea Investiga diferentes tipos de distribuciones, aparte de la normal, con las siguientes características: Nombre de la distribución Forma: ¿Cómo se ve el gráfico de esta distribución? Parámetros: ¿Cuáles son los parámetros clave que definen esta distribución? Ejemplos: ¿En qué situaciones del mundo real se podría utilizar esta distribución? 30
Parámetros de la curva de Gauss 31 Muestral Poblacional Es útil distinguir entre la media muestral y la media poblacional. La media muestral es el porcentaje aritmético de una muestra limitada extraída de una población estadística y se define como la suma de los valores dividida entre el número de mediciones, representadas por N. La media poblacional , en contraste, es la media verdadera de la población con la suposición de que N representa el número total de mediciones en la población. En ausencia del error sistemático, la media poblacional es también el valor verdadero de la cantidad medida . Por otra parte, es útil la desviación estándar poblacional s , la cual es una medida de la precisión de la población, y la desviación estándar muestral: En la mayoría de los análisis químicos cuantitativos, el valor real de la media m no se puede determinar, ya que se requeriría un número inmenso (que tiende a infinito) de mediciones. Sin embargo, con ayuda de la estadística se puede establecer un intervalo que rodea a la media determinada experimentalmente dentro del cual se espera que se encuentre la media poblacional con un cierto grado de probabilidad.
Variables estandarizadas 32 La ecuación de la curva de Gauss es: Con lo cual la proporción exacta de valores que caen dentro de un intervalo puede encontrarse a partir de tablas, a esto se le llama variables estandarizadas Donde la probabilidad de medir z en un cierto intervalo es igual al área de ese intervalo Independientemente de su amplitud, en una distribución normal el 68.3% del área bajo una curva de Gauss está dentro de la desviación estándar y 95.4 % entre ±2 s y el 99.7% entre ±3 s. Debido a estas relaciones, podemos hacer predicciones determinando el área debajo de la curva de Gauss con la siguiente ecuación:
EJERCICIO : Un fabricante de bombillas tiene una garantía para cambiar cualquier bombilla que se funda en menos de 600 horas. En su fábrica se prueban 500 bombillas y se determina que duran una media de 845.2 h con una desviación estándar es de 94.2 h, ¿ qué fracción de bombillas debería tener disponibles para las sustituciones ?
Para z=2.6 el A=0.4953 desde la media hasta 600 A=0.5 de la media a la izquierda La resta 0.5-0.4953=0.0047 o 0.47% Solución: Se deben tener 0.47% de los focos, es decir, si el fabricante vende 1, 000, 000 de focos debe tener 4700 focos disponibles para reemplazo de los defectuosos.
EJERCICIO 1: Calcular la fracción de bombillas que se espera tengan una duración a) superior a 1000 horas, y b) entre 800 y 900 horas EJERCICIO 2: Si las medidas de una valoración se distribuyen de forma normal con una media de 10.15 mL y una desviación estándar de 0.02 mL , encuentre el porcentaje de medidas que caen entre 10.12 y 10.20 mL
36 EJERCICIO 3: La temperatura durante setiembre está distribuida normalmente con media 18.7 ºC y desviación estándar de 5 ºC . Calcule la probabilidad de que la temperatura durante setiembre esté a) por debajo de 21ºC y b) por arriba de 21 °C. y c) de 21 °C. EJERCICIO 4: Obtén la media y la desviación estándar de todas tus calificaciones del semestre pasado y con esos datos obtén: a) la posibilidad de sacar más de 8 en esta materia
La distribución muestral de la media 37 En ausencia de errores sistemáticos la media de una muestra de medidas proporciona una estimación del valor verdadero de la media de toda la población; sin embargo, aun cuando no haya errores sistemáticos las medias varían debido a errores aleatorios, de manera que es poco probable que la media de la muestra sea exactamente igual al valor verdadero. Por esta razón, es más útil proporcionar un intervalo de valores que sea probable que incluya al valor verdadero. Este intervalo depende de la precisión de las medidas individuales y del número de medidas de la muestra y se llama intervalo de confianza y los valores extremos de ese intervalo se denominan l ímites de confianza .
IC en muestras grandes (n>30) 38 Cuando no podemos hallar la media o la deviación estándar verdadera de la población ( m / s ), lo que hacemos es determinar la media y la desviación muestral estándar ( ). El intervalo de confianza es una expresión que dice que la verdadera media está probablemente a una cierta distancia de la media medida. Para muestras grandes los límites de confianza vienen dados por: Ejemplo : Calcular los límites de confianza de la media al 95% y 99% para las medidas de la concentración de los iones nitrato, considerando que Para 95 % Lo que representa que podemos afirmar con un 95% de confianza que la media real está entre 0.4954 y 0.5046 m g/L Calcular los límites con 99% Donde z depende del grado de confianza Límites de confianza 95%, z = 1.96 Límites de confianza 99%, z = 2.58 Límites de confianza 99.7%, z = 2.97
IC en muestras pequeñas (n<30) 39 Cuando el tamaño de la muestra se hace pequeño, s es menos confiable, por lo cual la ecuación se modifica incluyendo a t, que es la t de Student , la cual se busca en las tablas de acuerdo con los grados de libertad (n-1) Ejemplo: La determinación del contenido de hidratos de carbono en una glicoproteína da los siguientes resultados: 12.6, 11.9, 13, 12.7 y 12.5 g de hidratos de carbono por cada 100 g de proteína, Hallar los intervalos de confianza del 50% y el 90% del contenido en hidratos de carbono Donde s es la desviación estándar medida, n el número de observaciones y t es la t de Student
40 Para el 50% Para el 90% ¿Qué significa esto? Estos cálculos significan que hay un 50% de probabilidad de que la verdadera media esté entre 12.41 y 12.67 (12.54 ±0.13) O bien que hay un 90% de probabilidad de que la verdadera media esté entre….
Otra forma de ver los intervalos de confianza…. Cuando repetimos el experimento anterior muchas veces, cada uno tendrá una media distinta, pero podemos ver que el 50% de las veces las medias caen en los valores obtenidos de la fórmula de IC. Lo mismo sucede para 90%. Si se repitiera un número infinito de veces, podemos esperar la misma tendencia y establecer conclusiones generales. Generalmente se toma una confianza del 95% para evaluar un intervalo. 41
Distribución logarítmica 42 En algunas ocasiones puede surgir otro tipo de distribución como la logarítmica, donde la frecuencia representada frente al logaritmo de la concentración proporciona una distribución llamada log-normal . Un ejemplo de esta distribución es la concentración de anticuerpos en un suero sanguíneo como se muestra en la Figura. Las reglas anteriores se siguen aplicando y la media real se obtiene con el antilog de la media de los valores, por ejemplo, si la media en la distribución log-normal es 0.15, entonces 10 0.15 = 1.41, lo cual es la media de la distribución original.
IC para distribución log-normal Cuando una distribución de datos presenta una forma log-normal los IC se debe trabajar con los logaritmos de las medidas. El IC será el de la media geométrica. Ejemplo: Los siguientes valores (expresados como porcentajes) proporcionan la concentración de anticuerpos en suero sanguíneo humano de ocho adultos sanos. Calcule el IC de la media geométrica al 95% Se calculan los logaritmos de los valores propuestos La media es 0.1669, por lo que como la media geométrica de los valores originales y la desviación estándar (muestral de los logaritmos) es 0.1365, para el 95% el IC es: Los antilogaritmos de estos valores al 95% son 1.13 a 1.91 43 2.15 1.13 2.04 1.45 1.35 1.09 0.99 2.07 0.332 0.053 0.310 0.161 0.130 0.037 -0.004 0.316
Ejercicios 1. Siete medidas del pH de una disolución buffer reguladora proporcionan los siguientes resultados: Calcular los IC para el verdadero pH al nivel de confianza del 95% y del 99% 2. Se midió la concentración de plomo en el fluido sanguíneo para una muestra de 50 niños de un colegio. La media muestral fue 10.12 ng/ mL y la desviación estándar fue de 0.64 ng/ mL . Calcular el intervalo de confianza al 95% para la concentración media de plomo de todos los niños de la escuela. 44 5.12 5.20 5.15 5.17 5.16 5.19 5.15
UNIDAD 2 Estimación de varianzas usando ANOVA y contrastes de significación 45
CONTRASTES DE SIGNIFICACIÓN Un método analítico de forma ideal debería estar libre de errores sistemáticos, por lo que el valor dado para un analito debe ser verdadero, pero esto no sucede en la realidad. Para decidir si la diferencia entre la cantidad medida y la cantidad conocida se puede atribuir a errores aleatorios, se debe aplicar una prueba estadística denominada contraste de significación . Esta aproximación indica si son significativas las diferencias entre los dos resultados o si se puede justificar solo por variaciones aleatorias. 46
COMPARACIÓN DE UNA MEDIA EXPERIMENTAL CON UN VALOR CONOCIDO 47 Hpótesis nula (Ho) – es aquella mediante la cual un método analítico no tiene errores sistemáticos , solamente aleatorios . Generalmente se hace para ser rechazada, pero es solo una suposición, por lo que puede ser aceptada o rechazada Cuando se supone la hipótesis nula como verdadera, la estadística se puede emplear para calcular la probabilidad de que la diferencia observada entre la media ( ) y el valor verdadero ( m ) se deba a errores aleatorios. La hipótesis nula se rechaza cuando la probabilidad de que la diferencia observada es menor a 5% (P=0.05), en ese caso se dice que la diferencia es significativa al 5%. s=desviación estándar muestral n=tamaño muestral El valor de t si es mayor a un cierto valor crítico, nos dice si una hipótesis nula es falsa. Ejemplo: En un método nuevo para determinar selenourea en agua, se obtuvieron los siguientes valores para muestras de agua de grifo con 50 ng/ mL de selenourea 50.4 50.7 49.1 49.0 51.1 ¿Hay algún error sistemático?
Comparando t calculada = 0.14 con t tabulada (4) = 2.78 (al 95% o diferencia del 5%) La regla que seguimos es: Si t calculada < t tabulada No hay evidencia de diferencia significativa Con esta información la hipótesis nula se retiene o se rechaza y se puede tener evidencia de error sistemático. * No significa que no existan errores sistemáticos, sino que no se puede constatar su evidencia. Grados de libertad = n-1=5-1
Ejercicios 49 1. Se compra una muestra de carbón de material estándar certificado que contenía 3.19% w/w de S. Se requiere usarlo en un método analítico y ver si se reproduce su valor. Los valores medidos fueron 3.29, 3.22, 3.3, 3.23 % de S, con una media=3.26 y s= 0.041. Hipótesis nula: La cantidad de S en el estándar es correcta 2. Se utilizó una disolución 0.1 M de ácido para valorar 10 mL de una disolución de base 0.1 M, registrándoselos siguientes volúmenes de ácido Calcule los IC al 95% y úselos para decidir si existe evidencia de error sistemático 9.88 10.18 10.23 10.39 10.21
Ejercicio 50 Para evaluar un método espectrofotométrico para determinar Ti, se aplicó el método a muestras de aleaciones conteniendo diferentes cantidades certificadas de Ti. Los resultados (%Ti) se muestran a continuación: Para cada aleación se realizaron 8 mediciones. Determinar si el valor medio difiere significativamente del valor certificado Muestra Valor certificado Media Desviación estándar 1 0.496 0.482 0.0257 2 0.995 1.009 0.0248 3 1.493 1.505 0.0387 4 1.990 2.002 0.0212
COMPARACIÓN DE DOS MEDIAS EXPERIMENTALES 51 Los resultados de un método analítico nuevo se pueden contrastar con los de otro de referencia. En este caso tendremos dos medias muestrales . Hipótesis nula : ambos métodos proporcionan el mismo resultado ( ) Para decidir si la diferencia entre dos medias muestrales es significativa se calcula t y s: Donde son los grados de libertad Ejemplo: En una comparación de dos métodos para determinación de Cr en muestras de hierba de centeno se obtuvieron los siguientes resultados en mg/kg Método 1: =1.48; s 1 =0.28 Método 2: Para cada método se hicieron 6 mediciones, ¿los 2 métodos proporcionan resultados que difieren significativamente?
52 Grados de libertad = n 1 +n 2 -2 = 10 La regla que seguimos es: Si t calculada < t tabulada La diferencia entre los dos métodos no es significativa 4. 56 > 2.228 entonces la diferencia entre los dos métodos es significativa y se rechaza la hipótesis nula al 95%. * Al 99% t tabulada = 3.169, es decir, la probabilidad de que esta diferencia se deba al azar es menor de 1 en 100
Ejercicio 53 En una serie de experimentos para determinar estaño en productos alimenticios, las muestras fueron llevadas a ebullición HCl a reflujo para diferentes tiempos. Los resultados fueron: ¿Es significativamente diferente la cantidad media de estaño para los dos tiempos de ebullición? Hipótesis nula: El tiempo de ebullición no influye sobre la cantidad de estaño encontrada. Tiempo de reflujo (min) Estaño encontrado (mg/kg) 30 55, 57, 59, 56, 56, 59 75 57, 55, 58, 59, 59, 59
EXCEPCIÓN 54 Cuando sea poco probable que las desviaciones estándar de las poblaciones sean iguales, no es apropiado sumarlas para dar una estimación global, por lo que se sigue: Ejemplo: Los siguientes datos proporcionan la concentración del tiol ( mM ) en la sangre de dos grupos de voluntarios, siendo el primer grupo gente sin enfermedades y el siguiente con artritis reumatoide. Hipótesis nula: La concentración media de tiol es la misma independientemente de las enfermedades Grupo 1 1.84 1.92 1.94 1.92 1.85 1.91 2.07 Grupo 2 2.81 4.06 3.62 3.27 3.27 3.76
55 La regla que seguimos es: Si t calculada > t tabulada Los valores son diferentes 8.48 > 2.57 entonces se rechaza la hipótesis nula. * Al 99.9% t tabulada = 6.87 (P=0.001), es decir, existe suficiente evidencia para afirmar que los valores de tiol son diferentes en personas con enfermedades
EJERCICIO 56 La masa media de un gas obtenido es =2.31011 g con s=0.000143 para 7 mediciones. La masa del gas obtenido por otra vía es =2.29947 g con una s 2 =0.00138 hecha en 8 mediciones. ¿Se puede decir que se trata del mismo gas? Hipótesis nula: Los gases obtenidos son los mismos
Datos emparejados 57 Sirven para comparar dos métodos de análisis que se hicieron con dos cantidades de analito diferentes y en diferentes condiciones. En este caso siempre existe variación entre las medidas debido al error aleatorio. La comparación de las dos medias se toma como una diferencia, d, entre cada par de resultados dados por los dos métodos y se obtiene una población media m d = 0. Para probar la hipótesis nula, se prueba si d difiere significativamente de cero. Donde =media de diferencias y es la deviación estándar de diferencias Ejemplo: Concluya si existe diferencia significativa entre los resultados obtenidos por los métodos siguientes para la determinación de paracetamol en pastillas: Hipótesis nula: no hay diferencia entre ambos métodos Lote 1 2 3 4 5 6 7 8 9 10 Ensayo (UV) 84.63 84.38 84.08 84.41 83.82 83.55 83.92 83.69 84.06 84.03 Ensayo (IR) 83.15 83.72 83.84 84.20 83.92 84.16 84.02 83.60 84.13 84.24
58 Se deben sacar las diferencias de los métodos Lote 1 2 3 4 5 6 7 8 9 10 X s d Ensayo (UV) 84.63 84.38 84.08 84.41 83.82 83.55 83.92 83.69 84.06 84.03 Ensayo (IR) 83.15 83.72 83.84 84.20 83.92 84.16 84.02 83.60 84.13 84.24 Diferencias 1.48 0.66 0.24 0.21 -0.1 -0.6 -0.1 0.09 -0.07 -0.21 0.159 0.57 La regla que seguimos es: Si t calculada > t tabulada Los valores son diferentes 0.88 < 2.26 entonces se acepta la hipótesis nula. Ambos métodos no proporcionan resultados diferentes y pueden ser usados indistintamente. Grados de libertad = n - 1= 9
Ejercicio 59 Se obtiene el contenido de colesterol en 6 muestras de plasma sanguíneo humano con distintas técnicas. Cada muestra tiene un contenido diferente de colesterol, pero lo técnica oficial es la A. El método B da un resultado menor que el método A en 5 de las 6 muestras. Hipótesis nula: el método B no sirve para determinar colesterol
CONTRASTE F (COMPARACIÓN DE DESVIACIONES ESTÁNDAR) 60 Para decidir si 2 conjuntos de datos tienen desviaciones estándar que difieren significativamente se ocupa la prueba F. El cociente del test F se calcula: Se pone siempre en el numerador la desviación estándar mayor y por lo tanto F Si Fcalculada > Ftabulada , la diferencia es significativa Ejemplo: en el ejemplo anterior una desviación estándar es s 1 =0.00138 (8 medidas) y la otra es s 2 =0.000143 con 7 medidas.
61 Para 7 grados de libertad (n-1) en s 1 y 6 grados de libertad en s 2 , F=4.21 F calculada = 9.31 > F tabulada = 4.21 Se concluye que las desviaciones estándar difieren entre sí a un nivel del 95% de confianza
Ejercicio 62 Se comparó un método propuesto para la determinación de DQO en aguas residuales con un método patrón (sales de mercurio). Los siguientes resultados fueron obtenidos: Para cada método se realizaron 8 determinaciones, Hipótesis nula: La precisión del método propuesto no es buena en comparación con el método estándar Media (mg/L) Desviación estándar (mg/L) Método patrón 72 3.31 Método propuesto 72 1.51
Datos anómalos (prueba Q) 63 La prueba Q es una prueba estadística simple y ampliamente utilizada para decidir si un resultado sospechoso debe ser descartado o retenido. En esta prueba, el valor absoluto de la diferencia del resultado cuestionable x y su vecino más cercano x v se divide entre el rango w de todo el conjunto para obtener así la cantidad Q Ejercicio: Tengo 5 resultados de pesado de una muestra: 12.53 g, 12.56 g, 12.47 g, 12.67 g y 12. 48 g ¿Debo descartar la medición de 12.67 g o la conservo? Si Q calculada > Q tabulada se rechaza El dato se acepta con un 90% de confianza
EJERCICIO 64 Se obtuvieron los siguientes valores para la concentración de NO 2 (mg/L) en una muestra de agua de río: 0.403, 0.410, 0.401 y 0.380. La última medida es sospechosa Hipótesis nula: la última medición debe ser descartada Si se añaden tres nuevas medidas a las dada en el ejemplo anterior: 0.400, 0.413 y 0.411. ¿Se debe mantener aún el dato 0.380?
CONTRASTE DE GRUBBS 65 Es otro contraste usado para datos anómalos, que compara la desviación entre el valor sospechoso y la media muestral, con la desviación estándar de la muestra. Este contraste es recomendado por ISO. Donde s se calcula incluyendo el valor sospechoso. Los valores calculados de G sirven para comparar con el valor crítico de tablas. Ejemplo: Aplicar el contraste de Grubbs a los datos anteriores: =0.4026 y s =0.01121 La regla que seguimos es: Si G calculada < G tabulada 2.016 < 2.020 El dato es confiable y no se rechaza 0.88 < 2.26 entonces el valor sospechoso no se rechaza
66 Para evaluar un método espectrofotométrico para determinar titanio , se aplicó el método a muestras de aleaciones conteniendo diferentes cantidades certificadas de titanio . Los resultados se muestran a continuación y para cada aleación se realizaron 8 determinaciones. Hipótesis nula: El dato 2.07 no es un valor anómalo Hipótesis nula 2: las varianzas de los grupos difieren significativamente Muestra Valor certificado Media Desviación estándar 1 0.496 0.482 0.0257 2 0.995 1.009 0.024 3 1.493 1.505 0.0287 4 1.990 2.002 0.0212 Ejercicio
Ejercicio 67 Los siguientes datos proporcionan la recuperación de bromuro adicionado a muestras con contenido vegetal, medido mediante un método cromatográfico. La cantidad de bromuro potásico añadido fue: Contrastar si la recuperación en los dos vegetales tiene varianzas que difieran significativamente Contrastar si las tasas de recuperación media difieren Tomate 777 790 759 790 770 770 758 m g/g Pepino 782 773 778 765 765 789 797 m g/g
EJERCICIOS 68
Ejercicios 69 Un joven analista en prácticas de un laboratorio de análisis clínico podría empezar a trabajar por su cuenta, si sus resultados concuerdan con los de un analista experimentado a un nivel de confianza del 95%. A continuación, se dan los resultados de un análisis de nitrógeno ureico en sangre: Analista en prácticas: X=14.57 mg/ dL , s=0.53 mg/ dL n = 6 muestras Analista experimentado: X=13.95 mg/ dL , s=0.42 mg/ dL , n = 5 muestras Hipótesis nula: ?
Ejercicios 70 El contenido de Ti (% p) de 5 muestras diferentes de mineral (cada una con un contenido diferente de Ti) se mide con dos métodos distintos. Hipótesis nula: Las dos técnicas no dan resultados diferentes a un nivel de confianza de 95%
Ejercicios 71 Unos estudiantes midieron la concentración de HCl de una disolución por volumetría usando diferentes indicadores para detectar el punto final. Hipótesis nula: no hay diferencia entre los indicadores 1 y 2 Hipótesis nula: no hay diferencia entre los indicadores 2 y 3
Ejercicios 72 Se certifica que un material estándar de referencia de un suelo contiene 94.6 ppm de un contaminante orgánico. Un análisis repetido arrojó los siguientes resultados: 98.6, 98.4, 97.2, 94.6 y 96.2 ppm. Hipótesis nula: El material contiene 94.6 ppm a un nivel de confianza del 95% a) Si se hace una medida más y se obtiene 94.5, ¿cambiaría la respuesta?
73 Se midió el nitrito ( ) contenido en agua de lluvia y en agua potable no clorada con dos métodos. Los resultados ± desviación estándar (y número de muestras entre paréntesis) fueron los siguientes: Hipótesis nula: Los dos métodos dan valores indistintos Ejercicios
Análisis de la varianza 74
FACTOR CONTROLADO O DE EFECTO FIJO 75 En el trabajo analítico se suelen presentar comparaciones en las que intervienen más de 2 medias. En este tipo de experimentos siempre están presentes dos fuentes de error: el error aleatorio y lo que se conoce como factor controlado o de efecto fijo . Estos factores son por ejemplo las condiciones de trabajo sobre las cuales se almacenan disoluciones, métodos de trabajo empleados y los operadores que realizaron la valoración. El análisis de esta varianza se abrevia ANOVA y es una técnica estadística muy potente utilizada para separar y estimar las diferentes causas de variación. De este modo se puede contrastar si una alteración del factor de control conduce a diferencias significativas entre los valores medios obtenidos.
76 Modo largo para método ANOVA La siguiente tabla muestra los resultados obtenidos en una investigación sobre la estabilidad de un reactivo fluorescente bajo diferentes condiciones de almacenamiento. Los valores proporcionados son las señales de fluorescencia y se tomaron 3 medidas de cada muestra en 4 lotes denominados A, B, C y D. Use el método ANOVA para contrastar si la diferencia entre las medias muestrales es demasiado grande para explicarse con errores aleatorios. A 102 100 101 101 B 101 101 104 102 C 97 95 99 97 D 90 92 94 92 global =98 A 102 100 101 101 B 101 101 104 102 C 97 95 99 97 D 90 92 94 92 Consideremos que n=3 (número de datos por lote) h=4 (número de lotes)
A 102 100 101 101 B 101 101 104 102 C 97 95 99 97 D 90 92 94 92 global =98 A 102 100 101 101 B 101 101 104 102 C 97 95 99 97 D 90 92 94 92 Entre muestras Suma=62*n = 62*3 =186 Dentro de muestra: Suma = 24 Total 9 Suma = 210
78 Modo largo para método ANOVA Tabla de fuente de variaciones: Fuente de variación Cuadrados medios Grados de libertad Entre muestras h-1=3 Dentro de muestras h(n-1)=8 F= 62/3=20.7 Fuente de variación Cuadrados medios Grados de libertad Entre muestras h-1=3 Dentro de muestras h(n-1)=8 F= 62/3=20.7 F 3, 8 = 4.07 El valor crítico en tablas F tabulado = 4.07 F calculado = 20.7 > F tabulado = 4.07 Se rechaza la hipótesis nula: la media muestral difiere significativamente
79 Modo corto para método ANOVA Un ANOVA de un factor contrasta la existencia de diferencias significativas entre medias cuando están presentes más de 2 muestras. Las fórmulas usadas para un método corto son:
80
81 Ejemplo La siguiente tabla muestra los resultados obtenidos en una investigación sobre la estabilidad de un reactivo fluorescente bajo diferentes condiciones de almacenamiento. Los valores proporcionados son las señales de fluorescencia y se tomaron 3 medidas de cada muestra en 4 lotes denominados A, B, C y D. Use el método ANOVA para contrastar si la diferencia entre las medias muestrales es demasiado grande para explicarse con errores aleatorios. T i A 2 1 3 9 B 1 1 4 6 36 C -3 -5 -1 -9 81 D -10 -8 -6 -24 576 T= -24 T i A 2 1 3 9 B 1 1 4 6 36 C -3 -5 -1 -9 81 D -10 -8 -6 -24 576 T= -24 Consideremos que n=3 (número de datos por lote) h=4 (número de lotes) N=n*h=12 (número de datos totales)
82 Ejemplo Tabla de fuente de variaciones: Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio Entre muestras h-1=3 186/3=62 Dentro de muestras Por diferencia = 210-186 = 24 Por diferencia = 11-3=8 24/8=3 Total N-1=11 F=62/3=20.7 Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio Entre muestras h-1=3 186/3=62 Dentro de muestras Por diferencia = 210-186 = 24 Por diferencia = 11-3=8 24/8=3 Total N-1=11 F=62/3=20.7 F h-1,N-h = F 3, 8 = 4.07 El valor crítico en tablas Ftabulado =4.07 F calculado = 20.7 > F tabulado = 4.07 Se rechaza la hipótesis nula: la media muestral difiere significativamente
Ejercicio 83 Seis analistas realizan seis determinaciones cada uno del contenido del mismo lote de pastillas. Los resultados se muestran a continuación: Probar si existe alguna diferencia significativa entre las medias obtenidas por los 6 analistas
84 Mínima diferencia significativa Un resultado significativo en ANOVA de un factor se puede alcanzar por varias razones diferentes, por ejemplo, una media puede diferir de todas las demás. Una forma sencilla para explicar un resultado significativo es colocar las medias en orden creciente y comparar la diferencia entre los valores adyacentes con una cantidad llamada la mínima diferencia significativa, dada por la siguiente expresión: donde s es la estimación dentro de las muestras y h(n-1) son los grados de libertad de esta estimación Para el ejemplo anterior podemos ordenar las medias: , s=3 (dentro de muestras) Al comparar este valor con las diferencias entre las medias: C y D dan resultados que difieren significativamente entre sí A y B no difieren significativamente entre sí ¿Qué pasaría entre A y C? 5 1
85 Modo largo para método ANOVA La siguiente tabla muestra los resultados obtenidos en una investigación sobre la estabilidad de un reactivo fluorescente bajo diferentes condiciones de almacenamiento. Los valores proporcionados son las señales de fluorescencia y se tomaron 3 medidas de cada muestra en 4 lotes denominados A, B, C y D. Use el método ANOVA para contrastar si la diferencia entre las medias muestrales es demasiado grande para explicarse con errores aleatorios. A 102 100 101 101 B 101 101 104 102 C 97 95 99 97 D 90 92 94 92 global =98 A 102 100 101 101 B 101 101 104 102 C 97 95 99 97 D 90 92 94 92 Consideremos que n=3 (número de datos por lote) h=4 (número de lotes)
86 Modo largo para método ANOVA Tabla de fuente de variaciones: Fuente de variación Cuadrados medios Grados de libertad Entre muestras h-1=3 Dentro de muestras h(n-1)=8 F= 62/3=20.7 Fuente de variación Cuadrados medios Grados de libertad Entre muestras h-1=3 Dentro de muestras h(n-1)=8 F= 62/3=20.7 F 3, 8 = 4.07 El valor crítico en tablas F tabulado = 4.07 F calculado = 20.7 > F tabulado = 4.07 Se rechaza la hipótesis nula: la media muestral difiere significativamente
87 Tr abaja para una empresa que fabrica un gel adhesivo que se vende en tarros pequeños. La viscosidad del gel es importante: si es demasiado espeso resulta difícil de aplicar, pero si es demasiado líquido la adherencia se ve afectada. Recientemente, ha recibido comentarios de algunos clientes insatisfechos, se han quejado de que la viscosidad del adhesivo no es tan consistente como antes. Su jefe le pide que investigue el asunto. Decide que sería buena idea empezar examinando la viscosidad media de los cinco lotes de producción más recientes. Si encuentra diferencias entre los lotes, esto confirmaría que el problema es real. También le ayudaría a empezar a formular hipótesis sobre los factores que podrían estar causando inconsistencias entre lotes. Para medir la viscosidad, emplea un instrumento que hace girar un rotor sumergido en el tarro del adhesivo. Esta prueba produce una medida llamada resistencia a la torsión. Hace la prueba con cinco tarros escogidos al azar de cada uno de los cinco lotes más recientes. Obtiene la medición de la resistencia a la torsión de cada tarro y representa los datos en un gráfico. Ejercicio
88 De cada lote, escogimos cinco tarros al azar para examinarlos. Esto se llama "diseño con un factor". El factor (lote) tiene cinco niveles. Cada nivel se replica (prueba) cinco veces. Los resultados de la prueba se indican a continuación. Escriba la hipótesis nula Determine si las diferencias entre los lotes son significativas
89 Resultados
90 Dividimos cada suma de los cuadrados por los grados de libertad correspondientes para obtener medias de los cuadrados. Cuando la hipótesis nula es verdadera (las medias son iguales), tanto MC (Factor) como MC (Error) son estimaciones de la variación del error y tienen aproximadamente el mismo tamaño. Su razón, o la razón F, estaría cerca de uno. Cuando la hipótesis nula no es verdadera, MC (Factor) es mayor que MC (Error) y la razón es mayor que 1. Comparación de MC En nuestro ejemplo de pruebas con adhesivo, la razón F calculada, 6.90, aporta una evidencia significativa en contra de la hipótesis nula de que las medias son iguales.
91 Mínima diferencia significativa
Ejercicio 92 Los siguientes resultados muestran el porcentaje de agua intersticial total recuperada al centrifugar muestras de piedra arenisca tomadas a diferentes profundidades Demostrar que el porcentaje de agua recuperada difiere significativamente a diferentes profundidades. Utilizar el método de la diferencia significativa menor
93 El contraste chi-cuadrado En los contrastes de significación los datos han tomado la forma de observaciones que se han medido en una escala continua. Cuando tenemos que tratar con la frecuencia, es decir, con el número de veces que ocurre un suceso, el tratamiento estadístico es diferente. El contraste chi-cuadrado se usa para contrastar si las frecuencias observadas (O) concuerdan con las esperadas (E) de acuerdo con la hipótesis nula. En este caso también se usan valores críticos de X 2 de tablas Donde los grados de libertad = n-1 Si X 2 calculada supera el valor de X 2 tabulada : Se rechaza la hipótesis nula
94 Ejercicio Se han contabilizado el número de material de vidrio roto por cuatro trabajadores de un laboratorio a lo largo de un periodo de tiempo, ¿hay alguna evidencia de que los trabajadores difieran en su habilidad? Material roto: 24, 17, 11, 9 Hipótesis nula: no hay diferencias en su habilidad Total= 61 Promedio o frecuencia esperada (E)=15.25 Grados de libertad= 3 X 2 tabulada = 7.81 Se rechaza la hipótesis nula con una certeza del 95%: los trabajadores difieren en su habilidad Frecuencia Observada (O) Frecuencia esperada (E) O-E (O-E) 2 /E 24 15.25 8.75 5.020 17 15.25 1.75 0.201 11 15.25 -4.25 1.184 9 15.25 -6.25 2.561 Total 61 8.996
ESTIMACIÓN Y SEPARACION DE VARIANZAS USANDO ANOVA 95 En los casos anteriores ANOVA se usa para contrastar las diferencias entre medias cuando existe una posible variación debida a un factor fijo. ANOVA también nos permite separar y estimar fuentes de variación. Como ejemplo tenemos los ensayos de pureza de un barril de NaCl. Se tomaron 5 barriles al azar denominados A-E y de cada punto se hicieron 4 repeticiones. En este análisis hay 2 posibles fuentes variación: el error aleatorio, dado por y el error por variaciones reales en la pureza del NaCl, dada por . “El cuadrado medio dentro de las muestras no depende de la media muestral, por lo que se puede usar para calcular y por lo tanto el error aleatorio, pero el cuadrado medio entre las muestras no se puede usar para determinar directamente ya que incluye el error aleatorio y las variaciones reales, pero nos da una estimación de (n es el número de medidas repetidas)”.
Realicemos el ANOVA de un ejemplo anterior con los siguientes datos: Muestra Pureza Media A 98.8, 98.7, 98.9, 98.8 98.88 B 99.3, 98.7, 98.8, 99.2 99.0 C 98.3, 98.5, 98.8, 98.8 98.6 D 98.0, 97.7, 94.4, 97.3 97.6 E 99.3, 99.4, 99.9, 99.4 99.5
97 En este análisis se puede observar que el cuadrado medio entre muestras (1.96) es mayor que el cuadrado medio dentro de las muestras (0.0653), por lo que podemos estimar Lo que representa la suma del error aleatorio y el error real, mientras que: Representa la contribución del error aleatorio
98 Para estimar las varianzas de medidas y muestreos se determinó la concentración de halofuginona en hígado de pollo , se tomaron cuatro incrementos de muestra de diferentes partes del hígado y se tomaron medidas por triplicado sobre cada una de ellas . Se obtuvieron los siguientes resultados en m g/Kg Estime la contribución del error aleatorio y la contribución del error real EJERCICIO Muestra M1 M2 M3 A 0.25 0.22 0.23 B 0.22 0.20 0.19 C 0.19 0.21 0.20 D 0.24 0.22 0.22
CONCLUSIONES A PARTIR DE LOS CONTRASTES DE SIGNIFICACIÓN 99 Un contraste de significación a un nivel de P=0.05 supone un riesgo del 5% de que se rechazara una hipótesis nula , inclusive si esta es verdadera . A este tipo de error se le denomina error de Tipo I. Otro tipo de error común es mantener una hipótesis nula, aún cuando ésta sea falsa , lo cual se denomina error de Tipo II. Para evitar este tipo de errores es necesario postular una alternativa a la hipótesis nula H o , que puede ser opuesta o no a esta , conocida como hipótesis alternativa H I Ejemplo: se tiene la impresión de que un producto químico contiene una mayor cantidad de la que tiene en la etiqueta (3% de fosforo ). P ara comprobarlo se toman 4 medidas y se realiza un contraste de significación a nivel P=0.05. Para este caso Hipótesis nula H o = m = 3 % Hipótesis alternativa H I = m =3.05 %