ESTADÍSTICA COMPUTACIONAL ANÁLISIS DE DATOS SIMULADOS Prof. Grabiela montes q.
El objetivo de la simulación es encontrar el valor del parámetro al que denominaremos θ, el que está asociado con el modelo estocástico, es decir para la medida de interés θ, suponemos definido un proceso de salida de la simulación, X = {xi} de tal forma que θ es una propiedad de la distribución límite
CONCEPTOS BÁSICOS: Desigualdad de Chebyshev : Si X es una v.a. con E(X) = µ y V(X) = 2 , para cualquier k > 0 se cumple
Teorema del Límite Central: Sea X 1 , X 2 ,…, X n una sucesión de variables aleatorias independientes e idénticamente distribuidas con media µ y varianza 2 entonces la variable aleatoria
MEDIA Y VARIANZA MUESTRAL: Sea X 1 , X 2 ,…, X n una sucesión de variables aleatorias independientes e idénticamente distribuidas con media θ y varianza σ 2 . La expresión es la media aritmética de los n datos, denominada media muestral, generalmente la media θ no se conoce, pero se estima con base a la media muestral.
1. El estimador es insesgado: 2. Para determinar la precisión de como estimador se calcula el error cuadrático medio
Luego es un buen estimador cuando es pequeño. Se tiene que generalmente es desconocido por lo que es necesario estimarla, para esto utilizamos el siguiente estimador insesgado:
MÉTODO PARA DETERMINAR CUANDO DETENERSE AL GENERAR NUEVOS DATOS (MUESTRAS PEQUEÑAS) 1° Elegir un valor aceptable de “d” para la desviación estándar del estimador. 2° Generar al menos 30 datos y calcular la media y la varianza de los datos. 3° Continuar generando más datos y detenerse cuando se hayan generado “k” datos y , donde S es la desviación estándar muestral basado en los k valores.
4° La estimación de θ es dada por: - Para elegir “d” hay que tener en cuenta precisión y costo. - La generación de los datos se puede realizar con cualquiera de los métodos vistos anteriormente. - Cuando sumamos para calcular la media debemos de inicializar en cero. - Utilizamos la fórmula recursiva para calcular el valor de la media y la varianza.
Sea X 1 , X 2 ,…, X n una sucesión de datos se calcula: Se inicia con Luego las fórmulas recursivas son:
Observación: El número óptimo de simulaciones, el tamaño de una corrida de simulación, depende del tipo de distribución que se intente simular y de la bondad del generador de números aleatorios.
• Si la población tiene distribución Normal a) Para calcular el número de simulaciones óptimo se utiliza: donde: • Z es el cuantil de la distribución normal estándar. • K: desviaciones absolutas máxima permitida sobre la media de la distribución simulada (diferencia permitida de la media poblacional correspondiente) • σ 2 : varianza de la distribución a simular.
b) Si la media o varianza a simular se obtuvieron de una población con tamaño de muestra menor o igual a 30 (pruebas piloto) entonces: donde: • t: es el cuantil de la distribución t- student . • S 2 estimador de la varianza de la distribución a simular.
c) Cuando los datos analizados tienen otra distribución, utilizamos la desigualdad de Tchebychev , reduciendo el cálculo a: donde: • α: probabilidad de error permitido. • m: cuantas veces estamos dispuestos a que exista la diferencia entre el parámetro y la estimación.
Ejemplo : Primero suponiendo que no se conoce la distribución: Se debe cumplir que: 1 < m < 3 y 0.01 < α < 0.05. Si m = 3 y α = 0.05 entonces:
Si la población fuera normal (muestras grandes) Para k = 0.1666 σ y 95% de confianza:
CÁLCULO DEL NÚMERO DE RÉPLICAS Una vez que se ha corrido un sistema de simulación hasta llegar a la estabilización, existe el problema que las observaciones obtenidas en la simulación no son independientes, por lo que es necesario repetir r veces la simulación de tamaño n con diferentes números aleatorios, se recomienda que el número de réplicas sea de 3 a 10 .
Teniendo los resultados de la réplica, es necesario tomar estos resultados para calcular las estimaciones de la media, varianza e intervalo de confianza de acuerdo al siguiente procedimiento: • Calcular la media y varianza de cada una de las réplicas:
• Calcular la media y varianza entre réplicas: • Finalmente calcular el intervalo de confianza: El intervalo de confianza sirve para calcular la precisión del estimador.
ESTIMACIÓN DEL INTERVALO DE CONFIANZA DE UNA MEDIA POBLACIONAL La estimación de la V( ) es necesaria para la estimación de un intervalo de confianza para θ. La idea es utilizar el proceso de salida de una simulación (X 1 , X 2 ,…, X n ) para calcular el intervalo de confianza (I,S) tal que:
El caso más sencillo es aquel en que (X 1 , X 2 ,…, X n ) son v.a.i.i.d . con media θ y varianza σ 2 , para obtener el intervalo de confianza recordemos , entonces por el T.L.C. tenemos: Pero como σ 2 no se conoce se debe estimar mediante y
Si Z α es tal que P(Z > Z α ) = α, donde Z ~ N(0, 1), se tiene que
Para n grande: El intervalo de confianza del (1-α) 100% para θ es:
En el caso general, utilizamos como intervalo:
Generar al menos 30 valores de la variable. Continuar generando más valores de la variable y detenerse cuando el número de valores generados (k) es tal que , S desviación estándar muestral calculada en base a los datos, S debe actualizarse usando la fórmula recursiva. TÉCNICAS PARA LA ESTIMACIÓN DE UN INTERVALO DE CONFIANZA
3. Si y s son los valores observados de y S, entonces la estimación de θ mediante un intervalo de confianza de (1-α)100% cuya longitud es menor que L, es