Variable aleatoria Una variable aleatoria ( VA ) es aquella variable que toma diferentes valores numéricos mediante un proceso de contar o medir, como producto de un experimento aleatorio. Esta variable es un valor o magnitud que cambia de una ocurrencia a otra sin seguir una secuencia predecible, es decir, en forma aleatoria. Cabe recordar que un experimento aleatorio es aquel del cual se conocen sus resultados (espacio muestral), pero no se sabe cuál de ellos (qué punto muestra) es el que sucederá; es decir, el resultado del experimento está libre de una determinación, lo que significa que es aleatorio. Por ejemplo, considérese como experimento un partido de fútbol entre el equipo A y el B , cuya variable aleatoria asociada con este experimento mostrará los posibles resultados de este juego.
Regresión y correlación Simple
Modelo de Regresión y correlación simple Modelo de regresión: Donde: y =variable dependiente y x =variable independiente. =punto en que la línea corta el eje y. =pendiente de la línea. Σ𝑥𝑖𝑦𝑖=Suma del producto x por y =promedio de x =promedio de y =Suma de los cuadrados de x n =Número de datos
Ejemplo Se pretende determinar si existe una relación entre las calificaciones de un estudiante en su examen de admisión y su promedio general al graduarse . Calificación de exámenes de admisión 74 69 85 63 82 60 79 91 Promedio general acumulado (4.0=A) 2.6 2.2 3.4 2.3 3.1 2.1 3.2 3.8
Línea recta de mejor ajuste Línea de recta “ajustada” que representa la relación entre las calificaciones del examen de admisión y el promedio global acumulado.
Otro Ejemplo. x = Edad de autos en años y= Gastos de reparación en cientos Y = 3.75 + 0.75X es la ecuación de la recta. Respuesta: Los gastos en reparación de autos asciende a 375 pesos anuales más 75 pesos por cada año de edad del automóvil. Datos X Y XY x2 1 5 7 35 25 2 3 7 21 9 3 3 6 18 9 4 1 4 4 1 Ʃ 12 24 78 44
Ecuación de la recta Y = 3.75 + 0.75X
Suma de cuadrados Usar el método de mínimos cuadrados para encontrar los coeficientes de regresión para un conjunto de datos, existen tres medidas de variación que se necesita calcular. La primera medida, la suma total de cuadrados ( SST , por sus siglas en inglés), es una medida de variación de los valores Yi alrededor de la media Y . En un análisis de regresión, la variación total o la suma total de cuadrados se subdivide en variación explicada o suma de cuadrados de la regresión ( SSR , por sus siglas en inglés), la cual se debe a la relación entre X y Y , y la variación no explicada o error de la suma de cuadrados ( SSE , por sus siglas en inglés), la cual se debe a factores diferentes a la relación entre X y Y. MEDIDAS DE VARIACIÓN EN LA REGRESIÓN La suma total de cuadrados = suma de cuadrados de la regresión + el error de la suma de cuadrados. SST = SSR + SSE
SUMAS DE CUADRADOS
Valor residual o Medidas de regresion SUMA TOTAL DE CUADRADOS ( SST ) La suma total de cuadrados ( SST ) es igual a la suma del cuadrado de las diferencias entre cada valor Y y Y observado, el valor promedio de Y .
SUMA DE CUADRADOS DE LA REGRESIÓN ( SSR ) La suma de cuadrados de la regresión ( SSR ) es igual a la suma del cuadrado de las diferencias entre el valor predicho de Y y Y , el valor promedio de Y .
ERROR DE LA SUMA DE CUADRADOS (SSE) Error de la suma de cuadrados (SSE) es igual a la suma del cuadrado de las diferencias entre el valor observado de Y y el valor predicho de Y.
Error Estándar de Estimación Se simboliza Se. Mide la variabilidad, o dispersión de los valores observados alrededor de la línea de regresión.
Error Estándar de Estimación
La correlación Para poder ofrecer conclusiones mediante análisis de correlación, es insoslayable (inevitable) que las variables involucradas sean de naturaleza aleatoria. Esto no impide, por ejemplo, calcule la correlación entre niveles de fertilizante aplicados a una planta y el rendimiento, o las ventas y el costo del producto de las mismas de una empresa en una serie de años. Será incorrecto que reporte por ejemplo que la correlación entre ventas y años es significativa, puesto que los años no son una variable aleatoria, para estos casos se usa la regresión. Ambos coeficientes, el de correlación y el de regresión están íntimamente relacionados, pero su uso es diferente.
Coeficiente de correlación y determinación Se simboliza R2. El coeficiente de determinación mide la proporción de variabilidad total de la variable dependiente respecto a su media que es explicada por el modelo de regresión.
Coeficiente de relación
El coeficiente de correlación lineal de Pearson Se de nota r ó ρ. Es una medida de asociación lineal entre dos variables aleatorias X e Y : Cuando r es cercano a+1, hay una buena correlación positiva entre las variables, será creciente. Cuando r es cercano a-1, hay una buena correlación negativa entre las variables, es decreciente.
El coeficiente de correlación lineal de Pearson
Correlación Lineal
Ejemplo de correlación con estatura de los padres (diapositiva clase No.1) El ejemplo consiste en agregar un nuevo conjunto de 85 observaciones que incluye el peso de padres e hijos varones. Todas las variables X 1 = La Estatura de los Padres ; X 2 = El Peso de los Padres ; X 3 = La Estatura de los hijos ; X 4 = El peso de los hijos son de naturaleza aleatoria. El Objetivo del análisis: Conocer las relaciones entre las variables mencionadas en un estudio genético de peso y estatura entre hijos y padres varones.
Regresión y correlación Parabólica
Regresión parabólica La regresión cuadrática es el proceso por el cuál encontramos los parámetros de una parábola que mejor se ajusten a una serie de datos que poseemos, ya sean mediciones hechas o de otro tipo. Una función cuadrática o de segundo grado se puede representar de manera genérica como : Entonces lo que nos interesa es encontrar los valores de a, b y c que hacen que el valor de y calculado sea lo mas cercano posible al medido