Diapositivas coef. pearson y sperman

4,217 views 17 slides Jul 31, 2016
Slide 1
Slide 1 of 17
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17

About This Presentation

ESTADISTICA


Slide Content

INSTITUTO UNIVERSITARIO POLITECNICO ¨SANTIAGO MARIÑO¨ SEDE BARCELONA ESCUELA DE INGENIERIA CIVIL COEFICIENTES DE CORRELACION DE PEARSON Y DE SPERMAN Realizado Por: Br. Velásquez H., Pablo J. C.I.: 21.081.688

COEFICIENTE DE CORRELACION DE PEARSON Dado dos  variables, la correlación permite hacer estimaciones del valor de una de ellas conociendo el valor de la otra variable . Los coeficientes de correlación son medidas que indican la situación relativa de los mismos sucesos respecto a las dos variables, es decir, son la expresión numérica que nos indica el grado de relación existente entre las 2 variables y en qué medida se relacionan. Son números que varían entre los  límites  +1 y -1. Su magnitud indica el grado de asociación entre las variables; el valor r = 0 indica que no existe relación entre las variables;  los valores   (1 son  indicadores  de una correlación perfecta positiva (al crecer o decrecer X, crece o decrece Y) o negativa (Al crecer o decrecer X, decrece o crece Y ).

En el caso de que se esté estudiando dos variables aleatorias  X  y  Y  sobre una  población; el coeficiente de correlación de Pearson se simboliza con la letra, siendo la expresión que nos permite calcularlo: Donde : σ xy es la  covarianza  de  ( X,Y ) σ x es la  desviación típica  de la variable  X σ y es la  desviación típica  de la variable  Y De manera análoga podemos calcular este coeficiente sobre un  estadístico menstrual, denotado rxy  a: COEFICIENTE DE CORRELACION DE PEARSON

Características: El coeficiente de correlación de Pearson puede tomar valores entre -1 y 1. La correlación de una variable con ella misma siempre es igual a 1. El valor 0 indica ausencia de covariación lineal, pero NO si la covariación es de tipo no lineal. (Ver ejemplo en el apartado de relaciones no lineales). Interpretación: Si r < 0 Hay correlación negativa : las dos variables se correlacionan en sentido inverso . A valores altos de una de ellas le suelen corresponder valor bajos de la otra y viceversa . Cuánto más próximo a -1 esté el coeficiente de correlación más patente será esta covariación extrema . Si r= -1 hablaremos de correlación negativa perfecta lo que supone una determinación absoluta entre las dos variables ( en sentido inverso): Existe una relación funcional perfecta entre ambas(una relación lineal de pendiente negativa ). Si r > 0 Hay correlación positiva: las dos variables se correlacionan en sentido directo . A valores altos de una le corresponden valores altos de la otra e igualmente con los valores bajos . Cuánto más próximo a +1 esté el coeficiente de correlación más patente será esta covariación . Si r = 1 hablaremos de correlación positiva perfecta lo que supone una determinación absoluta entre las dos variables (en sentido directo):Existe una relación lineal perfecta ( con pendiente positiva ). Si r = 0 se dice que las variables están incorrelacionadas: no puede establecerse ningún sentido de covariación . Propiedad importante:  Si dos variables son  independientes  estarán incorrelacionadas aunque el resultado recíproco no es necesariamente cierto.

Interpretación: Valor Significado -1 Correlación negativa grande y perfecta -0,9 a -0,99 Correlación negativa muy alta -0,7 a -0,89 Correlación negativa alta -0,4 a -0,69 Correlación negativa moderada -0,2 a -0,39 Correlación negativa baja -0,01 a -0,19 Correlación negativa muy baja Correlación nula 0,01 a 0,19 Correlación positiva muy baja 0,2 a 0,39 Correlación positiva baja 0,4 a 0,69 Correlación positiva moderada 0,7 a 0,89 Correlación positiva alta 0,9 a 0,99 Correlación positiva muy alta 1 Correlación positiva grande y perfecta Otra forma para interpretar el coeficiente de correlación, es mediante la siguiente  escala:

Ventajas: El valor del coeficiente de correlación es independiente de cualquier unidad usada para medir variables. Mientras mas grande sea la muestra mas exacta será la estimación. desventajas: Requiere supuestos acerca de la naturaleza o formas de las poblaciones afectadas. Requiere que las dos variables hayan ido medidas hasta un nivel cuantitativo continuo y que la distribución de ambas sea semejante a la de la curva normal.

Uso: Identifica el dependiente variable que se probará entre dos observaciones derivadas independientemente. Uno de los requisitos es que las dos variables que se comparan deben observarse o medirse de manera independiente para eliminar cualquier resultado sesgado. Para cantidades grandes de información, el cálculo puede ser tedioso. Reportar un valor de correlación cercano a 0 como un indicador de que no hay relación lineal entre las dos variables. Reporta un valor de correlación cercano al 1 como indicador de que existe una relación lineal positiva entre las dos variables. Un valor mayor a cero que se acerque a 1 da como resultad una mayor correlación positiva entre la información. Reportar un valor de correlación cercano a -1 como indicador de que hay una relación lineal negativa entre las dos variables. Interpretar el coeficiente de correlación de acuerdo con el contexto de los datos particulares. El valor de correlación es esencialmente un valor arbitrario que debe aplicarse de acuerdo con las variables que se comparan. Determina la importancia de los resultados. Esto se logra con el uso del coeficiente de correlación, grados de libertad y una tabla de valores críticos del coeficiente de correlación. Los grados de libertad se calculan con el número de las dos observaciones menos 2.

Ejemplo ilustrativo: Con los datos sobre las temperaturas en dos días diferentes en una ciudad, determinar el tipo de correlación que existe entre ellas mediante el coeficiente de PEARSON . SOLUCIÓN: 1. Se calcula la media aritmética: 2. Se llena la siguiente tabla: X 18 17 15 16 14 12 9 15 16 14 16 18 SX =180 Y 13 15 14 13 9 10 8 13 12 13 10 8 SY= 138

Ejemplo ilustrativo: 3. Se aplica la fórmula: 4. Por último, obtenemos una correlación moderada.

COEFICIENTE DE CORRELACION DE spearman En   estadística, el coeficiente de correlación de Spearman,  ρ  (rho) es una medida de la  correlación  (la asociación o interdependencia) entre dos  variables aleatorias  continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden. El estadístico ρ viene dado por la expresión : Donde,   D  es la diferencia entre los correspondientes estadísticos de orden de  x  -  y; N  es el número de parejas. Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia. Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la  distribución t de Student : La interpretación de coeficiente de Spearman es igual que la del  coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La  tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.

Interpretación: En la interpretación de la prueba estadística correlación de Spearman, es necesario tener en cuenta el objetivo de la investigación que se define en primera instancia y la relevancia de estas relaciones en el fenómeno clínico que se estudia, no depende en nuestras conclusiones solamente de la cifra matemática obtenida, sino basarnos en experiencias científicas del tema de investigación, para evitar que interfiera la casualidad. La explicación de un coeficiente de correlación como medida de la intensidad de la relación lineal entre dos variables es puramente matemática y libre de cualquier implicación de causa-efecto. El hecho de que las dos variables tiendan a crecer o decrecer juntas no indica que la una tenga un efecto directo o indirecto sobre la otra. Ambas pueden estar influidas por otras variables de modo que se origine una fuerte relación matemática. La interpretación de rho depende principalmente de los detalles de la investigación y la experiencia propia en el tema de estudio. La experiencia previa sirve generalmente como base de comparación para determinar si un coeficiente de correlación es digno de ser mencionado. Diversos autores expresan escalas de interpretación, que se ofrecen a continuación : ESCALA 1. El coeficiente de correlación oscila entre –1 y +1, el valor 0 que indica que no existe asociación lineal entre las dos variables en estudio . ESCALA 2. CORRELACION VALOR Correlación negativa perfecta -1 Correlación negativa fuerte moderada débil -0,5 Ninguna correlación Correlación positiva moderada fuerte 0,5 Correlación positiva perfecta 1

Interpretación: CORRELACION R Perfecta 1 Excelente 0.9 < R < 1 Buena 0.8 < R < 0.9 Regular 0.5 < R < 0.8 Mala R <0.5 ESCALA 3. ESCALA 4. CORRELACION R Escasa o nula 0 – 0.25 Débil 0.26 – 0.50 Entre moderada y fuerte 0.51 – 0.75 Entre fuerte y perfecta 0.76 – 1 Consideraciones de la interpretacion: A modo de conclusión, recomendamos que al interpretar la prueba de correlación de rangos de Spearman debemos tener en cuenta que : La interpretación del coeficiente rho de Spearman concuerda en valores próximos a 1; indican una correlación fuerte y positiva. Valores próximos a –1 indican una correlación fuerte y negativa. Valores próximos a cero indican que no hay correlación lineal. Puede que exista otro tipo de correlación, pero no lineal. Los signos positivos o negativos solo indican la dirección de la relación; un signo negativo indica que una variable aumenta a medida que la otra disminuye o viceversa, y uno positivo que una variable aumenta conforme la otra también lo haga disminuye, si la otra también lo hace. El personal de salud que investiga debe estar atento a correlaciones que se encuentran en los valores aproximados a +0,95 o superiores, pues en el campo biológico y en especial con datos humanos, correlaciones tan altas, son excesivamente buenas para ser ciertas. Si se obtienen valores mayores o menores que 1, los cálculos deben ser revisados pues se incurrió en un error de proceso. Una vez obtenido el coeficiente de correlación, pueden utilizarse pruebas estadísticas y la construcción de intervalos de confianza para probar su significación. La significancia estadística de un coeficiente debe tenerse en cuenta conjuntamente con la relevancia clínica del fenómeno que se estudia, ya que coeficientes de 0.5 a 0.7 tienden a ser significativos en muestras pequeñas. La estimación del coeficiente de determinación (r 2) nos muestra el porcentaje de la variabilidad de los datos que se explica por la asociación entre las dos variables

Ventajas: No está afectada por los cambios en las unidades de medidas. Al ser una técnica no paramétrica , es libre de distribución probabilística. desventajas: Es recomendable usarlo cuando los datos presentan valores extremos, ya que dichos valores afectan mucho el coeficiente de correlación de Pearson, o ante distribuciones no normales. R no debe ser utilizado para decir algo sobre la relación entre causa y efecto.

Uso: Para aplicar el coeficiente de correlación de Spearman se requiere que las variables estén medidas al menos en escala ordinal, es decir, de forma que las puntuaciones que las representan, puedan ser colocadas en dos series ordenadas. A veces, este coeficiente es denominado por la letra griega ρ s (rho), aunque cuando nos situamos en el contexto de la estadística descriptiva se emplea la notación rs. La fórmula de cálculo para rs puede derivarse de la utilizada en el caso de rxy ; bastaría aplicar el coeficiente de correlación de P earson a dos series de puntuaciones ordinales, compuestas cada una de ellas por la n primeros números naturales. A partir de un conjunto de n puntuaciones, la fórmula que permite el cálculo de la correlación entre dos variables X e Y, medidas al menos en escala ordinal, es la siguiente: donde D es la distancia existente entre los puestos que ocupan las puntuaciones correspondientes a un sujeto y cuando estas puntuaciones han sido ordenadas para X y para Y. El coeficiente de correlación de Spearman se encuentra siempre comprendido entre los valores -1 y 1. Es decir, -1 < rs < 1. Cuando todos los sujetos se sitúan en el mismo puesto para la variable X y para la variable Y, el valor de rs es 1. Si ocupan valores opuestos, es decir, al primer sujeto en X le corresponde el último lugar en Y, al segundo en X le corresponde el penúltimo en Y, etc., entonces el valor de rs es -1.

Ejemplo ilustrativo: Los datos usados en este ejemplo, se muestran a continuación: CI Horas de TV a la semana 106 7 86 100 28 100 50 99 28 103 28 97 20 113 12 113 7 110 17 El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas 'orden(i)' y 'orden(t )‘. Para el orden i , se corresponderán con el número de fila del cuadro, para 99, orden(i) =3 ya que ocupa el 3 er  lugar, ordenado de menor a mayor. Para el orden t , se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro cuadro, la secuencia ordenada quedaría: T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 } para este caso, el orden sería para cada elemento, respectivamente : orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 } sin embargo, el valor de orden está dado por el valor promedio de sus posiciones, así para: 7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5 28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8 50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10 Después , se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d 2 ". Esta última es sólo la columna "d" al cuadrado .

Después , se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d 2 ". Esta última es sólo la columna "d" al cuadrado . Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran. Los valores de la columna d 2  pueden ser sumados para averiguar . El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula . De lo que resulta: ρ = -0.187878787879. Ejemplo ilustrativo: CI (i) Horas de TV a la semana (t) Orden(i ) Orden(t ) d d 2 86 1 1 97 20 2 6 4 16 99 28 3 8 5 25 100 50 4.5 10 5.5 30.25 100 28 4.5 8 3.5 12.25 103 28 6 8 2 4 106 7 7 2.5 4.5 20.25 110 17 8 5 3 9 113 7 9.5 2.5 7 49 113 12 9.5 4 5.5 30.25

BIBLIOGRAFIA https :// es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Pearson https :// www.uv.es/ceaces/base/descriptiva/coefcorre.htm http :// www.uv.es/webgid/Descriptiva/31_coeficiente_de_pearson.html http :// www.monografias.com/trabajos85/coeficiente-correlacion-karlpearson/coeficiente-correlacion-karl-pearson.shtml https :// es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman http :// scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1729-519X2009000200017