Coeficientes pearson-y-spearman

VivianaMl 804 views 17 slides Jul 07, 2015
Slide 1
Slide 1 of 17
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17

About This Presentation

No description available for this slideshow.


Slide Content

República Bolivariana De Venezuela Ministerio Del Poder Popular Para La Educación Superior Instituto Universitario Politécnico “Santiago Mariño” Sede Barcelona – Estado Anzoátegui. c oeficientes de correlación de Pearson y de Sperman. Profesor: Alumna: Pedro Beltrán Viviana machado C.I.: 22.707.424. Barcelona ,06/07/2015.

Coeficiente de correlación de Pearson : El  coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de  Pearson  es independiente de la escala de medida de las variables. De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.   Ejemplos de diagramas de dispersión con diferentes valores del coeficiente de correlación (ρ ).

Definición: En el caso de que se esté estudiando dos variables aleatorias  x  e  y  sobre una  población ; el coeficiente de correlación de Pearson se simboliza con la letra   siendo la expresión que nos permite calcularlo: es la  covarianza de(X y Y ). es la desviación típica de la variable x.   es la desviación típica de la variable  Y. es la  covarianza de(X y Y ). es la desviación típica de la variable x.   es la desviación típica de la variable  Y. De manera análoga podemos calcular este coeficiente sobre un estadístico muestral, denotado como  :

Interpretación: El valor del índice de correlación varía en el intervalo [-1,1]: Si   r  = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada  relación directa : cuando una de ellas aumenta, la otra también lo hace en proporción constante . Si 0 <  r  < 1, existe una correlación positiva. Si  r  = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes , pueden existir todavía relaciones no lineales entre las dos variables . Si -1 <  r  < 0, existe una correlación negativa. Si  r  = -1, existe una correlación negativa perfecta . El índice indica una dependencia total entre las dos variables llamada  relación inversa : cuando una de ellas aumenta, la otra disminuye en proporción constante. Varios grupos de puntos ( x ,  y ), con el coeficiente de correlación para cada grupo. Nótese que la correlación refleja la no linealidad y la dirección de la relación lineal. En la figura del centro, la varianza de  y es nula, por lo que la correlación es indeterminada.

Pearson: Una ventaja de este coeficiente consiste en la posibilidad de calcular su distribución muestral y así poder determinar su error típico de estimación. Instrucciones: Identifica el dependiente variable que se probará entre dos observaciones derivadas independientemente. Uno de los requisitos del coeficiente de correlación de Pearson es que las dos variables que se comparan deben observarse o medirse de manera independiente para eliminar cualquier resultado sesgado . Calcula el coeficiente de correlación de Pearson. Para cantidades grandes de información, el calculo puede ser tedioso. Además de los varios programas de estadística, muchas calculadoras científicas pueden calcular el valor. Reporta un valor de correlación cercano a 0 como un indicador de que no hay relación linear entre las dos variables. Conforme el coeficiente de correlación se acerque al 0, los valores se vuelven menos correlacionados, lo que identifica las variables que no pueden ser relacionadas entre sí . Reporta un valor de correlación cercano al 1 como indicador de que existe una relación linear positiva entre las dos variables. Un valor mayor a cero que se acerque a 1 da como resultado una mayor correlación positiva entre la información. Conforme una variable aumenta cierta cantidad, la otra aumenta en cantidad correspondiente. La interpretación debe determinarse de acuerdo con el contexto del estudio.

Reporta un valor de correlación cercano a -1 como indicador de que hay una relación linear negativa entre las dos variables. Conforme el coeficiente se acerca a -1, las variables se vuelven negativamente más correlacionadas, lo que indica que conforme una variable aumenta, la variable disminuye por una cantidad correspondiente. La interpretación, de nuevo, debe determinarse de acuerdo con el contexto del estudio . Interpreta el coeficiente de correlación de acuerdo con el contexto de los datos particulares. El valor de correlación es esencialmente un valor arbitrario que debe aplicarse de acuerdo con las variables que se comparan. Por ejemplo, un valor r de 0.912 indica una relación linear positiva muy fuerte entre las dos variables. En un estudio donde se comparan dos variables que normalmente se identifican como relacionadas, estos resultados dan evidencia de que una variable puede afectar de manera positiva a la otra, lo que resulta un caso para mayor investigación entre las dos. Determina la importancia de los resultados. Esto se logra con el uso del coeficiente de correlación, grados de libertad y una tabla de valores críticos del coeficiente de correlación. Los grados de libertad se calculan como el número de las dos observaciones menos 2. Con este valor, identifica el valor crítico correspondiente en la tabla de correlación para una prueba de 0.05 y 0.01 que identifique 95 y 99 por ciento de nivel de confiabilidad respectivamente. Compara el valor crítico al coeficiente de correlación previamente calculado. Si el coeficiente de correlación es mayor, los resultados son importantes.

Como calcular el coeficiente de correlación de pearson: Seleccionamos la medida aritmética. Calculamos la covarianza. Calculamos la desviación típica. Se aplica la formula de coeficiente de correlación lineal . Como usar el coeficiente de correlación de pearson : El coeficiente de correlación de Pearson , normalmente denotado como "r", es un valor estadístico que mide la relación linear entre dos variables. Los rangos de valor van de +1 a -1, lo que indica una perfecta relación linear positiva y negativa respectivamente entre ambas variables. El cálculo del coeficiente de correlación normalmente se realiza con programas de estadística, como SPSS y SAS, para dar los valores posibles más precisos en estudios científicos. Su interpretación y uso varía de acuerdo con el contexto y propósito del respectivo estudio en donde se calcula.

Usos de enfoque de pearson a problemas estadísticos : En la perspectiva de pearson para establecer el nivel de significación estadística habría que atender al impacto de cada tipo de error en el objetivo del investigador, y a partir de ahí se decidirá cual de ellos es preferible minimizar. Pearson llamaron alfa al error tipo I y beta al error tipo II, a partir de este ultimo tipo de error, introdujeron el concepto de “poder de una prueba estadística”, el cual se refiere a su capacidad para evitar el error tipo II, y esta definido por 1-beta,y en estrecha relación con este se a desarrollado el concepto de “tamaño de efecto” que algunos han propuesto como sustituto de valores p en los informes de investigación científica. Las pruebas paramétricas mas conocidas y usadas son la prueba T de Studend, la prueba F, llamada así en honor a Fisher, y el coeficiente de la correlación de pearson, simbolizado por r. C oeficiente de correlación de Sherman: E l coeficiente de correlación de Spearman   ρ (rho ) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden. El estadístico ρ viene dado por la expresión:

donde   D  es la diferencia entre los correspondientes estadísticos de orden de  x  -  y .  N  es el número de parejas. Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student. La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall ,es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante. El coeficiente de correlación de Spearman es menos sensible que el de Pearson para los valores muy lejos de lo esperado. En este ejemplo: Pearson=0.30706 Spearman = 0.76270.

Ejemplo : Los datos brutos usados en este ejemplo se ven debajo. CI Horas de TV a la semana 106 7 86 100 28 100 50 99 28 103 28 97 20 113 12 113 7 110 17

El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas 'orden(i)' y 'orden(t)' Para el orden i, se corresponderán con el numero de fila del cuadro, para 99, orden(i) =3 ya que ocupa el 3. er  lugar, ordenado de menor a mayor para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro cuadro, la secuencia ordenada quedaría: T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 } para este caso, el orden sería para cada elemento, respectivamente: orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 } sin embargo, el valor de orden esta dado por el valor promedio de sus posiciones, así para : 7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5 28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8 50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10 Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d 2 ". Esta última es sólo la columna "d" al cuadrado . Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:

CI (i) Horas de TV a la semana (t) orden(i) orden(t) d d 2 86 1 1 97 20 2 6 4 16 99 28 3 8 5 25 100 50 4.5 10 5.5 30.25 100 28 4.5 8 3.5 12.25 103 28 6 8 2 4 106 7 7 2.5 4.5 20.25 110 17 8 5 3 9 113 7 9.5 2.5 7 49 113 12 9.5 4 5.5 30.25 Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran. Los valores de la columna d 2  pueden ser sumados para averiguar . El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula .

D e lo que resulta  Determinando la significación estadística: La aproximación moderna al problema de averiguar si un valor observado de ρ es significativamente diferente de cero (siempre tendremos -1 ≤ ρ ≤ 1) es calcular la probabilidad de que sea mayor o igual que el ρ esperado, dada la hipótesis nula, utilizando un test de permutación. Esta aproximación es casi siempre superior a los métodos tradicionales, a no ser que el conjunto de datos,  sea tan grande que la potencia informática no sea suficiente para generar permutaciones (poco probable con la informática moderna), o a no ser que sea difícil crear un algoritmo para crear permutaciones que sean lógicas bajo la hipótesis nula en el caso particular de que se trate (aunque normalmente estos algoritmos no ofrecen dificultad). Aunque el test de permutación es a menudo trivial para cualquiera con recursos informáticos y experiencia en programación, todavía se usan ampliamente los métodos tradicionales para obtener significación. La aproximación más básica es comparar el ρ observado con tablas publicadas para varios niveles de significación. Es una solución simple si la significación sólo necesita saberse dentro de cierto rango, o ser menor de un determinado valor, mientras haya tablas disponibles que especifiquen los rangos adecuados. Más abajo hay una referencia a una tabla semejante. Sin embargo, generar estas tablas es computacionalmente intensivo y a lo largo de los años se han usado complicados trucos matemáticos para generar tablas para tamaños de muestra cada vez mayores, de modo que no es práctico para la mayoría extender las tablas existentes. Una aproximación alternativa para tamaños de muestra suficientemente grandes es una aproximación a la distribución t de Student. Para tamaños de muestra más grandes que unos 20 individuos, la variable.

tiene una distribución t de Student en el caso nulo (correlación cero). En el caso no nulo (ej.: para averiguar si un ρ observado es significativamente diferente a un valor teórico o si dos ρs observados difieren significativamente), los test son mucho menos potentes, pero puede utilizarse de nuevo la distribución  t . Una generalización del coeficiente de Spearman es útil en la situación en la cual hay tres o más condiciones, varios individuos son observados en cada una de ellas, y predecimos que las observaciones tendrán un orden en particular. Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorará de intento en intento. Un test de la significación de la tendencia entre las condiciones en esta situación fue desarrollado por E. B. Page y normalmente suele conocerse como  Pagés trend test para alternativas ordenadas . Como calcula el coeficiente de correlación de spearman: El coeficiente de correlación de Spearman permite identificar si dos variables se relacionan en una función monótona (es decir, cuando un número aumenta, el otro también o viceversa). 

Usos del coeficiente de correlación de spearman: Se requiere que las variables estén medidas al menos en escala ordinal, es decir de forma que las puntuaciones que las representan puedan ser colocadas en dos series ordenadas. A veces este coeficiente, es denominado por la letra griega Ps(rho),aunque cuando nos situamos en el contexto de la estadística descriptiva se emplea la notación Rs. La formula de calculo para Rs puede derivarse de la utilizada en el caso Rxy ,bastaría aplicar el coeficiente de correlación de pearson a dos series de puntuaciones ordinales, compuestos cada una de ellas por los n primeros números naturales.

Usos de enfoques de spearman a problemas estadísticos: spearman es útil en la cual hay tres o mas condiciones, varios individuos son observados en cada una de ellas y predecimos que las observaciones tendrán un orden en particular. Por ejemplo un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorara de intento en intento. El coeficiente de correlación de rangos de spearman debe utilizarse para series de datos en los que existan valores extremos, pues si calculamos la correlación de pearson, los resultados se verán afectados. La interpretación del resultado de correlación de spearman se encuentra entre los valores de -1 y 1. La significación estadística de un coeficiente debe tenerse en cuenta conjuntamente con la relevancia clínica del fenómeno que se estudia.

Bibliografía: https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Pearson http://www.ehowenespanol.com/coeficiente-correlacion-pearson-como_84118/ https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman http://es.slideshare.net/ElioSifontes/coeficiente-de-correlacin-de-pearson-y-sperman-50196586?qid=191dc17e-f845-456f-872f-e588a4a19071&v=default&b=&from_search=5
Tags