Ud 12 distribuciones bidimensionales

alfonnavarro 2,222 views 37 slides May 16, 2017
Slide 1
Slide 1 of 37
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37

About This Presentation

Presentación UD12


Slide Content

UD12:DISTRIBUCIONES
BIDIMENSIONALES
PROF: ALFONSO NAVARRO
1º BACHILLERATO CCSS

ÍNDICE
1.INTRODUCCIÓN
2.DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
3.DISTRUBUCIONES BIDIMENSIONALES
4.CORRELACIÓN. NUBE DE PUNTOS
5.MEDIDAS DE CORRELACIÓN
6.RECTA DE REGRESIÓN. ESTIMACIONES
7.COEFICIENTE DE DETERMINACIÓN
12
DISTRIBUCIONES
BIDIMENSIONALES

1. INTRODUCCIÓN
ESTADÍSTICA

Es la Ciencia que se encarga de la recopilación, representación y el
uso de los datos sobre una o varias características de interés para, a
partir de ellos, tomar decisiones o extraer conclusiones generales.
Supuesto 1
Desde la organización de una carrera
popular quieren ver el tiempo que
dedican los participantes a preparar
una prueba de 10 Km.
Para ello, de entre los 500
participantes, escogen a un grupo 10.
El número de horas semanales que
dedican a preparar esta prueba son:

3, 10, 5, 7, 8, 7, 4, 9, 6 y 11.
12
DISTRIBUCIONES
BIDIMENSIONALES

1. INTRODUCCIÓN
VARIABLES
ESTADÍSTICAS
CUALITATIVAS. Referidas
a características que no
podemos expresar
numéricamente.
Ejemplo: el color de los
ojos.
CUANTITATIVAS.
Referidas a características
que podemos expresar
numéricamente.
Ejemplo: el número de
aprobados
DISCRETAS. Cuando la
variable solo toma valores
enteros.
Ejemplo: número de hijos
de las familias españolas.
CONTINUAS. Cuando la
variable puede tomar
cualquier valor.
Ejemplo: tiempo de espera
ante una llamada
telefónica,
12
DISTRIBUCIONES
BIDIMENSIONALES

1. INTRODUCCIÓN
CONCEPTO DEFINICIÓN SUPUESTO
Población
Es el conjunto de
individuos o entes sujetos
a estudio.
Los 500 participantes
de la carrera.
Muestra
Es el número de datos
que tomamos de la
población para realizar el
estudio.
Los 10 corredores
seleccionados.
Tamaño
muestral
Número de observaciones
de la muestra.
n = 10
Dato
Cada valor observado en
la variable.
3, 10, 5, 7, 8, 7, 4, 9,
6 y 11.
Variable
Característica que
estamos midiendo.
Horas semanales
dedicadas a entrenar.
12
DISTRIBUCIONES
BIDIMENSIONALES

2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
2.2. Parámetros de centralización

Los parámetros de centralización o medidas de posición central son
números que nos indican alrededor de qué valor se distribuyen los
valores de la variable estadística observada.
Son:

-Media: es el valor promedio de la distribución.
-Moda: es el valor más repetido de la distribución.
-Mediana: es el valor de la serie que reparte los datos en dos
partes iguales.
2.1. Distribuciones unidimensionales

Son aquellas que solamente estudian una variable estadística.
12
DISTRIBUCIONES
BIDIMENSIONALES

2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Media aritmética
- Se representa por x.
- Cálculo:
- Para datos sin frecuencias: Si la variable toma los n
valores x
1, x
2, ..., x
n, la media aritmética se calcula mediante
la expresión:




- Para datos con frecuencias: Si la variable toma los
valores o marcas de clase x
1, x
2, ..., x
n, con f
1, f
2, ..., f
n las
frecuencias absolutas correspondientes de la distribución, la
media aritmética se calcula mediante la expresión:
12
DISTRIBUCIONES
BIDIMENSIONALES

2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Horas semanales: �
�
3
10
5
7
8
7
4
9
6
11
70
� =
70
10
=7 ℎ��??????� ���??????�??????���
Supuesto 1
12
DISTRIBUCIONES
BIDIMENSIONALES

2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Nº de errores Nº de alumnos
0 6
1 7
2 5
3 5
4 2
Supuesto 2

El número de errores ortográficos cometido por un grupo de alumnos
son:
Determina el número medio de errores cometido por los alumnos.
12
DISTRIBUCIONES
BIDIMENSIONALES

2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Nº de errores=�
� Nº de alumnos=�
� �
�·�
�
0 6 0
1 7 7
2 5 10
3 5 15
4 2 8
total 25 40
� =
40
25
=1,6 �������
Supuesto 2
12
DISTRIBUCIONES
BIDIMENSIONALES

2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
2.3. Parámetros de dispersión

Son datos que informan de la concentración o dispersión de los datos
respecto de los parámetros de centralización.
Son:
-Recorrido (R): es la diferencia entre el mayor y el menor de los
valores.
-Desviación media (DM): es la media de los valores de las
desviaciones de los datos respecto a la media aritmética
-Varianza (??????
??????
): es la media aritmética de los cuadrados de las
desviaciones de los valores de la variable respecto de la media
aritmética.
-Desviación típica (??????): es la raíz cuadrada con signo positivo de
la varianza.
-Coeficiente de variación (CV): es el cociente entre la
desviación típica y la media aritmética.
12
DISTRIBUCIONES
BIDIMENSIONALES

2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Expresiones

??????=�
�á�−�
�í�

��=
|�
�−�
�
�=1
|�
�
�


??????
2
=
(�
�−� )
2
�
�
�
�=1
�
ó ??????
2
=
�
2
·�
�
�
�=1
�
−(� )
2


??????=??????
2
=
�
2
·�
�
�
�=1
�
−(� )
2


�??????=
??????
�

12
DISTRIBUCIONES
BIDIMENSIONALES

2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
2.4. Estudio conjunto de media aritmética y desviación típica
Para una distribución estadística de comportamiento normal, se
cumple lo siguiente:
-En (� −??????,� +??????) está el 68,26% de los individuos.
-En (� −2??????,� +2??????) está el 95,45% de los individuos.
-En (� −3??????,� +3??????) está el 99,73% de los individuos.
12
DISTRIBUCIONES
BIDIMENSIONALES

2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Supuesto 1

Calculo de la desviación típica Horas
semanales: �
�
�
�
2

3 9
10 100
5 25
7 49
8 64
7 49
4 16
9 81
6 36
11 121
70 550
??????=
�
2
·�
�
�
�=1
�
−�
2

??????=
550
10
−7
2
=2,45
12
DISTRIBUCIONES
BIDIMENSIONALES

2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Supuesto 2

Calculo de la desviación típica
??????=
104
25
−1,6
2
=1,265
x f x·f �
2
·f
0 6 0 0
1 7 7 7
2 5 10 20
3 5 15 45
4 2 8 32
total 25 40 104
??????
�=
�
�·�
�
2�
�=1
�
−�
2

12
DISTRIBUCIONES
BIDIMENSIONALES

3. DISTRIBUCIONES BIDIMENSIONALES
3.1. Distribuciones bidimensionales

Son aquellas que estudian, de manera simultánea, dos variables
estadísticas.
La variable estadística bidimensional se representa por el símbolo (X,
Y) y cada uno de los individuos de la población viene caracterizado
por la pareja (x
i , y
j ), en el cual x
i representa los datos, valores o
marcas de clase x
1, x
2, ..., x
n de la variable X; e y
j representa los
datos, valores o marcas de clase y
1, y
2, ..., y
m de la variable Y.
3.2. Distribuciones condicionadas

Se llama distribución condicionada de la variable X para Y = y
j,
y se escribe X/Y= y
j, a la distribución que tiene en cuenta todos los
valores de X bajo la condición de que Y tome el valor y
j.
Se llama distribución condicionada de la variable Y para X = x
i,
y se escribe Y/X= x
i, a la distribución que tiene en cuenta todos los
valores de Y bajo la condición de que X tome el valor x
i.
12
DISTRIBUCIONES
BIDIMENSIONALES

3. DISTRIBUCIONES BIDIMENSIONALES
Horas de estudio:
�
�
Nota:
�
�
21 9
15 7
10 5
15 2
20 7
30 8
18 8
20 6
25 5
16 4
Supuesto 3

El tiempo de estudio y la nota
de un grupo de estudiantes
en una determinada materia
es el siguiente:
12
DISTRIBUCIONES
BIDIMENSIONALES

4. CORRELACIÓN. NUBE DE PUNTOS
4.1. Nube de puntos o diagrama de dispersión

Considerando cada par de valores (x, y) como las coordenadas de un
punto se consigue una gráfica denominada diagrama de dispersión
o nube de puntos.
Nos interesa saber si dos variables están o no relacionadas.
0
1
2
3
4
5
6
7
8
9
10
0 5 10 15 20 25 30 35
NOTA

HORAS DE ESTUDIO
Nube de
puntos del
supuesto 3.
12
DISTRIBUCIONES
BIDIMENSIONALES

4. CORRELACIÓN. NUBE DE PUNTOS
4.2. Dependencia o correlación

Según la disposición de la nube de puntos, se puede apreciar, de
forma cualitativa, el tipo y grado de relación o dependencia entre
ambas variables. A esa dependencia la llamamos correlación y puede
ser:
- Dependencia funcional, si la nube de puntos se sitúa en la
gráfica de una función, excepto que esta sea constante.

- Dependencia lineal, si la nube de puntos se sitúa sobre una
recta.
12
DISTRIBUCIONES
BIDIMENSIONALES

4. CORRELACIÓN. NUBE DE PUNTOS
- Correlación o dependencia aleatoria, si la nube de puntos se
sitúa próxima a la gráfica de una función.

- Independencia o ausencia de correlación.
12
DISTRIBUCIONES
BIDIMENSIONALES

4. CORRELACIÓN. NUBE DE PUNTOS
CORRELACIÓN
CRITERIO 1
FUERTE
La nube se aproxima
a una recta o curva
DÉBIL
La nube no se
aproxima a una
recta o curva
CRITERIO 2
POSITIVA
A medida que crece
una variable lo hace
la otra
NEGATIVA
A medida que crece
una variable decrece
la otra
12
DISTRIBUCIONES
BIDIMENSIONALES

5. MEDIDAS DE CORRELACIÓN
Nos interesa conocer de una forma cuantitativa si dos variables son
dependientes. La nube de puntos nos aporta una idea previa que
vamos a corroborar con el coeficiente de correlación.

5.1. Coeficiente de correlación lineal de Pearson

La correlación de tipo lineal se mide mediante un coeficiente
universalmente aceptado, llamado coeficiente de correlación lineal
de Pearson, cuyo valor puede calcularse mediante la expresión:
??????
�=
�
�·�
�
2�
�=1
�
−�
2

??????
�=
�
�·�
�
2�
�=1
�
−�
2

�=
??????
��
??????
�·??????
�

??????
��=
�
��·�
�·�
�
�
−� ·�
12
DISTRIBUCIONES
BIDIMENSIONALES

5. MEDIDAS DE CORRELACIÓN
El coeficiente de correlación lineal de Pearson, r, permite analizar el
grado de aproximación de la nube de puntos a una línea recta y
siempre toma valores comprendidos entre -1 y 1.
COEFICIENTE r

Si –1 < r < 0, existe correlación lineal negativa, y será más
fuerte cuanto más se aproxime r a –1.
Si 0 < r < 1, existe correlación lineal positiva, y será más fuerte
cuanto más se aproxime r a 1.
Si r = 1 o r = –1, la correlación es una dependencia lineal.
Si r = 0, no existe correlación lineal o las variables no están
correlacionadas linealmente. Esto no excluye que las variables
estadísticas puedan estar relacionadas por una correlación
curvilínea.
12
DISTRIBUCIONES
BIDIMENSIONALES

5. MEDIDAS DE CORRELACIÓN
Supuesto 3
x y x^2 y^2 xy
21 9
441 81
189
15 7
225 49
105
10 5
100 25
50
15 2
225 4
30
20 7
400 49
140
30 8
900 64
240
18 8
324 64
144
20 6
400 36
120
25 5
625 25
125
16 4
256 16
64
190 61 3896 413 1207
MEDIA X 19
MEDIA Y 6,1
DESV. TIP.
X 5,35
DESV. TIP.
Y 2,02
DES. TIP.
XY 4,8
r 0,44
Como 0<0,44<1 existe correlación lineal positiva  si que depende el tiempo de
estudio con la nota obtenida. A mayor tiempo invertido, mayor nota.
12
DISTRIBUCIONES
BIDIMENSIONALES

5. MEDIDAS DE CORRELACIÓN
Supuesto 4
Se ha solicitado a un grupo de 50 individuos información sobre el
número de horas que dedican diariamente a dormir y ver la televisión.
La clasificación de las respuestas ha permitido elaborar la siente
tabla:
Nº horas dormidas
(x)
Nº horas de tv
(y)
Frecuencias
absolutas (f)
6 4 3
7 3 16
8 3 20
9 2 10
10 1 1
12
DISTRIBUCIONES
BIDIMENSIONALES

5. MEDIDAS DE CORRELACIÓN
Supuesto 4
x y f x·f x^2·f y·f y^2·f x·y·f
6 4 3
18 108 12 48 72
7 3 16 112 784 48 144 336
8 3 20 160 1280 60 180 480
9 2 10 90 810 20 40 180
10 1 1 10 100 1 1 10
40 13 50 390 3082 141 413 1078
MEDIA X 7,8
MEDIA Y 2,82
DESV. TIP. X 0,894
DESV. TIP. Y 0,555
DES. TIP. XY -0,436
r -0,88
Como r = -0,88, existen una fuerte correlación
lineal negativa. Esto implica que a mayor
número de horas de visionado de la TV se
dormirá un menor número de horas. 12
DISTRIBUCIONES
BIDIMENSIONALES

6. RECTA DE REGRESIÓN. ESTIMACIONES
6.1. Recta de regresión

En numerosas situaciones el diagrama de dispersión, o nube de
puntos de una variable bidimensional, sugiere la línea curva o recta
que mejor se aproxima a los valores de dicha variable. Esta curva
recibe el nombre de recta de regresión.

Sus ecuaciones son:

-Recta de regresión de Y sobre X:



-Recta de regresión de X sobre Y:
&#3627408486;−&#3627408486; =
??????
&#3627408485;&#3627408486;
??????
&#3627408485;
2
(&#3627408485;−&#3627408485; )
&#3627408485;−&#3627408485; =
??????
&#3627408485;&#3627408486;
??????
&#3627408486;
2
(&#3627408486;−&#3627408486; )
12
DISTRIBUCIONES
BIDIMENSIONALES

6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 3

Determinar:

a)Recta de regresión de X
sobre Y.
b)¿Cuál será el número de
horas que tenemos que
estudiar para obtener un
7,5?


Horas de estudio:
&#3627408485;
&#3627408470;
Nota:
&#3627408486;
&#3627408470;
21 9
15 7
10 5
15 2
20 7
30 8
18 8
20 6
25 5
16 4
12
DISTRIBUCIONES
BIDIMENSIONALES

6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 3
&#3627408485;−&#3627408485; =
??????
&#3627408485;&#3627408486;
??????
&#3627408486;
2
(&#3627408486;−&#3627408486; )
MEDIA X 19
MEDIA Y 6,1
DESV. TIP.
X 5,35
DESV. TIP.
Y 2,02
DES. TIP.
XY 4,8
r 0,44
&#3627408485;−19=
4,8
2,02
2
(&#3627408486;−6,1)
&#3627408485;=1,176&#3627408486;+11,824
Si la nota y = 7,5 basta con
despejar de la ecuación de la
recta de X sobre Y obtenida:
&#3627408485;=1,176·7,5+11,824=
20,644 ℎ&#3627408476;&#3627408479;??????&#3627408480;
12
DISTRIBUCIONES
BIDIMENSIONALES

6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 3
y = 1,1736x + 11,841
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7 8 9 10
HORAS DE ESTUDIO

NOTA
12
DISTRIBUCIONES
BIDIMENSIONALES

6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 4

Determinar:

a)Recta de regresión de Y sobre X.
b)¿Si dormimos 8,5 horas cuál es el tiempo que dedicamos a ver la
TV?


Nº horas dormidas
(x)
Nº horas de tv
(y)
Frecuencias
absolutas (f)
6 4 3
7 3 16
8 3 20
9 2 10
10 1 1
12
DISTRIBUCIONES
BIDIMENSIONALES

6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 4
MEDIA X 7,8
MEDIA Y 2,82
DESV. TIP. X 0,894
DESV. TIP. Y 0,555
DES. TIP. XY -0,436
r -0,88
&#3627408486;−&#3627408486; =
??????
&#3627408485;&#3627408486;
??????
&#3627408485;
2
(&#3627408485;−&#3627408485; )
&#3627408486;−2,82=
−0,436
0,894
2
(&#3627408485;−7,8)
&#3627408486;=−0,545&#3627408485;+7,071
Si el nº de horas de sueño x =
8,5 basta con despejar de la
ecuación de la recta de Y
sobre X obtenida:
&#3627408486;=−0,545·8,5+7,071=
2,434 ℎ&#3627408476;&#3627408479;??????&#3627408480; &#3627408465;&#3627408466; ????????????
12
DISTRIBUCIONES
BIDIMENSIONALES

6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 4
y = -0,545x + 7,071
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 2 4 6 8 10 12
HORAS DE TV

HORAS DE SUEÑO
12
DISTRIBUCIONES
BIDIMENSIONALES

7. COEFICIENTE DE DETERMINACIÓN
7.1. Coeficiente de determinación

El coeficiente de determinación de una variable estadística
bidimensional (X, Y) mide el grado de correlación (dependencia)
entre las variables X e Y, se representa por R
2
, siempre toma valores
entre 0 y 1 y viene dado por la expresión:




Nos indica la precisión que tiene la recta
de regresión con respecto a los puntos
(X, Y) obtenidos.

Es el cuadrado del coeficiente de Pearson.
&#3627408438;&#3627408476;&#3627408466;&#3627408467;.&#3627408465;&#3627408466; &#3627408465;&#3627408466;&#3627408481;&#3627408466;&#3627408479;&#3627408474;??????&#3627408475;??????&#3627408464;??????ó&#3627408475;=??????
2
=&#3627408479;
2
=1−
??????
??????
2
??????
&#3627408486;
2

12
DISTRIBUCIONES
BIDIMENSIONALES

7. COEFICIENTE DE DETERMINACIÓN
COEFICIENTE
??????
2

Si R
2
= 1, es el caso extremo en el que los residuos son nulos,
entonces el ajuste es perfecto.
Si R
2
= 0, en este caso extremo, el ajuste es inadecuado o, quizá,
las variables X e Y son independientes.
Si 0 < R
2
< 1, hay que tener en cuenta que para valores próximos
a 0,9 son indicativos de ajustes muy aceptables, mientras que
para valores inferiores a 0,6 tienen escasa fiabilidad y sugieren la
búsqueda de otra línea de ajuste más adecuada.
12
DISTRIBUCIONES
BIDIMENSIONALES

7. COEFICIENTE DE DETERMINACIÓN
Supuesto 3
y = 1,1736x + 11,841
R² = 0,197
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7 8 9 10
HORAS DE ESTUDIO

NOTA
&#3627408479;=0,44→
??????
??????
=??????,????????????
Como el valor
obtenido es
próximo a 0 no
hay una buena
aproximación con
la recta de
regresión. Los
valores obtenidos
a partir de ella no
son fiables.
Habría que
buscar una mejor
aproximación.
12
DISTRIBUCIONES
BIDIMENSIONALES

7. COEFICIENTE DE DETERMINACIÓN
Supuesto 4
&#3627408479;=−0,88→
??????
??????
=??????,????????????
Como el valor
obtenido es
próximo a 1 hay
una buena
aproximación con
la recta de
regresión. Los
valores obtenidos
a partir de ella
son
razonablemente
fiables.
y = -0,545x + 7,071
R² = 0,7725
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 2 4 6 8 10 12
HORAS DE TV

HORAS DE SUEÑO
12
DISTRIBUCIONES
BIDIMENSIONALES
Tags