UD12:DISTRIBUCIONES
BIDIMENSIONALES
PROF: ALFONSO NAVARRO
1º BACHILLERATO CCSS
ÍNDICE
1.INTRODUCCIÓN
2.DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
3.DISTRUBUCIONES BIDIMENSIONALES
4.CORRELACIÓN. NUBE DE PUNTOS
5.MEDIDAS DE CORRELACIÓN
6.RECTA DE REGRESIÓN. ESTIMACIONES
7.COEFICIENTE DE DETERMINACIÓN
12
DISTRIBUCIONES
BIDIMENSIONALES
1. INTRODUCCIÓN
ESTADÍSTICA
Es la Ciencia que se encarga de la recopilación, representación y el
uso de los datos sobre una o varias características de interés para, a
partir de ellos, tomar decisiones o extraer conclusiones generales.
Supuesto 1
Desde la organización de una carrera
popular quieren ver el tiempo que
dedican los participantes a preparar
una prueba de 10 Km.
Para ello, de entre los 500
participantes, escogen a un grupo 10.
El número de horas semanales que
dedican a preparar esta prueba son:
1. INTRODUCCIÓN
VARIABLES
ESTADÍSTICAS
CUALITATIVAS. Referidas
a características que no
podemos expresar
numéricamente.
Ejemplo: el color de los
ojos.
CUANTITATIVAS.
Referidas a características
que podemos expresar
numéricamente.
Ejemplo: el número de
aprobados
DISCRETAS. Cuando la
variable solo toma valores
enteros.
Ejemplo: número de hijos
de las familias españolas.
CONTINUAS. Cuando la
variable puede tomar
cualquier valor.
Ejemplo: tiempo de espera
ante una llamada
telefónica,
12
DISTRIBUCIONES
BIDIMENSIONALES
1. INTRODUCCIÓN
CONCEPTO DEFINICIÓN SUPUESTO
Población
Es el conjunto de
individuos o entes sujetos
a estudio.
Los 500 participantes
de la carrera.
Muestra
Es el número de datos
que tomamos de la
población para realizar el
estudio.
Los 10 corredores
seleccionados.
Tamaño
muestral
Número de observaciones
de la muestra.
n = 10
Dato
Cada valor observado en
la variable.
3, 10, 5, 7, 8, 7, 4, 9,
6 y 11.
Variable
Característica que
estamos midiendo.
Horas semanales
dedicadas a entrenar.
12
DISTRIBUCIONES
BIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
2.2. Parámetros de centralización
Los parámetros de centralización o medidas de posición central son
números que nos indican alrededor de qué valor se distribuyen los
valores de la variable estadística observada.
Son:
-Media: es el valor promedio de la distribución.
-Moda: es el valor más repetido de la distribución.
-Mediana: es el valor de la serie que reparte los datos en dos
partes iguales.
2.1. Distribuciones unidimensionales
Son aquellas que solamente estudian una variable estadística.
12
DISTRIBUCIONES
BIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Media aritmética
- Se representa por x.
- Cálculo:
- Para datos sin frecuencias: Si la variable toma los n
valores x
1, x
2, ..., x
n, la media aritmética se calcula mediante
la expresión:
- Para datos con frecuencias: Si la variable toma los
valores o marcas de clase x
1, x
2, ..., x
n, con f
1, f
2, ..., f
n las
frecuencias absolutas correspondientes de la distribución, la
media aritmética se calcula mediante la expresión:
12
DISTRIBUCIONES
BIDIMENSIONALES
El número de errores ortográficos cometido por un grupo de alumnos
son:
Determina el número medio de errores cometido por los alumnos.
12
DISTRIBUCIONES
BIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
2.3. Parámetros de dispersión
Son datos que informan de la concentración o dispersión de los datos
respecto de los parámetros de centralización.
Son:
-Recorrido (R): es la diferencia entre el mayor y el menor de los
valores.
-Desviación media (DM): es la media de los valores de las
desviaciones de los datos respecto a la media aritmética
-Varianza (??????
??????
): es la media aritmética de los cuadrados de las
desviaciones de los valores de la variable respecto de la media
aritmética.
-Desviación típica (??????): es la raíz cuadrada con signo positivo de
la varianza.
-Coeficiente de variación (CV): es el cociente entre la
desviación típica y la media aritmética.
12
DISTRIBUCIONES
BIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
2.4. Estudio conjunto de media aritmética y desviación típica
Para una distribución estadística de comportamiento normal, se
cumple lo siguiente:
-En (� −??????,� +??????) está el 68,26% de los individuos.
-En (� −2??????,� +2??????) está el 95,45% de los individuos.
-En (� −3??????,� +3??????) está el 99,73% de los individuos.
12
DISTRIBUCIONES
BIDIMENSIONALES
Son aquellas que estudian, de manera simultánea, dos variables
estadísticas.
La variable estadística bidimensional se representa por el símbolo (X,
Y) y cada uno de los individuos de la población viene caracterizado
por la pareja (x
i , y
j ), en el cual x
i representa los datos, valores o
marcas de clase x
1, x
2, ..., x
n de la variable X; e y
j representa los
datos, valores o marcas de clase y
1, y
2, ..., y
m de la variable Y.
3.2. Distribuciones condicionadas
Se llama distribución condicionada de la variable X para Y = y
j,
y se escribe X/Y= y
j, a la distribución que tiene en cuenta todos los
valores de X bajo la condición de que Y tome el valor y
j.
Se llama distribución condicionada de la variable Y para X = x
i,
y se escribe Y/X= x
i, a la distribución que tiene en cuenta todos los
valores de Y bajo la condición de que X tome el valor x
i.
12
DISTRIBUCIONES
BIDIMENSIONALES
El tiempo de estudio y la nota
de un grupo de estudiantes
en una determinada materia
es el siguiente:
12
DISTRIBUCIONES
BIDIMENSIONALES
4. CORRELACIÓN. NUBE DE PUNTOS
4.1. Nube de puntos o diagrama de dispersión
Considerando cada par de valores (x, y) como las coordenadas de un
punto se consigue una gráfica denominada diagrama de dispersión
o nube de puntos.
Nos interesa saber si dos variables están o no relacionadas.
0
1
2
3
4
5
6
7
8
9
10
0 5 10 15 20 25 30 35
NOTA
HORAS DE ESTUDIO
Nube de
puntos del
supuesto 3.
12
DISTRIBUCIONES
BIDIMENSIONALES
4. CORRELACIÓN. NUBE DE PUNTOS
4.2. Dependencia o correlación
Según la disposición de la nube de puntos, se puede apreciar, de
forma cualitativa, el tipo y grado de relación o dependencia entre
ambas variables. A esa dependencia la llamamos correlación y puede
ser:
- Dependencia funcional, si la nube de puntos se sitúa en la
gráfica de una función, excepto que esta sea constante.
- Dependencia lineal, si la nube de puntos se sitúa sobre una
recta.
12
DISTRIBUCIONES
BIDIMENSIONALES
4. CORRELACIÓN. NUBE DE PUNTOS
- Correlación o dependencia aleatoria, si la nube de puntos se
sitúa próxima a la gráfica de una función.
- Independencia o ausencia de correlación.
12
DISTRIBUCIONES
BIDIMENSIONALES
4. CORRELACIÓN. NUBE DE PUNTOS
CORRELACIÓN
CRITERIO 1
FUERTE
La nube se aproxima
a una recta o curva
DÉBIL
La nube no se
aproxima a una
recta o curva
CRITERIO 2
POSITIVA
A medida que crece
una variable lo hace
la otra
NEGATIVA
A medida que crece
una variable decrece
la otra
12
DISTRIBUCIONES
BIDIMENSIONALES
5. MEDIDAS DE CORRELACIÓN
Nos interesa conocer de una forma cuantitativa si dos variables son
dependientes. La nube de puntos nos aporta una idea previa que
vamos a corroborar con el coeficiente de correlación.
5.1. Coeficiente de correlación lineal de Pearson
La correlación de tipo lineal se mide mediante un coeficiente
universalmente aceptado, llamado coeficiente de correlación lineal
de Pearson, cuyo valor puede calcularse mediante la expresión:
??????
�=
�
�·�
�
2�
�=1
�
−�
2
5. MEDIDAS DE CORRELACIÓN
El coeficiente de correlación lineal de Pearson, r, permite analizar el
grado de aproximación de la nube de puntos a una línea recta y
siempre toma valores comprendidos entre -1 y 1.
COEFICIENTE r
Si –1 < r < 0, existe correlación lineal negativa, y será más
fuerte cuanto más se aproxime r a –1.
Si 0 < r < 1, existe correlación lineal positiva, y será más fuerte
cuanto más se aproxime r a 1.
Si r = 1 o r = –1, la correlación es una dependencia lineal.
Si r = 0, no existe correlación lineal o las variables no están
correlacionadas linealmente. Esto no excluye que las variables
estadísticas puedan estar relacionadas por una correlación
curvilínea.
12
DISTRIBUCIONES
BIDIMENSIONALES
5. MEDIDAS DE CORRELACIÓN
Supuesto 3
x y x^2 y^2 xy
21 9
441 81
189
15 7
225 49
105
10 5
100 25
50
15 2
225 4
30
20 7
400 49
140
30 8
900 64
240
18 8
324 64
144
20 6
400 36
120
25 5
625 25
125
16 4
256 16
64
190 61 3896 413 1207
MEDIA X 19
MEDIA Y 6,1
DESV. TIP.
X 5,35
DESV. TIP.
Y 2,02
DES. TIP.
XY 4,8
r 0,44
Como 0<0,44<1 existe correlación lineal positiva si que depende el tiempo de
estudio con la nota obtenida. A mayor tiempo invertido, mayor nota.
12
DISTRIBUCIONES
BIDIMENSIONALES
5. MEDIDAS DE CORRELACIÓN
Supuesto 4
Se ha solicitado a un grupo de 50 individuos información sobre el
número de horas que dedican diariamente a dormir y ver la televisión.
La clasificación de las respuestas ha permitido elaborar la siente
tabla:
Nº horas dormidas
(x)
Nº horas de tv
(y)
Frecuencias
absolutas (f)
6 4 3
7 3 16
8 3 20
9 2 10
10 1 1
12
DISTRIBUCIONES
BIDIMENSIONALES
5. MEDIDAS DE CORRELACIÓN
Supuesto 4
x y f x·f x^2·f y·f y^2·f x·y·f
6 4 3
18 108 12 48 72
7 3 16 112 784 48 144 336
8 3 20 160 1280 60 180 480
9 2 10 90 810 20 40 180
10 1 1 10 100 1 1 10
40 13 50 390 3082 141 413 1078
MEDIA X 7,8
MEDIA Y 2,82
DESV. TIP. X 0,894
DESV. TIP. Y 0,555
DES. TIP. XY -0,436
r -0,88
Como r = -0,88, existen una fuerte correlación
lineal negativa. Esto implica que a mayor
número de horas de visionado de la TV se
dormirá un menor número de horas. 12
DISTRIBUCIONES
BIDIMENSIONALES
6. RECTA DE REGRESIÓN. ESTIMACIONES
6.1. Recta de regresión
En numerosas situaciones el diagrama de dispersión, o nube de
puntos de una variable bidimensional, sugiere la línea curva o recta
que mejor se aproxima a los valores de dicha variable. Esta curva
recibe el nombre de recta de regresión.
Sus ecuaciones son:
-Recta de regresión de Y sobre X:
-Recta de regresión de X sobre Y:
�−� =
??????
��
??????
�
2
(�−� )
�−� =
??????
��
??????
�
2
(�−� )
12
DISTRIBUCIONES
BIDIMENSIONALES
6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 3
Determinar:
a)Recta de regresión de X
sobre Y.
b)¿Cuál será el número de
horas que tenemos que
estudiar para obtener un
7,5?
6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 3
�−� =
??????
��
??????
�
2
(�−� )
MEDIA X 19
MEDIA Y 6,1
DESV. TIP.
X 5,35
DESV. TIP.
Y 2,02
DES. TIP.
XY 4,8
r 0,44
�−19=
4,8
2,02
2
(�−6,1)
�=1,176�+11,824
Si la nota y = 7,5 basta con
despejar de la ecuación de la
recta de X sobre Y obtenida:
�=1,176·7,5+11,824=
20,644 ℎ��??????�
12
DISTRIBUCIONES
BIDIMENSIONALES
6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 4
MEDIA X 7,8
MEDIA Y 2,82
DESV. TIP. X 0,894
DESV. TIP. Y 0,555
DES. TIP. XY -0,436
r -0,88
�−� =
??????
��
??????
�
2
(�−� )
�−2,82=
−0,436
0,894
2
(�−7,8)
�=−0,545�+7,071
Si el nº de horas de sueño x =
8,5 basta con despejar de la
ecuación de la recta de Y
sobre X obtenida:
�=−0,545·8,5+7,071=
2,434 ℎ��??????� �� ????????????
12
DISTRIBUCIONES
BIDIMENSIONALES
6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 4
y = -0,545x + 7,071
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 2 4 6 8 10 12
HORAS DE TV
HORAS DE SUEÑO
12
DISTRIBUCIONES
BIDIMENSIONALES
7. COEFICIENTE DE DETERMINACIÓN
7.1. Coeficiente de determinación
El coeficiente de determinación de una variable estadística
bidimensional (X, Y) mide el grado de correlación (dependencia)
entre las variables X e Y, se representa por R
2
, siempre toma valores
entre 0 y 1 y viene dado por la expresión:
Nos indica la precisión que tiene la recta
de regresión con respecto a los puntos
(X, Y) obtenidos.
Es el cuadrado del coeficiente de Pearson.
����.�� ������??????�??????�??????ó�=??????
2
=�
2
=1−
??????
??????
2
??????
�
2
12
DISTRIBUCIONES
BIDIMENSIONALES
7. COEFICIENTE DE DETERMINACIÓN
COEFICIENTE
??????
2
Si R
2
= 1, es el caso extremo en el que los residuos son nulos,
entonces el ajuste es perfecto.
Si R
2
= 0, en este caso extremo, el ajuste es inadecuado o, quizá,
las variables X e Y son independientes.
Si 0 < R
2
< 1, hay que tener en cuenta que para valores próximos
a 0,9 son indicativos de ajustes muy aceptables, mientras que
para valores inferiores a 0,6 tienen escasa fiabilidad y sugieren la
búsqueda de otra línea de ajuste más adecuada.
12
DISTRIBUCIONES
BIDIMENSIONALES
NOTA
�=0,44→
??????
??????
=??????,????????????
Como el valor
obtenido es
próximo a 0 no
hay una buena
aproximación con
la recta de
regresión. Los
valores obtenidos
a partir de ella no
son fiables.
Habría que
buscar una mejor
aproximación.
12
DISTRIBUCIONES
BIDIMENSIONALES
7. COEFICIENTE DE DETERMINACIÓN
Supuesto 4
�=−0,88→
??????
??????
=??????,????????????
Como el valor
obtenido es
próximo a 1 hay
una buena
aproximación con
la recta de
regresión. Los
valores obtenidos
a partir de ella
son
razonablemente
fiables.
y = -0,545x + 7,071
R² = 0,7725
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 2 4 6 8 10 12
HORAS DE TV