Estadistica tratamiento estadistico de datos

armandorob 27,254 views 54 slides Mar 11, 2011
Slide 1
Slide 1 of 54
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52
Slide 53
53
Slide 54
54

About This Presentation

No description available for this slideshow.


Slide Content

SUMARIO:

1.1.- Introducción
1.2.- Datos e Información
1.3.- Algo más Formal sobre Muestras
1.3.1.- Caracterización de Muestras
1.3.2.- Obtención de Información a partir de los Datos de una muestra
1.3.3.- Ordenamiento de Datos
1.3.4.- Tabulación de Datos
1.4.- Tabulación de Datos
1.4.1.- Frecuencias absolutas y relativas
1.4.2.- Tablas de Frecuencias
1.5.- Gráficos de Frecuencias
1.6.- Cuantiles de una Muestra
1.6.1.- Definiciones y Determinación Gráfica
1.6.2.- Diagrama de Caja
1.7.- Algoritmos para el Cálculo de Cuantiles
1.8.- Medidas de Tendencia Central y Dispersión
1.8.1.- La Media Aritmética y Otras Medidas de Tendencia Central
1.8.2.- La Media y la Mediana de una misma Muestra
1.8.3.- La Media Cortada de una Muestra
1.8.4.- Medidas de Dispersión
1.8.5.- Media y Varianza de Datos Agrupados
1.8.6.- Media y Varianza de Funciones de X
1.9.- Más sobre Dispersión
1.9.1.- Simplificación de Cálculos
1.9.2.- Cuantiles y Medidas de Dispersión
1.9.3.- Otros Diagramas y Representaciones Gráficas de una Muestra
1.9.4.- Valores Aberrantes detectados en Diagramas de Caja
1.10.- Trabajo con dos o mas Variables
1.10.1.- Coeficiente de variación
1.10.2.- Gráficos Q-Q
1.11.- Estadística Descriptiva Multivariada
1.11.1.- Vector de Medias y Matriz de Covarianzas
1.11.2.- Coeficiente de Correlación de Muestras
1.12.- Observación de Procesos en el Tiempo
1.12.1.- Series Temporales y Filtros
1.12.2.- Patrones y Filtrado de Datos
1.12.3.- Causas de Variación de un Proceso
1.13.- Datos Cualitativos
1.13.1.- Escalas de Medidas
1.13.2.- Escalas de Clasificación

Objetivos del Capítulo

Que el lector llegue a:

1) Diferenciar entre dato e información.
2) Diferenciar muestra y población objetivo.
3) Ser capaz de agrupar los datos de una muestra y construir tablas de frecuencias relativas.
4) Ser capaz de entender y determinar estadísticos de orden.
5) Ser capaz de construir gráficos de frecuencia relativa como histogramas, ojivas, polígonos y
diagramas de cajas.
6) Identificar en la ojiva qué son los cuartiles, deciles y percentiles de una muestra.
7) Calcular cualquier cuantil muestral utilizando estadísticos de orden
8) Entender los conceptos relacionados con tendencia central y dispersión muestral.
9) Calcular medidas de correlación entre dos variables de una misma muestra.
10) Identificar fenómenos representables por series temporales y filtrarlas de ser necesario.
Tratamiento Estadístico
de Datos
1

2
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
1.1.- INTRODUCCIÓN

Este capítulo es la presentación de lo que es la Estadística en
sus más elemental expresión; todas las secciones, excepto una,
el único requerimiento matemático que poseen es el que
ostenta un bachiller recién graduado. Se comienza diferenciando
información de dato y se instruye al lector acerca de cómo tratar
muestras de datos cuantitativos, llevándolo a construir tablas,
gráficos y diagramas, así como a calcular cuantiles,
particularmente mediana, deciles, percentiles y los cuartiles
primero y tercero. Se introduce como medidas de dispersión el
rango muestral y el rango intercuartil. Destaca la ojiva entre los
gráficos de frecuencia que se construyen.

En una siguiente etapa se define y cuantifica la tendencia central
de una muestra así como las mas usuales medidas de dispersión
muestral; teniendo el capítulo una de sus secciones
especialmente trabajadas en la que se hace referencia a la
determinación de cuantiles, utilizando estadísticos de orden.

La presencia de valores poco usuales o aberrantes es también
tratada en este capítulo, se explica su incidencia en los valores
que miden tendencia central y se hace uso del diagrama de caja
para diagnosticar su presencia.

Igualmente se discute ventajas y desventajas del agrupamiento
de datos y como determinar indicadores a partir de esta
situación. Se presentan también una introducción al tratamiento
de datos ligados al tiempo, series temporales, creación de
“filtros” para suavizar las series. También se introduce la noción
de tratamiento simultáneo de varias características de una
misma Población Objetivo, en una sección a la que se denomina
”Estadística Descriptiva Multivariada” y que es la única en la
que se requiere conocimiento de operaciones con matrices, para
construir matrices de datos y matrices de varianzas y
covarianzas e una muestra.

Existe una última sección en la que se presentan escalas de datos
y se sugiere como tratar variables cualitativas.



1.2 .- DATOS E INFORMACIÓN

En Estadística tratamos en primer lugar con datos, esto es, con
una cantidad n de mediciones no procesadas, sean estas
numéricas (cuantitativas) o categóricas (cualitativas), que
llenan nuestro cuaderno de apuntes o reposan en un instrumento
de almacenamiento de datos, sea éste un disco duro, “flash
memory”, o sencillamente un CD. Finalmente reposarán en una
base de datos para su manejo o en una bodega de datos
Población Objetivo
Conjunto bien
definido de elementos
que son objeto de
medición

3
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
(warehouse) para su almacenamiento histórico y posterior
tratamiento con Minería de Datos. Estas mediciones son
efectuadas a elementos de algún conjunto bien definido, al que
llamaremos población objetivo. A los elementos de la
población objetivo, los llamaremos unidades de investigación.
Para efectos de este primer análisis vamos a suponer que las
medidas efectuadas son cuantitativas.

Supondremos además que el tamaño de la población objetivo es
N y que de este conjunto seleccionamos un subconjunto de n
unidades de investigación, sobre los cuales vamos a efectuar
las mediciones de alguna de sus características. No mediremos
entonces la característica investigada a todos los elementos de la
población objetivo sino a parte de ellos, esto significa que N >
n. Sin discutir, por ahora, la manera que efectuamos la selección
de las n unidades de investigación, al total de los n valores
medidos los llamaremos muestra. Cada valor incluido en la
muestra es una observación.

Estamos seguros que el lector ha reparado en la sutil, pero
importante, diferencia entre “observación” y “unidad de
investigación”.

Diremos entonces que hemos tomado una muestra de tamaño n
de una “población” de tamaño N, o que tenemos una muestra
constituida por n observaciones.

Ejemplo 1.1


Sea una Población Objetivo que está conformada por seis
unidades de investigación, N=6; supongamos que la medida de
interés X toma valores, a, b, c, d, e, f. Indicar cómo seleccionar
la muestras de tamaño n = 2 de esta población.

Desarrollo.

El conjunto de valores de donde podemos escoger una de las
muestras requeridas es:

{ a, b, c, d, e, f }

Si se necesita tomar una muestra de tamaño n = 2 ; son muchas
las opciones que pueden seleccionarse, bien podría ser que la
muestra elegida sea {a,b}; también puede ser {a,c} o
cualquiera de las opciones como, {a,d}; {a,e}; {a,f}; {a,f};
{b,c}; y así sucesivamente, hasta considerar la opción {e,f}. ♦

P
ensando en casos numéricos mas específicos, puede ser que
de los N=12537 estudiantes matriculados en una universidad, a
cien de ellos, n=100, les preguntemos cuál es el número de
materias en las que se encuentran registrados al momento de la
Unidades de
Investigación
Elementos de la
población objetivo
Muestra
Subconjunto de n
unidades de
investigación tomados
de la
población
Observación
Cada valor incluido
en la muestra

4
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
entrevista, o que a esos mismos estudiantes les midamos su
estatura en metros.

En el caso de la primera pregunta, las respuestas conforman una
muestra de tamaño cien que está constituida por números
enteros, en tanto que las cien estaturas lo mas probable es que
las representemos como números reales con al menos dos
decimales de precisión.

Nótese que “medir” en términos estadísticos puede significar
que le hagamos una pregunta a quien investiguemos o que
utilizando un instrumento cuantifiquemos alguna de sus
características distintivas, o que le pidamos se pronuncie sobre
un asunto en particular.

Algo mas, los elementos de la Población Objetivo, o unidades
de investigación, pueden ser también entes irracionales o
inanimados, a quienes no es posible hacerles preguntas.
Pensemos que la característica que nos interesa es el porcentaje
de hierro contenido en las rocas que yacen en el lecho de un río,
o que en una provincia del país, nos interesa la proporción de
ganado vacuno infectado de fiebre aftosa.

Para el primer caso, los datos serán obtenidos en un laboratorio,
en el segundo, un veterinario dictaminará la presencia o no de
ese mal.



1.3.- ALGO MÁS FORMAL SOBRE MUESTRAS


1.3.1.- Caracterización de muestras

S
i representamos por X a una característica de interés de cierta
población objetivo, a una muestra de tamaño n tomada de esta
población, la representaremos por,

{X
1, X2, ... , Xn}

Es también válido representar esta muestra por un vector X en
R
n
de la siguiente forma:

X
T
= (X1 X2... Xn)

Donde X
T
representa al vector transpuesto de X. Se usa la
transpuesta del vector X y no el vector X en sí, por razones de
edición.

5
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Ejemplo 1.2

A cinco estudiantes politécnicos se les pregunta en cuántos
semestres, a partir del momento de la entrevista, estiman que
van a graduarse; determine la muestra si lo que se obtiene
como respuesta es: siete, cinco, ocho, cinco y cuatro semestres.

Desarrollo.

En este caso, n = 5 y además, X
1 = 7; X2 = 5; X3 = 8; X4 = 5 y
X
5 = 4.

La muestra igualmente puede ser escrita como:

X
T
= (7 5 8 5 4) ♦

Nótese que hasta el momento, una muestra es solo un conjunto
X de datos que no ha recibido procesamiento alguno.


1.3.2.- Obtención de información a partir de los datos de una muestra

Si bien el proceso de “toma de datos” es vital en Estadística, a
tal punto que ha merecido desarrollos teóricos importantes y las
consecuentes técnicas a ser aplicadas, por el momento no nos
preocuparemos de aquello y supondremos simplemente que
contamos con los datos. Algo mas, los datos, como tales, no son
mas que materia prima dispuesta a ser procesada, ellos por sí
solo poco o nada pueden decirnos. Para que podamos tomar
decisiones racionales, necesitamos procesarlos, esto es
convertirlos en información.

Si nos encontramos frente a una muestra de tamaño n, ¿Qué es
lo que nosotros necesitamos hacer para que pase a ser material
estadísticamente útil?, esto es, para que pase a ser información.

Cuatro son las acciones que con el conocimiento que al
momento suponemos maneja el lector, pueden tomarse, y estas
son:
i) Ordenar los datos;
ii) Tabular los datos ordenados;
iii) Graficar los datos ordenados utilizando el concepto de
frecuencia relativa; y,
iv) Calcular a partir de la muestra cantidades que representen
“peculiaridades” siempre presente en las muestras que son
relevantes para la toma de decisiones.


1.3.3.- Ordenamiento de datos

La primera acción, esto es ordenar los valores constitutivos de
una muestra, es sencilla, aunque pudiera ser tediosa, cuando se
Información
Conjunto de datos
procesados que nos
permiten tomar
decisiones racionales

6
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
trabaja con muestras de tamaño relativamente grande y no
disponemos de una máquina procesadora de datos. Para
representar una muestra ordenada debemos definir que es lo que
se entiende por un estadístico de orden.

Dada una muestra X de tamaño n, al primer estadístico de
orden lo denotamos por X
(1) y lo definimos como el mínimo
valor que constituye la muestra, esto es,

X
(1) = min{X1 , X2, ..., Xn}

El estadístico de orden n se lo denota como X
(n) y lo definimos
como el máximo valor que constituye la muestra, esto es,

X
(n) = max{X1 , X2, ..., Xn}

De forma similar definimos al estadístico de orden dos, tres, y
así pasando por el i-ésimo orden, llegamos al de orden (n-1) y
orden n, esto significa que:

X
(1) ≤ X(2) ≤ ... ≤ X (i) ≤ … ≤ X (n-1) ≤ X(n)


Ejemplo 1.3

A partir del Ejemplo 1.2 determine los estadísticos de orden
que correspondan.

Desarrollo.

En el mencionado ejemplo, consideramos una muestra de
tamaño cinco en la que,

X
1 = 7; X2 = 5; X3 = 8; X4 = 5 y X5 = 4

Concordante con las definiciones previas,

X
(1) = min{ 7 ; 5 ; 8 ; 5 ; 4}= 4

X
(n) = X(5) = max{7 ; 5 ; 8 ; 5 ; 4 }= 8

Considerando ahora la muestra ordenada,

X
(1) = 4; X (2) = 5; X (3) = 5; X (4) = 7; y X (5)= 8 ♦

N
ótese que el número cinco, como valor observado, tiene doble
calidad; es el estadístico de orden dos y de orden tres al mismo
tiempo, ya que este valor se encuentra repetido en la muestra.

7
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
1.3.4.- Tabulación de Datos

Para tabular datos cuantitativos, y así facilitar la exploración
estadística de los mismos, se requiere definir algunos términos y
efectuar ciertos supuestos. Los términos que necesariamente
deben definirse son: clase, marca de clase, frecuencia
absoluta, frecuencia relativa, frecuencia acumulada
absoluta, frecuencia acumulada relativa y tabla de
frecuencias.

Cualquier dato en una muestra es mayor o igual a su mínimo
valor X
(1), pero menor o igual a su máximo valor X(n); teniendo
en cuenta esto, vamos a considerar un intervalo cerrado de
números reales al que denominaremos A y cuyo extremo
inferior lo denominaremos a
1 y cuyo extremo superior es a k+1,
tal cual se lo bosqueja en la Figura 1.1

Figura 1.1
Intervalo A de Números Reales que incluye todo los datos en la
muestra




A= {x∈R | a
1 ≤ x < a k+1}= [a1, ak+1)

Necesariamente a
1 debe ser menor o igual que X(1) así como
también que a
k+1 debe ser mayor o igual que X(n).

Particionamos ahora el intervalo A así definido, en k
subintervalos semiabiertos y ordenados de tal manera que
dichos subintervalos,

a) tengan igual longitud;
b) su unión sea igual al intervalo A; y,
c) la intersección entre cualquiera de estos subintervalos sea
vacía.

Diremos que estos intervalos son exhaustivos y mutuamente
excluyentes y a cada uno de ellos lo denominaremos clase.

Hemos definido entonces k clases para una muestra de tamaño
n.

Obviamente k es mucho menor que n y dicho valor se lo escoge
de acuerdo a las instrucciones que nos dé el profesor en clase, o
de acuerdo a la experiencia de la persona que está haciendo el
análisis de los datos. Quien no tiene experiencia, ni tiene
cercano un profesor pero sí una computadora, verá resuelto su
problema consultando o dejando funcionar libremente a
paquetes computacionales especializados en Estadística, ya que
• • ••
X
(n)
ak+1X(1)
a1
Clase
Intervalos exhaustivos
y mutuamente
excluyentes en una
muestra

8
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
dichos paquetes, tales como MINITAB*, SPSS** o
SYSTAT**, realizan automáticamente esta tarea, si así lo
requerimos. Un valor sugerido de partida es k ≥ 7.

Formalizando lo definido anteriormente se tiene que

A= {x∈R | a
1 ≤ x < a k+1}= [a1, ak+1)

Además tenemos:

a) Se ha definido,

primera clase = [a
1, a2)
segunda clase = [a
2, a3)
.
.
.
k-ésima clase = [a
k , ak+1)

Recuérdese que el intervalo semiabierto

[a
i , ai+1) = {x∈R ⏐a i ≤ x < ai+1}
En tanto que:

[a
k-1, ak) = {x∈R ⏐a k-1 ≤ x < ak}

Existiendo además el supuesto de que la longitud L de cada una
de las clases es la misma, esto es,

L = d(a
1 , a2) = d(a2 , a3) = ... = d(ak , ak+1)

Donde la expresión d(a , b) simboliza la “distancia” del número
real a al número real b, que no es mas, en este caso, que el valor
absoluto de la diferencia entre a y b. Esto es, d(4 , 5) =⏐4-5⏐=
d(5 , 4) =⏐5-4⏐ = 1 ó d(-3 , 3) =⏐-3 - 3⏐ = 6.

b) La unión de los k subintervalos es A; lo cual significa que:
[a
1, a2)∪[a2 , a3)∪...∪[a k , ak+1) = A = U
k
1i=
[ai , ai+1)
c) La intersección de los k subintervalos es vacía, esto es,
[a
1, a2) ∩ [a2 , a3)∩... ∩ [a k , ak+1) = ∅ =I
k
1i=
[ai , ai+1)

Al valor central de cada una de las clases, se lo obtiene sumando
sus extremos y dividiendo para dos, este valor central se
denomina marca de clase, lo cual significa que:

la primera marca de clase = (a
1 + a2)/2;
la segunda marca de clase = (a
2 + a3)/2;
.
Marca de Clase
Valor central de cada
una de las clases

9
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
.
.
y, la k-ésima marca de clase = (a
k + ak+1)/2.


Ejemplo 1.4

Supongamos que se tiene una muestra de tamaño n = 50 datos
y que el mínimo X
(1) es igual a 42 y el máximo X(50) es 106.
Se requiere determinar clases y marcas de clase para la
muestra.

Desarrollo.

Se nos sugiere tomar k = 7, de tal manera que

A= {x∈R ⏐40 ≤ x
< 110} = [40, 110)

Esto hace posible que:

la primera clase = [40, 50);
la segunda clase = [50
, 60);
.
.
.
y, la séptima clase = [ 100
, 110)

Bajo estas condiciones, la primera marca de clase es
(40+50)/2 =45; la segunda marca de clase es 55; la tercera es
65; y de esta manera hasta llegar a la séptima marca de clase
que es 105. ♦

A
sí construida la resolución del problema, la misma goza de las
siguientes características:

El intervalo A contiene a todos los n = 50 valores que
conforman la muestra ya que X
(1) así como también X(50)
pertenecen al intervalo A.

Cada una de las siete marcas de clase está perfectamente
establecida y tienen la misma longitud (diez unidades);

El intervalo A es igual a la unión de las k = 7 clases (las clases
son exhaustivas); y,

Ninguna clase comparte elementos con otra (las clases son
mutuamente excluyentes);

Para tener una idea gráfica de lo contenido en este problema,
imaginemos una figura como la que denomináramos Figura 1.1
en líneas previas y ubique los valores a
1 que es 40, a2 que es
50; hasta llegar a a
8 = 110. Recuérdese que k = 7, pero que

10
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
tenemos que llegar hasta ak+1 que en este caso es 110. A
continuación la Figura 1.2

Figura 1.2
Intervalo A (unión de las siete clases)





A= {x∈R ⏐40 ≤ x < 110} = [40, 110)



1.4.- TABULACIÓN DE DATOS


1.4.1.- Frecuencias absolutas y relativas

Para tabular datos con el propósito de hacer un análisis
estadístico exploratorio de los mismos, aun necesitamos efectuar
algunas definiciones que se relacionan con el tamaño de la
muestra y el número de observaciones que la muestra tiene en
cada una de las k clases que hayamos determinado.

Supóngase que ya hemos ordenado los datos y que además se
han determinado las k clases que creemos pertinentes; vamos a
darle un tratamiento adicional a esta muestra ordenada.
Recordemos que ordenada o no, la muestra tiene n
observaciones y que por la forma que se definen las clases, sin
ambigüedad podemos afirmar que todos los elementos de la
muestra pertenecen a alguna de las k clases.

Denotaremos f
1 al número de observaciones en la muestra, que
pertenecen a la primera clase, esto es al intervalo [a
1, b1) y a f1 lo
denominaremos frecuencia absoluta de la primera clase o
simplemente primera frecuencia absoluta. En el mismo
contexto f
2, será la segunda frecuencia absoluta, y así
sucesivamente hasta llegar a f
k, que es la k-ésima frecuencia
absoluta o el número de observaciones que pertenecen a la
muestra y que al mismo tiempo se ubican en la k-ésima clase.
La suma de las frecuencias absolutas de una muestra es n, esto
es,
f
1 + f2 + ... + fk = n =∑
=
k
1i
i
f
Recuérdese que f
i es un número mayor o igual que cero y menor
o igual que
n. Pasamos a definir frecuencia relativa de una
clase.
La
frecuencia relativa de la primera clase resulta de dividir f1
para el tamaño
n de la muestra; de manera similar la frecuencia
Frecuencia Absoluta
Número de
observaciones en la
muestra que
pertenecen a cada una
de las clases
Frecuencia Relativa
División de la
frecuencia absoluta
de cada una de las
clases para el tamaño
n de la muestra
40
========
50 60 70 80 90 100 110
a
1
a
k+1
[)
[)
[)
[)
[)
[)
[)

11
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
relativa de la segunda clase se obtiene al dividir f2 para n. Y
así pasando por la
frecuencia relativa de la i-ésima clase,
llegamos a la
frecuencia relativa de la k-ésima clase que
calculamos dividiendo f
k para n.

Toda frecuencia relativa es un número mayor o igual a cero pero
menor o igual que uno, esto es,

0

n
i
f
≤ 1; siendo, i = 1, 2,..., k.

F
1, la frecuencia acumulada absoluta de la primera clase, se
la define igual a f
1; la de la segunda clase F2 = f1 + f2; y así
sucesivamente la
frecuencia acumulada de la k-ésima clase
es:
F
k = f1 + f2 + ... + fk-1 + fk

Es claro que F
k es igual a n. Véase Figura 1.3

Con estos antecedentes es evidente como definir la
frecuencia
acumulada relativa de la i-ésima clase
, esto es, la misma
resulta de dividir F
i para n, siendo i = 1; 2;...; k.
Ocurre por tanto que
n
F
k
es igual a uno.

Figura 1.3
Definición de Frecuencia Acumulada











1.4.2.- Tablas de frecuencias

Dada una muestra ordenada de tamaño n, una Tabla de
frecuencias
es un arreglo rectangular que tiene siete columnas y
k filas, sin incluir la rotulación; la primera columna es para el
“ordinal de la clase”, la segunda para definir la clase, luego la
marca de clase, frecuencia absoluta, frecuencia relativa,
frecuencia absoluta acumulada y la séptima columna para la
frecuencia relativa acumulada. Véase la
Figura 1.4

F
1 =f
1
F
2 =f
1 + f
2
F
3 =f
1 + f
2 + f
3
F
4 =f
1 + f
2 + f
3 + f
4
F
5 =f
1 + f
2 + f
3 + f
4 + f
5
F
6 =f
1 + f
2 + f
3 + f
4 + f
5 + f
6
F
7 =f
1 + f
2 + f
3 + f
4 + f
5 + f
6 + f
7
* Para efectos visuales el valor de k es siete (k=7)
Tabla de
Frecuencias
Arreglo rectangular
que tiene siete
columnas y k filas, sin
incluir la rotulación

12
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Figura 1.4
Tabla General de Frecuencias

Ordinal Clase
Marca de
Clase
Frecuencia
Absoluta
Frecuencia
Relativa
Frecuencia
Absoluta
Acumulada
Frecuencia
Relativa
Acumulada
1 [a 1,a2) (a1+a2)/2 f1 f 1/n F 1 F 1/n
2 [a 2,a3) (a2+a3)/2 f2 f 2/n F 2 F 2/n
3 [a 3,a4) (a3+a4)/2 f3 f 3/n F 3 F 3/n
. . . . . . .
. . . . . . .
. . . . . . .
k [a k,ak+1) (ak+ak+1)/2 fk f k/n F K= n F K/n = 1

Téngase en cuenta que al multiplicar por cien cualquier tipo de
frecuencia relativa se obtiene un
porcentaje.

Construida una Tabla de frecuencia, estamos en capacidad de
efectuar algunas afirmaciones que no podríamos hacer si
observáramos solamente al dato “puro” llegado desde el campo
u obtenido en el laboratorio. Podríamos decir por ejemplo cuál
es la
proporción de observaciones que se encuentran en una
clase, al utilizar la frecuencia relativa; cuál es el
porcentaje de
observaciones que pertenecen a una clase y a todas las previas,
si utilizamos la frecuencia relativa acumulada multiplicada por
cien; o, qué porcentaje de observaciones pertenecen a las clases
siguientes a la i-ésima si utilizamos (1-F
i/n).100, etc., etc.

Hemos ya dado un paso relevante en la exploración estadística
de
datos, los comenzamos a convertir en información.

Recomendamos siempre utilizar los valores de las frecuencias
relativas y no valores de las frecuencias absolutas; la razón de
esta sugerencia será obvia cuando en capítulos subsiguientes
hagamos inferencias estadísticas sustentadas en principios
probabilísticos. Las frecuencias absolutas deben ser utilizadas
como valores de paso, cuya utilidad es al final obtener valores
relativos con los que se puedan efectuar generalizaciones.


Ejemplo 1.5

Se tiene un conjunto de n = 50 datos que luego de ordenarlos,
configuran la siguiente muestra:

2334
56679
10 10 12 13 14 14 15
15 15 16 16 17 17 18 18 18 19 19 19
21 21 23 24 24 25 25 25 25
27 28 28 29 29
31 32 33 35 35
36 39 39


Estos cincuenta datos representan el número de fallas
cosméticas y estructurales detectados en los edificios de una

13
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
comunidad urbana que va a ser regenerada por la
municipalidad del cantón. Construir la correspondiente Tabla
de Frecuencias.

Desarrollo.

Dado el resultado del ordenamiento notamos que X
(1)= 2 y
X
(50)= 39. De igual manera optamos por construir k = 8 clases
de longitud cinco unidades, siendo la primera definida por el
intervalo [0, 5), su marca de clase es
5.2
2
50
=
+; su frecuencia
absoluta es cuatro y la frecuencia relativa de esta clase es
080.0
50
4
=; la frecuencia acumulada absoluta F1 es cuatro y la
frecuencia acumulada relativa es también 0.080 por ser la
primera clase y por tanto no existe clase previa.

Para la segunda clase , como puede verse en la Figura 1.5, la
frecuencia absoluta f
2 es cinco; la frecuencia relativa es 0.10 ;
la frecuencia acumulada absoluta F
2 es nueve y la marca de
clase 7.5. Véanse detalles en la figura que se presenta a
continuación. ♦

Figura 1.5
Tabla de Frecuencias

Ordinal Clase
Marca de
Clase
Frecuencia
Absoluta
Frecuencia
Relativa
Frecuencia
Absoluta
Acumulada
Frecuencia
Relativa
Acumulada
1 [0,5) 2.5 4 0.080 4 0.080
2 [5,10) 7.5 5 0.100 9 0.180
3 [10,15) 12.5 6 0.120 15 0.300
4 [15,20) 17.5 13 0.260 28 0.560
5 [20,25) 22.5 5 0.100 33 0.660
6 [25,30) 27.5 9 0.180 42 0.840
7 [30,35) 32.5 3 0.060 45 0.900
8 [35,40) 37.5 5 0.100 50 1.000



1.5.- GRÁFICOS DE FRECUENCIAS
A partir de una tabla de frecuencias obtenida para una muestra
X de tamaño n,

X
T
= (X1 X2... Xn)

es posible construir representaciones gráficos que revelan de
manera sencilla, mucho de la información contenida en la
misma. Entre estas representaciones están los
histogramas de
frecuencia
, polígonos de frecuencia, ojivas y diagramas de
caja
, que pasamos a describir a continuación.

14
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Un histograma de frecuencia es un gráfico bidimensional de
“barras” en cuyo eje horizontal están señaladas las k clases que
se han determinado para construir la Tabla de Frecuencia; en el
eje vertical se representan las frecuencias relativas de cada
clase. El gráfico contendrá k barras cuyo “ancho” coincide con
la longitud de la clase y cuya “altura” es igual la frecuencia
relativa de la clase. El histograma de frecuencia, debe ser
graficado de tal manera que se respeten las escalas, nos presenta
una imagen visual acerca de la información relacionada con la
proporción de observaciones en cada clase, las comparaciones e
interrelaciones que con ellas pueden hacerse. Véase
Figura 1.6
la misma que corresponde a los cincuenta datos presentados en
el Ejemplo 1.5. Son ocho clases de longitud cinco, la primera de
las cuales es [0,5) y la última (octava) es [35,40)

Figura 1.6
Histograma de Frecuencia
















Un gráfico derivado del correspondiente histograma de
frecuencia, es el
Polígono de frecuencia, que resulta al
determinar un polígono, utilizando como vértices del mismo, los
puntos centrales superiores de las barras del histograma. Para
obtener intersección entre el polígono y el eje horizontal se
crean artificialmente dos nuevas “clases”, una antes de la
primera, a la cual llamaremos “clase cero” y otra luego de la
última, que pasa a ser la “clase (k+1)-ésima”. De esta manera, el
primer vértice del polígono lo situamos en la marca de clase de
la clase cero y el último vértice en la marca de clase de la clase
(k+1)-ésima. Véase
Figura 1.7 en que se construye un Polígono
de Frecuencia con los datos del Ejemplo 1.5.

El polígono de frecuencia en términos generales contiene
información similar que la presentada por el histograma de
frecuencias, sin embargo es recomendable construirlo si la
característica que se investiga en la población objetivo, es
continua.
Histograma de
Frecuencia
Gráfico bidimensional
de “barras” en cuyo
eje horizontal están
señaladas las k clases,
y en el eje vertical se
representan las
frecuencias relativas
de cada una de ellas
Polígono de
Frecuencia
Gráfico derivado del
histograma de
frecuencia que utiliza
como vértices los
puntos centrales
superiores de las
barras del histograma
y que para obtener la
intersección con el eje
horizontal crea
artificialmente dos
nuevas “clases”.
0,000
0,050
0,100
0,150
0,200
0,250
0,300
[0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40)
Inte r valos de Clas e
Frecuencia Relativa
X

15
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones

Figura 1.7
Polígono de Frecuencia















Uno de los mas útiles gráficos en Estadística es la
Distribución
de Frecuencia Acumulada
o simplemente Ojiva. Este esquema
gráfico, representa en el eje horizontal la característica
cuantitativa X, que estamos investigando y ubica sobre el
mismo eje, las k clases en que hemos decidido organizar la
muestra de tamaño n, o podríamos decir también la muestra
constituida por n observaciones. En el eje vertical ubicamos la
frecuencia acumulada relativa.

Obviamente que los valores en el eje horizontal dependen de la
característica X que medimos; pueden ser dólares si en una
“Encuesta de Hogares” investigamos los ingresos de n hogares
que constituyen una comunidad; pueden ser centímetros si
medimos la estatura de n estudiantes; gramos si lo que hacemos
es pesar n camarones que hemos tomado de una piscina de
acuicultura, o, resistencia a fuerzas cortantes de un material si
en un laboratorio de Mecánica de Sólidos investigamos tal
característica. En el eje vertical, no importa qué se investigue,
allí se ubica la frecuencia acumulada relativa, esto significa que
solo se utilizarán, en este eje, valores que comiencen en cero y
terminan siempre en uno.

Recordando que la muestra con la que tratamos ya ha sido
ordenada y que además se supone ya tenemos determinadas las
k clases que se necesitan; el gráfico de una Ojiva se construye
determinando (k+1) puntos y luego conectándolos de manera
sucesiva y con trazos continuos, de la siguiente manera:

El primer punto tiene coordenadas (a
1, 0) donde a1 es el extremo
inferior de la primera clase, el segundo punto tiene coordenadas
(a
2, F1/n) siendo a2 el extremo inferior de la segunda clase; el
tercer punto tiene coordenadas (a
3, F2/n) y así sucesivamente
hasta llegar al penúltimo punto que tiene como coordenadas (a
k,
Distribución de
Frecuencia
Acumulada (Ojiva)
Gráfico que
representa en el eje
horizontal la
característica
cuantitativa X que se
está investigando y en
el eje vertical la
frecuencia acumulada
relativa
0,000
0,050
0,100
0,150
0,200
0,250
0,300
[0,5) [5,10) [10,15) [15,20) [20, 25) [25,30) [30,35) [35,40)
Inte r valos de Clas e
Frecuencia Relativa
X

16
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Fk-1/n); siendo el último punto el que tiene coordenadas (ak+1,
F
k/n).

El gráfico de una ojiva es continuo; recuérdese además que F
k/n
es igual a uno. Obsérvese la
Figura 1.8

Figura 1.8
Distribución de Frecuencia Acumulada (Ojiva)
















La Ojiva es utilizada con profusión para comparar situaciones
en las que bajo distintas circunstancias o a distintos entes se
mide una misma característica; por ejemplo, el ingreso mensual
en dos distintas comunidades de los jefes de hogares o las notas
en dos distintas materias que obtiene un mismo grupo de
estudiantes. Obsérvese en la
Figura 1.9, las ojivas A y B. Si
ellas representaran los ingresos en dólares de dos comunidades,
¿En cuál de las dos quisiera usted vivir?. Si se tratara de las
notas obtenidas por un mismo grupo humano en dos cursos
diferentes que han tomado en una universidad ¿Cuál curso
presenta mayor grado de dificultad para aprobarlo?.

Figura 1.9
Ingresos en dólares de Dos Comunidades (A y B)













0
0,25
0,5
0,75
1
4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 68
Frecuencia Acumulada Relativa
Q1Q2Q3 Q1Q2 Q3
X
AB
0
0,25
0,5
0,75
1
4 8 12 16 20 24 28 32
Frecuencia Acumulada Relativa
Q1Q2 Q3
X

17
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
1.6.- CUANTILES DE UNA MUESTRA


1.6.1.- Definiciones y determinación gráfica


La Ojiva es además un excelente instrumento para ilustrar
definiciones de orden cuantitativo que se efectúan cuando se
exploran estadísticamente los datos de una muestra ordenada,
para obtener la información en ella contenida.

Como definición diremos que el
Primer Cuartil o Cuartil
Inferior
de una muestra en la que se investiga una
característica continua X, es un valor Q
1 de X, tal que no mas
del veinticinco por ciento de las observaciones en la muestra
ordenada toman valores menores o iguales que Q
1.

En tanto que el
Segundo Cuartil o Cuartil Central de una
muestra
se denota por Q2 y se lo define como el valor de X tal
que, no mas del cincuenta por ciento de los valores en la
muestra son menores o iguales que Q
2.

Al
Tercer Cuartil o Cuartil Superior de una muestra se lo
denota Q
3 y se lo define en términos del setenta y cinco por
ciento de los elementos en la muestra tomando valores menores
o iguales que Q
3, o equivalentemente el veinticinco por ciento
de los valores en la muestra son mayores que Q
3.

A los tres cuartiles definidos se los puede representar en una
ojiva muy claramente como se bosqueja en la
Figura 1.8

Se tiene en esta figura una ojiva y en el eje vertical marcados los
valores 0.25; 0,50 y 0.75. Para ubicar, sobre el eje horizontal, el
valor del primer cuartil Q
1, se traza un segmento de recta
horizontal que contenga al punto
A de coordenadas (0, 0.25) y
que sirve además para determinar el punto
A´ en el que la ojiva
y la recta tiene su intersección; incluyendo
A´ se traza un
segmento de recta perpendicular al eje horizontal; en la
intersección del segmento con este eje se encuentra el valor Q
1,
que es el Primer Cuartil.

Nótese que el Primer Cuartil Q
1 no es un punto sobre el plano
sino una coordenada sobre el eje horizontal, esto es, Q
1 es un
valor numérico.

Utilizando el mismo procedimiento constructivo, se determinan
gráficamente Q
2 y Q3 esto es, los cuartiles segundo y tercero ya
definidos.

Al segundo cuartil de la muestra se lo denomina también
Mediana Muestral y en secciones venideras abundaremos
sobre este valor y la forma de calcularlo.
Primer Cuartil (Q1)
Valor de X tal que
nos mas del
veinticinco por ciento
de las observaciones
en la muestra toman
valores menores o
iguales que Q
1
Segundo Cuartil
(Q
2)
Valor de X tal que
nos mas del cincuenta
por ciento de las
observaciones en la
muestra son menores
o iguales que Q
2
Tercer Cuartil (Q3)
Valor de X tal que el
setenta y cinco por
ciento de los
elementos en la
muestra toman
valores menores o
iguales que Q
3

18
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones

Así como se definieron tres cuartiles, es posible definir nueve
Deciles y noventa y nueve Percentiles de la muestra.

Los deciles muestrales se los denota D
1, D2, D3, hasta D9;
pudiendo decirse que cuando mas el diez por ciento de los
elementos en la muestra toman valores menores o iguales al
Primer Decil D1; el veinte por ciento de los elementos en la
muestra toman valores menores o iguales a D
2; y así hasta llegar
al
Noveno Decil, D9, cuando el noventa por ciento de las
observaciones que conforman la muestra toman valores
menores o iguales que D
9.
Se encarga al lector determinar el significado de los percentiles
muestrales P
1, P2, ..., P99; indicando que el uno por ciento de los
elementos en la muestra toman valores menores o iguales que
P
1, el Primer Percentil de la muestra, y que el noventa y nueve
por ciento son menores o iguales que P
99 el Nonagésimo
Noveno Percentil
de la muestra. De igual manera se exhorta al
lector a ubicarlos en el eje horizontal de una ojiva.

Es procedente decir que Q
1 = P25, que Q2 = D5 = P50 o que Q3 =
P
75.

De igual manera puede complementarse lo hasta aquí expresado
sobre estos
cuantiles, esto es percentiles, deciles y cuartiles, que
cuando mas, el setenta y cinco por ciento de las observaciones
en la muestra toman valores mayores a Q
1; que el cincuenta por
ciento de las observaciones “centrales” de la muestra se
encuentra entre Q
1 y Q3; que el noventa por ciento de los
valores observados está entre P
5 y P95, o que el sesenta por
ciento de las observaciones se encuentran entre D
2 y D8.

Insistimos, los cuantiles de una muestra
no son puntos en el
plano
, son valores numéricos; además los cuantiles no tienen
que necesariamente ser valores que pertenezcan a la muestra.

Téngase en cuenta que la ojiva es una función creciente en X, en
realidad monótona creciente, y por tanto cuando se la utiliza
para estimar cuantiles, éstos quedan determinados
unívocamente.


1.6.2.- Diagrama de caja

Un subproducto de la ojiva una vez que se han determinado los
cuartiles muestrales, es el denominado
Diagrama de Caja,
esquema gráfico que nos permite obtener de manera rápida,
aunque no necesariamente exacta, la distribución de los datos
que conforman la muestra. Véase la
Figura 1.10

19
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Figura 1.10
Diagrama de Caja








Si bien este diagrama comúnmente se lo “adosa” a una ojiva, es
posible presentarlo aislado, tal cual se lo hace en la
Figura 1.10,
siempre que se tengan los valores correspondientes a Q
1 , Q2 y
Q
3, así como los valores máximo y mínimo en la muestra, esto
es X
(n) y X(1).

En la
Figura 1.10 se presenta un Diagrama de Caja; como
puede verse está constituido por un rectángulo (caja) y dos
segmentos de recta (bigotes).

La longitud de la caja es Q
3 – Q1; el bigote del lado izquierdo
del lector se inicia en el valor mínimo X
(1) y termina en Q1,
mientras que el bigote del lado derecho comienza en Q
3 y
termina en X
(n).

El segmento de recta punteado, al interior de la caja, determina
el valor de la Mediana o Segundo cuartil Q
2.

En la presencia de
Valores Extremos o Valores Aberrantes,
se debe reconceptualizar la construcción del Diagrama de Caja,
y en particular la longitud de los bigotes. Sobre este tema
volveremos en próximas secciones.



1.7.- ALGORITMOS PARA EL CÁLCULO DE CUANTILES


Dada una muestra X
T
= (X1 X2... Xn) de tamaño n, el valor
mínimo X
(1) (o cualquier estadístico de orden i) puede ser
también visto como un cuantil, puesto que la proporción p =1/n
de los datos observados son menores o iguales a X
(1).
Recuérdese que de igual manera podemos decir que el (1/n)100
por ciento de los elementos de la muestra son menores o iguales
a X
(1) . Puede ocurrir eso sí, que el valor (1/n)100 =100/n no sea
un número entero y nos enfrentaríamos a un cuantil de tipo aun
no definido, particular que trataremos de superar en esta
sección.

Consideremos dos estadísticos de orden que sean consecutivos,
llamémoslos X
(i) y X(i+1); i = 1,2,…,n-1 si definimos el
Diagrama de Caja
Esquema gráfico que
nos permite obtener
de manera rápida,
aunque no
necesariamente
precisa, la
distribución de los
datos que conforman
muestra

1
0.00 10.00 20.00 30.00 40.00
Q1 Q2 Q3
X(1) X(n)
• • • • X

20
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
promedio X(i) y X(i+1) , esto será denotado como X(i.5) y
explícitamente:

X
(i.5) = ( X(i)+ X(i+1))/2 = X(i) +( X(i+1)- X(i))/2 ;

= X
(i) + 0.50( X(i+1) - X(i)) ; i = 1,2,…,n-1

De manera similar podemos definir:

X
(i.2 ) = X(i) + 0.20( X(i+1) - X(i)); i = 1,2,…,n-1.

X
(i.4) = X(i) + 0.40( X(i+1) - X(i)); i = 1,2,…,n-1. ; ó,

X
(i.95) = X(i) + 0.95( X(i+1) - X(i)); i = 1,2,…,n-1.

Podríamos, en general, definir X
(i.a), de la siguiente manera:

X
(i.a) = X(i) + 0.a( X(i+1) - X(i)); i = 1,2,…,n-1 , a real positivo.

No intentamos darles nombres específicos a estos estadísticos de
orden, pero su significado es aparentemente obvio.

Ejemplo 1.6

Supongamos que una muestra de tamaño n=5 es

X
T
= (2 3 8 7 4).

Aquí la muestra nos permite determinar que, X
(1) = 2; X(2) = 3;
X
(3 )= 4; X(4) = 7, y que X(5) = 8.

El estadístico de orden m es X
(m) = X(n+1)/2, donde definimos
m como igual a (n + 1)/2; en este caso m es (5+1)/2=3; por
tanto X
(m) es X(3) =4 , que en este caso (n es un número
impar) es el segundo Cuartil Muestral Q
(2) o también conocido
como Mediana de la Muestra.

Alteremos un poco la muestra previamente analizada y
supongamos que ella ahora es X
T
= (2 3 8 5 7 9) y
nuevamente intentemos calcular X
(m).

Tenemos en la nueva muestra X
(1 )= 2; X(2) = 3; X(3) = 5; X(4)
= 7, X(5 )= 8 y X(6) = 9.

Siendo ahora n=6, m ya no es un número entero sino que es
igual a 3.5. Para calcular Q
2 debemos determinar por tanto
X
(3.5) , que es el valor que le corresponde a Q(2) Procedamos,
primero de la manera tradicional y luego aplicando la
definición de X
(i.a) :

Q
2 = (X(4)+ X(3))/2 = 0.5( 7+5)=6.

De igual manera

21
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Q(2) = X(3.5) = X(3) + 0.5( X(4) - X(3)) = 5 + 0.5( 7-5) = 6 ♦

E
n el caso de la primera muestra su mediana es 3 y a su vez es
válido decir que la mediana muestral
es un valor que pertenece
a la muestra
, en el segundo caso la mediana es 6 y este valor, no
pertenece a la muestra. En el primer caso el
tamaño n de la
muestra es impar
y en el segundo es par.

Así como hemos calculado el segundo cuartil de la muestra,
puede calcularse el primero Q
1 o el tercero Q3 haciendo m =
0.25(n+1) ó m = 0.75(n+1) respectivamente, sin importar si el
tamaño es par o impar.

Siguiendo este patrón se puede determinar los percentiles
muestrales que definiéramos previamente y que pasamos a
ilustrar a continuación.

Se aconseja nunca perder el sentido de la realidad.

Ejemplo 1.7

En un laboratorio de Química Analítica se determina el número
de partes por millón de un metal pesado que se encuentra
disuelto en las aguas de un río del litoral ecuatoriano. Luego de
efectuar veinte observaciones se obtiene una muestra que es la
siguiente.

X
T
= ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)

Para esta muestra determinar el primer Decil, el Primer Cuartil,
Tercer Cuartil, la mediana y el percentil noventa y cinco
(nonagésimo quinto).

Desarrollo.

Muestra ordenada

2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12


Sea m = 0.1(n+1) = 0.1(21) = 2.1

D
(1) = X(2,1) = X(2) + 0.1(X(3) - X(2))
= 3 + 0.1(3 - 3)
= 3

Sea m = 0.25(n+1) = 0.25(21) = 5.25

Q
(1) = X(5,25) = X(5) + 0.25(X(6) - X(5))
= 4 + 0.25(4 - 4)
= 4

Sea m = 0.75(n+1) = 0.75(21) = 15.75

22
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones

Q
(3) = X(15,75) = X(15) + 0.75(X(16) - X(15))
= 9 + 0.75(9 - 9)
= 9

Sea m = 0.5(n+1) = 0.5(21) = 10.5

Mediana = Q
(2)

Q
(2) = X(10,5) = X(10) + 0.5(X(11) - X(10))
= 6 + 0.5(7 - 6)
= 6.5

Sea m = 0.95(n+1) = 0.95(21) = 19.95

P
(95) = X(19,95) = X(19) + 0.95(X(20) - X(19))
= 11 + 0.95(12 - 11)
= 11.95 ♦



1.8.- MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN

1.8.1.- La media aritmética y otras medidas de Tendencia Central


Las tablas de frecuencias y los gráficos y diagramas que hasta
ahora hemos construido, nos han dado una representación visual
de lo que es la información contenida en una muestra y los
cuantiles alguna información cuantitativa de la misma, sin
embargo, aun no hemos puesto suficiente énfasis en el análisis
cuantitativo de la información contenida en los n datos
muestrales. Comencemos por buscar un valor numérico que
pudiera sintetizar o representar todos los datos, estamos
hablando de la
Tendencia Central o de la Medida de Posición
de los mismos.

El primero y mas utilizado por su facilidad para calcularlo y
“por la noción intuitiva ” del mismo es lo que se denomina
Media Aritmética de la Muestra, se lo denota
xy se lo
define como el promedio de los n datos contenidos en la misma,
esto es:
x= (X1 + X2 + ... +Xn)/n =∑
=
n
1i
i
n/X

También es una medida de posición o tendencia central el
Segundo Cuartil Q2 o Mediana Muestral, que ya hemos
presentado, de manera informal cuando construíamos la Ojiva
Muestral; y, de manera formal cuando presentamos la forma de
calcular percentiles utilizando estadísticos de orden.

Media Aritmética
Promedio de los n
datos contenidos en la
muestra

Mediana (Q2)
Valor de X tal que
cuando mas el
cincuenta por ciento
de las observaciones
en la muestra toman
un valor menor o
igual a él

23
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Dijimos que Q2 es también el percentil cincuenta y por tanto,
cuando mas el cincuenta por ciento de las observaciones toman
un valor menor o igual a él. También dijimos que Q
2 es el
estadístico de orden m, siendo m=(n + 1)/2, donde como
siempre en el contexto de esta capítulo, n es el tamaño de la
muestra en consideración. Esto significa que

Q
2 = X([n + 1]/2)

Hay quienes hacen análisis exploratorio de datos y prefieren
definir la mediana muestral, considerando si el tamaño de la
muestra es par o impar, en cuyo caso señalan que la mediana Q
2
es el promedio de los estadísticos de orden X(n/2) y X([n/2]+1) si n
es par; y, que es igual a X
([n +1]/2) si n es impar. Nótese que las
definiciones son equivalentes, cuando hemos definido
estadísticos de “orden racional positivo” como X
(i.5) y no solo
de orden entero positivo como X
(i).

Sobra decir que estamos hablando de una
muestra ordenada,
caso contrario no estaríamos en capacidad de determinar
estadísticos de orden.

Otra medida de tendencia central con alta frecuencia utilizada es
la
Media Ponderada de la Muestra, la denotaremos por Mw.
Cuando calculamos la media aritmética, cada observación X
i
tiene igual “peso” o ponderación, en el procedimiento que se
utiliza para determinarla; lo contrario ocurre para determinar
esta nueva medida de posición que pretendemos introducir, para
calcularla, cada observación tiene un peso w
i, condicionado a
que la suma de los n pesos sumen uno. Definimos de esta
manera a la Media Ponderada M
w de la muestra de la siguiente
manera:
M
w = w1X1 + w2X2 + … + wnXn. = ∑
=
n
1i
ii
Xw
; i=1,2,…,n;

=
=
n
1i
i
1w


Los casos de utilización de esta medida de posición son
abundantes, los vive por ejemplo, un estudiante cuando al
iniciar el semestre su profesor le indica como va a ser calculada
su nota, sobre cien puntos, del curso que toma. Si le dice que
obtendrá cinco por ciento por tareas realizadas fuera de clase,
veinticinco por ciento por lecciones rendidas en clase y el resto
por un examen; esto significa que su nota es una
media
ponderada
de tres notas sobre cien , donde w1=.05; w2 =.25 ; y,
w
3=.70 . En tanto que X1 es la nota que sobre cien obtenga por
“tareas”; X
2 es lo que obtendría, sobre cien, por lecciones; y, X 3
es su nota del examen, también sobre cien.

Media Ponderada
Sumatoria de cada
observación X
i
multiplicada por su
peso o ponderación
correspondiente w
i

24
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Por tanto su nota ponderada, Mw es:

M
w = w1X1 + w2X2 +w3X3

Nótese que en principio, la media aritmética es una media
ponderada, solo que los ponderadores toman el mismo valor,
esto es:
w
1 = w2 = ... = wn =
n
1



1.8.2.- La media y la mediana de una misma muestra


Es evidente que si se toman datos en una investigación es para
que sean aprovechados lo mas posible; como medida de
tendencia central la media aritmética utiliza cada una de las
observaciones en la muestra, en tanto que la mediana utiliza
cuando mas dos de ellas, claro está que de una muestra
ordenada.

Puede por tanto decirse que para la determinación de la media
aritmética se utilizan todos los datos contenidos en la muestra,
sea esta ordenada o no, en tanto que para calcular la mediana,
no se lo hace; esto permite a muchos pensar que debe preferirse
siempre la media aritmética a la mediana, pero no es tanto así,
puesto que en presencia de
valores extremos o aberrantes, el
efecto de éstos sobre la mediana es imperceptible en tanto que el
valor de la media aritmética se ve afectado de manera notoria,
pudiendo en el último caso, no ser la media aritmética muestral
una buena medida de lo que es la verdadera tendencia central
que se trata de determinar.
Recuérdese que los valores aberrantes ocurren por múltiples
razones, unas indeseables y otras inevitables. Entre los
indeseables aparecen los errores de lecturas que se dan en el
operativo de campo o en el laboratorio durante investigación,
donde, por ejemplo, se apunta una estatura de 2.45 metros para
una unidad de investigación, cuando se debió apuntar 1.45; o,
en la digitación, donde en el reporte de campo aparece 1.45,
pero al digitar se lo ingresa como 2.45. Estos errores no
estadísticos o “ajenos al muestreo” se los debe detectar en una
de las etapas de una encuesta o experimento, que se denomina
“Crítica de Datos” la misma que se efectúa antes y después de
la digitación. Antes, para tener la oportunidad de volver al
laboratorio y verificar cualquier valor que se salga del patrón
que muestren los datos; y, después de la digitación porque no
siempre “el dedo humano” ingresa lo que corresponde o porque
el lector óptico puede, por mala caligrafía o efectos
ambientales, interpretar una cantidad por otra.

25
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
1.8.3.- La Media Cortada de una muestra

Un remedio que se ha sugerido para obviar la sensibilidad de la
Media Aritmética a los datos aberrantes y al mismo tiempo
poder utilizar la mayor cantidad de datos contenidos en la
muestra, es la construcción de otra medida de tendencia central
a la que se denomina
Media Cortada de la Muestra; se la
denota por T
α y se la define como la media aritmética del (1-
α).100 por ciento de los datos, suprimiendo, en una muestra
ordenada,
2
α
%100de datos de la “parte superior” y
2
α
%100de
la “parte inferior” en la muestra. Este “recorte” supone que los
valores extremos, si existen, no serán considerados en el cálculo
de T
α.

Aunque con una muestra restringida, se aspira que la Media
Cortada disfrute simultáneamente de las “virtudes” de la Media
Aritmética y la Mediana, esto es, utilización máxima de los
datos disponibles e insensibilidad a valores extremos. Lo usual
es tomar
α= 0.10 es decir, se calcula T.10.

Ejemplo 1.8


En el Ejemplo 1.7 se consideró la siguiente muestra,

X
T
= ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)

Calcular la media aritmética, la mediana y la media cortada
T
.10.

Desarrollo.
x= (X1 + X2 + ... +X20)/20 =∑
=
20
1i
i
20/X
= (7+12+10+3+4+7+3+9+6+9+2+4+6+4+4+9+7+4+7+11)/20
=6.40

Ordenando la muestra, ésta queda compuesta por:

2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12

Esto es:

X
(1 )= 2; X(2 )= 3; X(3) = 3;…; X(19) = 11; X(20) = 12;


Para calculara la media cortada X
.10, debemos prescindir, en la
muestra original, de X
(1) = 2 y de X(20) = 12, por lo que el
noventa por ciento restante de la muestra X es el vector,

Y
T
= (3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11)

Media Cortada de la
Muestra
Media aritmética del
(1-α)100% por ciento
de los datos

26
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Resultando así que X.10 es:

X
.10 = (3+3+4+4+4+4+4+6+6+7+7+7+7+9+9+9+10+11)/18 =
6.3333

Calculando la mediana Q
(2) = X(10.5) = X10 + 0.5(X(11) – X(10)) =
5.5. En síntesis, la media aritmética de la muestra es 6.40; la
media cortada X
.10 es 6.33 y la mediana muestral es 5.5, de tal
manera, la moda de la muestra, que es el valor que mas se
repite es 4, pues aparece cinco veces en la muestra. ♦

En capítulos posteriores hablaremos de cómo evitamos,
determinando T
α , una posible “contaminación” de la muestra y
que el valor de T
α que lo que obtenemos es un “estimador
robusto
” del “verdadero” parámetro µ que mide la tendencia
central de la población.


1.8.4.- Medidas de Dispersión

Tener la medida de lo que es la tendencia central es importante,
pero no basta; no podemos sorprendernos que dos muestras que
posean conformación numérica distinta tengan la misma media
aritmética pero represente, estadísticamente, muy diferentes
realidades. Veamos las cuatro siguientes muestras:

X1
T = (1 2 3); X2
T = (-5 2 9);

X
3
T = (-10 -3 0 2 3 20); X4
T = (0 2 4)

Ellas poseen algo en común, las cuatro tienen la misma media
aritmética, que es dos, pero difieren en su conformación
numérica; nótese que incluso la tercera tiene un tamaño, seis,
que es distinto al que tienen las demás, que es tres.

El mensaje aquí parecería ser:
una medida de tendencia central
es relevante pero, no lo dice todo
; en realidad falta algo mas.

Vamos a observar la
distancia desde cada uno de los valores Xi
en la muestra a la media aritmética
x, esto es,

d(
Xi ,
x) =⎟ Xi -x⎟

Recordando que en todos los casos del ejemplo bajo análisis las
muestras tienen media aritmética igual 2, tenemos para la
primera muestra: d(1,2) = 1 ; d(2,2) = 0 y d(3,2) = 1.

Para la segunda muestra d(-5,2) = 7 ; d(2,2) = 0 y d(9,2) = 7.

Para la tercera muestra d(-10,2) = 12 ; d(-3,2) = 5 ; d(0,2) = 2;
d(2,2) =0 ; d(3,2) =1 y d(20,2) = 18.

27
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones

Para la cuarta muestra d(0,2) = 2 ; d(2,2) = 0 y d(4,2) = 2.

Si sumásemos las distancias de la media aritmética a cada
observación obtendríamos una medida de cuan “lejos” o
dispersos se encuentran cada uno de los datos muestrales con
respecto a la media.

Para el primer caso tal suma de distancias es 2; para el segundo
14; para el tercero 38, y para el último 4. Véase
Figura 1.11 que
ilustra de manera gráfica lo que de manera numérica hemos
determinado.

Figura 1.11
Cuatro Rectas representando cuatro Muestras señalando las
Distancias











Puede creerse que el número de observaciones en la tercera
muestra obligó a que la suma de las distancias sea mayor, pero
aunque es necesario reconocer que el número de observaciones
puede influir en la medida de la dispersión de una muestra,
piénsese en una muestra en la que todas las observaciones
tomen el mismo valor, sin importar el tamaño de la muestra,
siempre la suma de las distancias que hemos definido será cero.
Nótese que esta suma de distancias bajo ninguna circunstancia
puede ser negativa, pues se trata de sumas de distancias
“euclideanas” que como tal están definidas en términos de
valores absolutos de números reales.

Con esta idea de
dispersión con respecto a la media aritmética
que hemos desarrollado en líneas previas, trataremos de
construir de una manera explícita, una o varias medidas para
cuantificar esta característica implícita en toda muestra.

En primer lugar la dispersión es un valor relacionado o relativo
a otro valor, pero este último no tiene necesariamente que ser
la media aritmética, puede ser algún otro pero tiene sus ventajas
que sea la media o al menos un valor que mida la tendencia
central de la muestra.

01 23
0
2 9-5
0-3
23
20
0
2 4
X1
X
2
X3
X4

28
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Ejemplo 1.9

Dada una muestra X
T
= (X1 X2 … Xn), determinar la media y
la varianza de una muestra y que consiste de las n
observaciones cuantitativas de la muestra X a las que se les
resta su media aritmética.

Desarrollo.

Para el caso dado,

Y
T
= [ (X1 -
x) (X2 - x) … (Xn - x) ]
= (Y
1 Y2 … Yn)

Por lo que,
y= ∑
=
n
i
i
nY
1
/ =

=

n
1i
i
n/)xX(
=
n
1
[ (X1 -
x) + (X2 - x) + … + (Xn - x)
=
n
1
[ (X1 + X2 + … + Xn) - n
x)
=
n
1
[ n
x - nx] = 0

Por lo tanto, si Y
i = Xi -
x, i = 1, 2, …, n, entonces:

y= 0

Como ilustración numérica,

Si X
T
= (1 2 3 4), entonces
x=2.5
Si Y
i = Xi -
x , esto es Y
T
= (-1.5 -0.5 0.5 1.5)
Por lo que Y = 0 ♦


L
o primero que se nos ocurriría para medir la dispersión sería
una expresión del tipo
)xX(
n
1i
i

=
− , pero existe un inconveniente;
no importa cuál sea la muestra, como ya hemos visto, siempre
es cierto que,

)xX(
n
1i
i

=
−= (X1 -
x) + (X2 -x) + ... + (Xn-x)
=
ΣXi - n
x= nx- nx= 0

Por lo tanto éste es un resultado muy relevante, sobre todo para
simplificar cálculos, pero no lo es para medir dispersión.

29
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Ésta es la razón fundamental por la que para estos fines se usan
sumas cuadráticas del tipo )xX(
n
1i
i

=

2
; y, la primera medida de
dispersión con respecto a la media que utilizaremos será la
Varianza Muestral s
2
que se la define como:


s
2
=
)xX(
n
1i
i

=

2
/( n –1)


Este valor no puede ser negativo y será cero cuando y solo
cuando, todas las observaciones adopten el mismo valor, lo cual
significa que la media es igual a tal valor y cada una de las
diferencias que constituyen la suma cuadrática son cero.
La medida de dispersión así definida no viene dada en las
mismas unidades que los valores observados, sino en unidades
cuadráticas, es decir, que si medimos cantidad de precipitación
pluvial en centímetros cúbicos, la varianza estará en
centímetros cúbicos al cuadrado. Por esta razón es común
utilizar la raíz cuadrada positiva de la varianza; medida a la que
llamamos
desviación estándar o desviación típica de la
muestra
. Se la denota por s y se la define como ya indicáramos,
igual a la raíz cuadrada positiva de la varianza,


s =
1n
)xX(
2
i


+



Una pregunta que surge inmediatamente después que se repara
en cómo está definida la varianza muestral, es la presencia en el
denominador de (n-1) cuando nuestra intuición nos dice que
mas naturalmente “se ve” n, como es el caso de la Media
Aritmética. Una respuesta parcial es “podríamos haberlo
utilizado” y de hecho se lo utiliza, pero la respuesta con soporte
teórico vendrá en capítulos posteriores, cuando estudiemos
“estimación de parámetros poblacionales”, mientras tanto
utilizaremos axiomáticamente (n-1) en el denominador de la
definición de la varianza muestral.

Ejemplo 1.10

Considérese la muestra previamente estudiada,

X
T
= ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)

Calcúlese su varianza y desviación típica.

Desarrollo.
Varianza Muestral
Medida de Dispersión
de una variable X con
respecto a la media

Desviación Estándar
Raíz cuadrada
positiva de la varianza

30
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones

Siendo n = 20 hemos encontrado que
40.6=x por lo tanto:

s
2
=
)xX(
n
1i
i

=

2
/( n –1)

s
2
= [(2 - 6.40)
2
+ (3 - 6.40)
2
+ … + (11 - 6.40)
2
+ (12 - 6.40)
2
]/19

s
2
= 8.36

De donde la desviación típica de la muestra es:

s =
1n
)xX(
2
i


+


s = +
89.236.8= ♦


1.8.5.- Media y Varianza de datos agrupados


No siempre es obvio para quien comienza a adentrarse en el
quehacer estadístico, cómo calcular la Media Aritmética o la
Varianza de datos agrupados; aunque en realidad explicando la
lógica tras del algoritmo todo parece sencillo.

Recordemos que la agrupación de datos se da en k clases y que
cada clase tiene una marca de clase. Llamemos Y
i a la i-ésima
marca de clase y supongamos que f
i es la frecuencia absoluta de
esa clase. Esto hace que
la Media Aritmética
X de los datos
agrupados
sea igual a:
x =∑
=
k
1i
fi Yi / n

En tanto que la varianza de los datos agrupados es igual a:

s
2
= ∑
=
k
1i
fi (Yi -
x)
2
/ (n –1)

Nótese que las sumatorias tienen k términos y no n.

Ejemplo 1.11

Durante cinco horas se efectúa un conteo de vehículos en una
calle que corre de norte a sur en Guayaquil. Se reportan datos
cada cinco minutos. En la primera columna de la tabla adjunta
consta la frecuencia con que ocurren valores en cada una de las
clases que se definen en la segunda columna. Cinco veces
“pasaron” entre cinco y quince vehículos; ocho veces entre
quince y veinticinco, y así hasta que cinco veces pasaron entre
sesenta y cinco y setenta y cinco vehículos. Calcular
xy s
2
.

31
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones

Figura 1.12
Tabla de Datos

Frecuencia
Absoluta
Clase
Marca de
Clase
5 [5,15) 10
8 [15,25) 20
10 [25,35) 30
15 [35,45) 40
10 [45,55) 50
7 [55,65) 60
5 [65,75) 70

Desarrollo.

Este es un caso de datos agrupados, n = 60 y k = 7

X= número de vehículos que “pasan” cada cinco minutos

Las correspondientes marcas de clase son: 10, 20, 30, 40,
50, 60, 70.

Por tanto:
x = ∑
=
k
1i
fi Yi / n , donde Yi son las ocho marcas de clase, no
las sesenta observaciones.

67.39
60
)70(5)60(7)50(10)40(15)30(10)20(8)10(5
x =
++++++
=

Calculando la varianza de estos datos agrupados.

023.288
160
)67.3970(5...)67.3920(8)67.3910(5
s
222
2
= −
−++−+−
=

Mientras que la desviación estándar S de los datos agrupados es:

s = +
97.16023.288 = ♦


1.8.6.- Media y Varianza de funciones de
X

Supóngase que dada una muestra X de tamaño n en la que se
investiga una característica X, definimos Y
i = αXi + β. Donde
α y β son constantes reales y el subíndice i varía de 1 hasta n.
Pretendemos encontrar el valor de la media y la varianza de
Y=
αX + β.

32
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Por definición:
Y = ∑
=
n
1i
Yi /n =∑
=
n
1i
(αXi + β)/n
=
α(∑
=
n
1i
Xi/n) + nβ/n = α
x+ β .

Por lo tanto la media aritmética de Y es igual a α que multiplica
a la media aritmética
x de X, mas el valor de la constante β.

De manera similar se puede probar que el valor de la varianza
de Y, cuando
Y
i = αXi + β, es igual a:

Var(Y) = s
2
y
=∑
=
n
1i
[(αXi + β) −(α
x + β )]
2
/( n- 1)

= α
2

=
n
1i
(Xi −
x)
2
/( n- 1)
=
α
2
Var(X) = α
2
s
2
x
.

Lo cual significa que el coeficiente
α que multiplica a X aparece
de manera cuadrática en el valor de la varianza de Y, pero la
constante
β no afecta al valor de s
2
y
.


Ejemplo 1.12

Dada una muestra X
T
= (X1 X2 … Xn) “estandarizarla” y
calcular su media y su varianza.

Desarrollo.

“Estandarizar” una muestra significa definir una nueva
variables Y, en términos de los valores observados X, de tal
manera que:
s
xX
Y
i
i−
=


La muestra estandarizada sería por tanto,

Y
T
=















⎛−







⎛−







⎛−
x
n
x
2
x
1s
xX
...
s
xX
s
xX


Siendo s
x la desviación típica de X. Con lo desarrollado en el
ejemplo primero Y = 0; veamos cuanto resulta ser la varianza

() ()∑
=
−=
n
1i
2
i
2
y
1-nYYs

33
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
()() ()[]∑∑
==


=−−=
n
1i
2
xi
n
1i
2
xi
SxX
1n
1
YSxX
1-n
1

[]
2
y
n
1i
x
2
i
S1SxX
1n
1
==−

=∑
=


Consecuentemente, toda muestra estandarizada, tiene media
cero y varianza uno.

Si a la muestra X
T
= (1 2 3 4) la “estandarizamos” se
transforma en Y
T
=






−−−−
291.1
5.24
291.1
5.23
291.1
5.22
291.1
5.21


Puesto que
()()()()
291.13
2
5.24
2
5.23
2
5.22
2
5.21 =−+−+−+−=
⎥⎦

⎢⎣

x
S
.

Realizando los cálculos correspondientes, resulta que:

Y
T
=
( )1619.13873.03873.01619.1 −−

De donde y = 0 y,
( )∑
=
−=
4
1
2
3
1
s
2
i
Y
i
Y
y


( )( )( )( )
3
2
01619.1
2
03873.0
2
03873.0
2
01619.1 −+−+−−+−−
=


1
3
3
3
3500.11500.01500.03500.1
===
+++


Luego 1s0
s
=∧=⇒

=
y
x
i
iY
xX
Y ♦



1.9.- MÁS SOBRE DISPERSIÓN


1.9.1.- Simplificación de cálculos

Obviamente que también existe una Desviación Estándar
“cortada”
sα en la que se calcula el valor de la desviación,
eliminado el
α100% de las observaciones superiores e
inferiores, de la misma manera que señaláramos para la Media
Cortada T
α.

Es conocido que no siempre las expresiones que definen una
medida estadística son las más adecuadas para efectuar los
cálculos que permiten determinarla numéricamente, es el caso
de la Varianza Muestral. Optaremos por encontrar una expresión
Desviación Estándar
Cortada
Valor de la desviación
estándar muestral
eliminando α100% de
las observaciones
superiores e inferiores

34
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
que facilite el cálculo para que a un estudiante al igual que un
experto pueda programar en un lenguaje computacional.

Observemos que:

=
n
1i
(Xi −
x)
2
= ∑
=
n
1i
Xi
2 − 2
x∑
=
n
1i
Xi + n
x
2

de donde,
=

=
n
1i
Xi
2 − 2∑
=
n
1i
Xi/n∑
=
n
1i
Xi + n
x
2
=∑
=
n
1i
Xi
2 − [2(∑
=
n
1i
Xi)
2
/n]+ n(∑
=
n
1i
Xi)
2
/n
2
.
= [n

=
n
1i
Xi
2 − (∑
=
n
1i
Xi)
2
] /n

Este resultado nos permite calcular la varianza muestral de X de
una manera que computacionalmente es mucho más simple que
la dada en la definición:

s
2
x
=∑
=
n
1i
(Xi −
x)
2
/( n −1) = [n∑
=
n
1i
Xi
2 − (∑
=
n
1i
Xi)
2
]/n(n – 1)


Ejemplo 1.13

Calcular la varianza de la muestra X
T
= (1 2 3 4) aplicando
las expresiones determinadas en la presente sección.

Desarrollo.

Necesitamos ∑
=
n
1i
i
X y ∑
=
n
1i
2
i
X
=∑
=
4
1i
i
X 1 + 2 + 3 + 4 = 10

=
4
1i
2
i
X= 1
2
+ 2
2
+ 3
2
+ 4
2
= 1 + 4 + 9 + 16 = 30

Por tanto,

() =−∑
=
4
1i
2
i
xX[ 4(30) – (10)
2
]/4 = [120 - 100]/4 = 5

Por lo tanto
( )∑ ==−= 667.13/53/s
2
2
xX
ix


Verificándose además que s
x = 1.291 ♦

35
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
1.9.2.- Cuantiles y medidas de dispersión

Es también medida de dispersión el Rango Muestral R, que se
define como:

R= X
(n) - X(1)

Este valor mide la dispersión de la muestra en términos de sus
valores extremos, es decir con la longitud (mínima) de un
intervalo en el que se ubica el 100% de las observaciones que
constituyen la muestra.

Otra medida de dispersión es el denominado
Rango
Intercuartil,
RI, que se define como la diferencia entre el
tercer cuartil y el primero, determinando así la longitud de un
intervalo que incluye el “cincuenta por ciento central” de
observaciones en la muestra. El Rango Intercuartil
matemáticamente se lo expresa como:

RI = Q
(3) – Q(1) .


Ejemplo 1.14

En el ejemplo 1.8 se utiliza la muestra de tamaño 20,

X
T
= ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)

Determinar el Rango y el Rango Intercuartil de esta muestra.

Desarrollo.

Se determinó ya que X(1) = 2 y X(n) = X(20) = 12, por lo tanto
el rango muestral es
R = 12 – 2 = 10

Con los algoritmos estudiados en la sección 1.7 e ilustrados en
los Ejemplos 1.6 y 1.7 se encuentra que

Q
1 = X(5.25) = 4
y
Q
3 = X(15.75) = 9

Por lo que el Rango Intercuartil de la muestra es

R = 9 – 4 = 5 ♦


1.9.3.- Otros Diagramas y Representaciones Gráficas de una Muestra

Si bien los Histogramas de Frecuencia ya aparecen en los
medios de comunicación masiva y son asimilados por sus
Rango Muestral (R)
Diferencia entre el
valor máximo y el
valor mínimo de la
muestra
Rango Intercuartil
(RI)
Diferencia entre el
tercer cuartil y el
primero. Intervalo que
incluye el cincuenta
por ciento central de
observaciones en la
muestra

36
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
lectores o televidentes, las primeras y mas comprensibles
representaciones estadísticas que se popularizaron entre el gran
público, son los
“Pasteles”, que no son mas que círculos cuya
superficie aparece repartida en k diferentes secciones; el área de
cada una de estas secciones es proporcional al “peso” o
ponderación que en un todo, tengan cada una de sus k partes.

Si por ejemplo una compañía que elabora productos cárnicos,
tiene cuatro proveedores de materia prima, y uno de ellos, A, le
entrega el 45% del total de la materia prima; otro, B, le entrega
el 20%; un tercero, C, el 15%; y el último, D, entrega el 20%
restante. Un pastel que represente esta situación será un círculo
con el 45% de su área para A; el 20% para B; el 15% para C; y,
el 20% de su área para D. Véase
Figura 1.13

Figura 1.13
Gráfico de Pastel









Existen detractores del agrupamiento de datos, y sus razones
tienen, ya que al agrupar se gana la idea de clasificación grupal
y distribución espacial de los datos, pero se pierde la
individualidad del dato y lo mejor que se consigue es que los f
i
datos individuales ubicados en la i-ésima clase sean
representados por un solo valor,
la i-ésima marca de clase. Esta
situación ha llevado a reconocer méritos a los denominados
Diagramas de Tallo y Hojas.

Observemos una ilustración en el Esquema que presentamos en
la
Figura 1.14 para comprender este tipo de diagrama.

Figura 1.14
Diagrama de Tallo y Hojas

f
i Tronco Hojas
8 40 1 2 2 3 3 5 7 9
10 50 1 2 4 4 5 5 8 8 8 9
(14) 60 2 3 3 3 4 4 4 4 5 6 6 6 7 7
9 70 1 2 3 4 6 6 7 8 8
6 80 0 3 4 6 7 9
3 90 5 6 7

Longitud de cada hoja = 1.
Proveedor B
Pr ove e dor C
Pr ove e dor D
Pr ove e dor A
20%
15%
20%
45%
Pasteles
Círculos cuya
superficie aparece
repartida en k
diferentes secciones,
cada una de las cuales
es proporcional al
peso que en un todo
tengan cada una de
sus k partes

37
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Se tienen 50 observaciones distribuidas en seis clases de diez
unidades de longitud, la primera clase es [40,50) y la sexta
[90,100). Existen ocho observaciones en la primera clase, diez
en la segunda, catorce en la tercera y así hasta llegar a la sexta
clase que contiene tres observaciones. El primer “tronco” de
este árbol es 40; el segundo 50; y, el sexto 90.

En la primera clase las ocho observaciones están determinadas
por los ocho dígitos que constituyen las “hojas” del “árbol” y
sus valores son: 41; 42; 42; 43; 43; 45; 47; y, 49.

En la segunda clase las diez observaciones son: 51; 52; 54; 54;
55; 55; 58; 58; 58; y, 59.
Las tres observaciones en la sexta clase son: 95; 96; y, 97.

Debemos reconocer que con el
Diagrama de Tallo y Hojas, a
la vez que conservamos la individualidad de las observaciones ,
tenemos idea también de su distribución espacial, tal cual lo
hace un histograma de frecuencias.

Nótese que, en la ilustración dada, la frecuencia de la tercera
clase aparece entre paréntesis, eso significa que en esta clase se
encuentra la Mediana Muestral que es:

Q
2 =X([n+1]/2) = X(25.5) =(X(25)+ X(26))/2 = ( 64 + 64)/2 =64.

No olvidar que el tamaño n de la muestra considerada es 50.

A fin de definir la
Profundidad de un Conjunto de Datos
llamaremos, en una muestra ordenada X
T
= (X(1) X(2) ... X(n)) ,
clases inferiores a aquellas que contiene observaciones de
menor valor que las de la clase que contiene la mediana
muestral; y,
clases superiores a las que se ubican luego de la
que contiene la mediana.

Supongamos que los datos se han distribuido en k clases, la
Profundidad de una clase, para las clases inferiores, es igual a
su frecuencia acumulada absoluta.

Para el caso de las clases superiores
la profundidad de la k-
ésima clase
es fk; la de la clase (k–1) es (fk + fk-1); la de la clase
(k-2) es (f
k + fk-1 + fk-2); y con este patrón de cálculo, hasta llegar
a la clase previa a la que incluye la mediana.

Para el ejemplo en el que presentáramos los diagramas de tallo
y hojas, la profundidad de la primera clase es 8; la de la segunda
18; la de la sexta 3; la de la quinta 9; la de la cuarta 18; la clase
central contiene a la Mediana, tiene catorce observaciones. La
primera y la segunda son clases inferiores, en tanto que la
cuarta, quinta y sexta son superiores.

Diagrama de Tallo y
Hojas
Conserva
individualidad de
observaciones y nos
da la idea de su
distribución espacial
Clases Inferiores
Clases que contienen
observaciones de
menor valor que las
de la clase que
contiene la mediana
muestral
Clases Superiores
Clases que se ubican
luego de la clase que
contiene la mediana

38
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
1.9.4.- Valores aberrantes detectados en diagramas de caja

En Estadística, los valores aberrantes o valores extremos son
motivo de notable preocupación y estudio; y, en la misma línea
que se construye la media cortada T
α, es cada vez mas
difundido, sobre todo entre los fabricantes de “paquetes
estadístico computacionales” restringir la muestra utilizando el
concepto de Rango intercuartil RI, lo cual permite construir las
denominadas
Cercas; la Cerca Interior y la Cerca Exterior
de la muestra.

Utilizando un diagrama de caja, se considera que una
observación constituye un presunto valor aberrante, si se ubica
a 1.5RI abajo de Q
1 o 1.5RI arriba de Q3.

La
Cerca Interior de un conjunto de datos está a 1.5RI a la
izquierda de Q
1, mientras que la Cerca Exterior está a 1.5RI, a
la derecha de Q
3. Véase Figura 1.15

Formalizando, un valor observado se constituye en un
presunto
valor aberrante
si:

a)
toma un valor menor que max[ X(1) , Q1 – 1.5RI ]; o,
b)
toma un valor mayor que min[ X(n) , Q3 + 1.5RI ]

Si realmente el valor bajo sospechas es “aberrante”, esto es, no
proviene de la población objetivo de la que se ha tomado la
muestra, debe ser determinado a través de un análisis de
consistencia de los datos.

Ejemplo 1.15

En el ejemplo 1.13 se encontró que Q1 = 4 y Q3 = 9. Determine
que valores observados serían “sospechosos” de convertirse en
valores aberrantes.

Desarrollo.

Tenemos que,

RI = Q
3 – Q1 = 9 – 4 = 5

Luego,

(1.5)RI = 1.5(5) = 7.5

Por tanto una observación podría ser un valor aberrante si es
mayor que:

(7.5) + 9 = 16.5 = (1.5)RI + Q
3

O si es menor que:

39
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones

4 – 7.5 = -3.5 = Q
1 – (1.5) RI

Por lo tanto, en la muestra

X
T
= ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)

No existe valor aberrante ya que

X
(1) > -3.5 y X(20) < 16.5 ♦

En la Figura 1.15 encontramos el caso donde el diagrama de
cajas enuncia observaciones sospechosas de ser valores
aberrantes, cuatro en el extremo superior y tres en el inferior,
allí se grafica el significado de 1.5RI.

Figura 1.15
Valores Aberrantes detectados en un Diagrama de Caja











1.10.- TRABAJO CON DOS O MÁS VARIABLES



1.10.1.- El Coeficiente de Variación

E
n las secciones previas hemos estudiado una muestra de
tamaño n, sobre la que se investiga una sola característica, mas,
lo usual es que al tener una Población Objetivo constituida por
N unidades de investigación, tratemos de conocer mas de una
característica de la misma y probablemente, la idea sea buscar
relaciones entre las distintas características objeto de estudio.
Con tal fin, en esta sección presentaremos técnicas estadísticas
que permiten establecer relaciones entre distintas características
de una misma población.

Dos características correspondientes a una misma población
objetivo, pueden cuantitativamente diferir en escala por estar
medidas en diferentes unidades o por que comparativamente
difieren aun estando medidas en las mismas unidades; esto se lo
detecta graficando de manera simultánea los dos diagramas de
caja de cada una de ellas y estableciendo las comparaciones que
-30 -20 -10 0 10 20 30 40 50 60 70
1.5RI 1.5RI
RI

40
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
correspondan. Las diferencias en tendencia central y dispersión
quedan establecidas claramente en la
Figura 1.16

Figura 1.16
Diagramas de Caja Diferenciados













Si bien el
Coeficiente de Variación V está definido para una
muestra, permite, de alguna forma comparar dos variables o
características. Dada una muestra
X
T
= (X1 X2 ... Xn) que tiene
media aritmética
x y desviación estándar s, se define a V=s/x.

Se supone que mide la “dispersión relativa” de X con respecto
a
x, de igual manera puede servir como una medida
comparativa entre dos variables X y Y, cuando las escalas en
que se las mide, difieren de manera notoria; dígase por ejemplo
que X es estatura en centímetros y que Y es ingreso en
dólares.


1.10.2.- Gráficos Q - Q


Otro instrumento de alta utilidad para comparar variables de una
misma muestra o una misma variable correspondiente a distintas
muestras, son los denominados
Gráficos Q-Q; estos gráficos
ubican los cuantiles de una variable en el eje horizontal y los de
la otra en el eje vertical. Si las variables cuyo Gráfico Q-Q se
obtiene, son equivalentes, el gráfico será una recta con
pendiente uno y cuya intersección con el eje vertical es cero. Si
la pendiente de la recta es mayor que uno, esto significa que la
variabilidad de la característica representada en el eje horizontal
es mayor que la de la representada en el eje vertical. El
argumento se revierte cuando la pendiente es menor que uno.

La utilidad de los
Gráficos Q-Q ha sido realzada por quienes
efectúan Control de Calidad en distintos ámbitos productores
de bienes o servicios.



Variable 1
Variable 2
-2.50 0.00 2.50 5.00 7.50 10.00 12.50

41
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
1.11.- ESTADÍSTICA DESCRIPTIVA MULTIVARIADA


1.11.1- Vector de Medias y Matriz de Covarianzas

S
i se investigan p características a las unidades de una
población objetivo, a través de una muestra aleatoria de tamaño
n, se van a generar nxp valores, contenidos en n vectores de la
forma,

Xi = [ xi1 xi2 ... xip]
T
; i = 1; 2; … ; n.

Cada uno de estos vectores
Xi contiene los datos que se
reportan en uno de los n formularios o cuestionarios que se
hayan administrado y llenado en la investigación; ellos
constituyen las columnas de una matriz
Y∈Mpxn, la que se
denomina
Matriz de Datos, esto es,

Y = [X1 X2 ... Xn] =
















pnpp
n
n
xxx
xxx
xxx
21
22221
11211


La fila i-ésima de
Y representa las n lecturas de la i-ésima
característica investigada en la población objetivo, mientras que
el valor x
ij corresponde al j-ésimo valor de la i-ésima
característica. Recuérdese que i varía de uno a n y j varía de
uno a p.

Las
medias aritméticas muestrales


i
x=

=
n
1j
ij
x
n
1


así como
las covarianzas muestrales
s
ik =
1n
1
−∑
=
−−
n
1j
kkjiij
)xx)(xx(= ski

Es posible conformar un
Vector de Medias Muestrales

x= [1x 2x...nx]
T


y una
Matriz de Varianzas y Covarianzas Muestrales

S=( sik) ; i, k=1,2, ...p

42
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Podría parecer extremadamente complicado calcular el vector de
medias muestrales así como la matriz
S de varianzas y
covarianzas muestrales, sin embargo, si utilizamos matrices esto
se vuelve relativamente simple, mucho mas si disponemos de
los paquetes estadísticos adecuados.

El vector
1n∈R
n
, es definido como 1n = (1 1 ... 1)
T
, lo
constituyen n números uno y nos permite, con la ayuda
adicional de la matriz de datos
Y, definir el vector de medias
muestrales de la siguiente manera,

x=
n
1
Y1n

Mientras que la matriz
S es igual a,

S=
1n
1

Y(I -
n
1
1n 1n
T
)Y
T
.

En la última expresión
I es la matriz identidad nxn.
Nótese que s
ii es igual a
2
i
s , esto es, la covarianza muestral entre
X
i y Xi es la varianza muestral de Xi.


Ejemplo 1. 16


A cinco estudiantes de nivel superior se les pregunta durante
una encuesta piloto, su edad en años, número de hermanos e
ingreso promedio mensual de su hogar, en dólares,
respondiendo ellos de la siguiente manera:

Figura 1.17
Tabla de Datos

Estudiante Edad
Número de
Hermanos
Ingreso
Mensual
1 19 3 930
2 18 0 750
3 19 4 785
4 21 1 1230
5 20 3 955

Se requiere determinar el vector de medias aritméticas de la
muestra y la correspondiente matriz de covarianzas.

Desarrollo.

Se cuenta con p = 3 características de una población objetivo
constituida por estudiantes de nivel superior. X
1 que es la edad
de los estudiantes, X
2 es el número de hermanos y X3
constituye el ingreso mensual en dólares de sus

43
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
correspondientes hogares.

El tamaño de la muestra es n = 5.

Los vectores que constituyen la muestra son:

X
1 = [ 19 3 930 ]

X
2 = [ 18 0 750 ]

X
3 = [ 19 4 785 ]

X
4 = [ 21 1 1230]

X
5 = [ 20 3 955]

Cada vector está constituido por los p=3 datos que entrega
cada uno de los n=5 informantes; estos cinco vectores
constituyen las cinco columnas de la Matriz de Datos Y, que
consecuentemente es una matriz 3
x5; por lo que la matriz de
datos es :
Y = [ X
1 X2 X3 X4 X5]

Reemplazando los valores numéricos extraídos de la Figura
1.17, tenemos que

Y =










9551230785750930
31403
2021191819


Para obtener el vector de medias aritméticas que es igual
5
1
Y15 , siendo 1 5 la matriz 5x1 que tiene el número “uno” en
cada una de sus cinco posiciones que la constituyen, en
realidad 1
5 ∈R
5
.


5
1
Y15 = [19.40 2.20 930]
T


Significando esto, que la edad promedio de los entrevistados es
19.40 años; el número promedio de hermanos es 2,20; y, el
ingreso medio de los correspondientes hogares es 930 dólares
al mes.

La matriz de varianzas y covarianzas S de la muestra es una
matriz simétrica
3x3, que como quedó establecido es igual a
S=
1n
1−
Y(I -
n
1
1n 1n
T )Y
T
. Siendo n = 5; esta matriz se la
presenta a continuación:

S =












50.3601225.5125.201
25.5170.215.0
25.20115.030.1


44
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
1.11.2.- Coeficiente de correlación de muestras

Talvez el mas utilizado indicador de relaciones entre dos
variables X y Y de una misma muestra, esto es, se han medido
dos distintas características de una misma población objetivo, es
el denominado
Coeficiente de Correlación Lineal rxy de una
muestra,
cuyo objetivo es medir la “fortaleza” de la relación
lineal
que existe entre dos variables X y Y. Este “coeficiente”
Se lo define y denota de la siguiente manera:

rxy =

=
−−
−−
n
1i
2
i
2
i
ii
)yY()xX(
)yY)(xX(
= Corr(X,Y)

Se supone que X y Y son medidas de forma “pareada”, es decir
X
i y Yi son medidas de dos diferentes características de la misma
unidad de investigación, llamémosla u
i; puede ser por ejemplo
que a un grupo humano se le pregunte al mismo tiempo su edad
y el número de hijos; o, que a una mata de banano se le registre
su altura y edad; o, que a un mismo circuito eléctrico se le mida
su impedancia y amperaje.

Centraremos nuestra explicación en dos variables, pero será
obvio que la misma puede ser extendida a las p variables motivo
de estudio, que usualmente se presentan en lo que se denomina
la matriz de datos
Y que ya hemos comentado e ilustrado en
líneas previas.

La definición dada para rij es equivalente a:

ji
ijss
r
s
ij
=


Donde s
ij es la covarianza entre Xi y Xj, mientras que si es la
desviación típica de X
i y sj la de Xj.

Como ya la señaláramos esta definición de correlación lineal
puede ser extendida a mas de dos variables, digamos que a
p de
ellas lo cual hace posible que calculemos dos, tres o mas
“correlaciones”, la de X
1 con X2; la de X1 con X3; y, la de X2
con X
3 si fuera el caso de p = 3. Nótese que de acuerdo con la
definición de
coeficiente de correlación se tiene que

Corr(X
i ,Xj) = Corr(Xj ,Xi) = rij.

Si p = 3, podemos construir una matriz simétrica
R que es 3x3 y
que en la posición (i,j) contenga Corr(X
i ,Xj) = rij. Esta matriz se
denomina matriz de correlación de la muestra,

R
= ( rij)∈S3x3

Coeficiente de
Correlación Lineal
Mide la fortaleza de
la relación lineal que
existe entre dos
variables X y Y

45
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Donde S3x3 es el conjunto de las matrices simétricas
3x3.
r =










333231
232221
131211rrr
rrr
rrr


Nótese que r
ii es “uno” y representa la correlación entre Xi y Xi,
lo cual significa que todos los elementos de una diagonal de
esta matriz de correlación son unos.

Se puede probar que r
ij toma valores entre –1 y 1. Un valor de
r
ij igual a uno indica la existencia de una relación lineal
“perfecta” entre X y Y, dicha relación tiene pendiente positiva
lo que significa que si X crece Y también crece; si r
ij toma el
valor –1, la relación lineal es decreciente, es decir que mientras
X crece, Y decrece y viceversa. Valores intermedio de r
ij (entre
1 y 0 o entre -1 y 0) significan que la relación lineal va
deteriorándose y
cuando llega a cero, sea desde la izquierda o
desde la derecha, la relación lineal desaparece.

Téngase en cuenta que cuando se miden n veces dos o mas
características de una misma población objetivo, la muestra ya
no es un vector en R
n
sino una matriz de p filas y n columnas. Si
se midieran tres características X
1, X2, y X3 a cuatro personas la
matriz de datos
Y, que representa la muestra sería,

Y
T
=












434241
333231
232221
131211XXX
XXX
XXX
XXX


Siendo X
ij la j-ésima característica medida a la i-ésima persona.

Ejemplo 1.17

Con los datos del problema previo calcular la matriz R y
con ello los tres coeficientes de correlación.

Desarrollo
.

Téngase en cuenta que
ji
ij
ij
r
ss
s
=

Donde sij es la covarianza muestral entre la característica
i-ésima, X
i, y la característica j-ésima, Xj. Además si es la
desviación típica de X
i y sj la de Xj. Aplicando lo

46
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
previamente señalado, obtenemos que R es la matriz
simétrica siguiente:

R =












1164.0930.0
164.01080.0
930.0080.01


0.080 es r
12, 0.930 es r13, y -0.64 es r23. Esto nos dice que existe
una fuerte relación lineal entre X
1 y X3, y que es positiva,
mientras que la relación entre X
2 y X3 es negativa y
relativamente débil. Sobre la diagonal existen números “uno”
que son en realidad varianzas de las variables X
i

estandarizadas”. ♦



1.12.- OBSERVACIÓN DE PROCESOS EN EL TIEMPO


1.12.1.- Series Temporales y Filtros

Siempre estaremos preocupados de la distribución de
frecuencias de una variable, de su tendencia central y dispersión,
sin embargo es cada vez mas frecuente hacer mediciones de una
variable aleatoria X con igual espaciamiento en el tiempo t,
durante un periodo finito T o un lapso abierto. Todos podemos
observar el valor
X(t) que toma la cantidad de Kilovatios hora
que consumimos cada mes en nuestro hogar o en el lugar que
trabajamos, o la cantidad de dólares que mensualmente ganamos
o lo que en cada edición de los periódicos aparece que no son
mas que los precios de acciones en la bolsa de valores. Este
mismo tipo de series están presentes en los procesos industriales
cuando cada hora anotamos el valor de una característica de un
producto que está en la línea de producción, con lo que
pretendemos verificar la calidad del producto y el estado mismo
del proceso. Hablamos de
Series Temporales o Series de
Tiempo
.

En la
Figura 1.18 aparece una Serie de tiempo, (t,X(t)), que
representa un proceso temporal que realmente ha ocurrido, se
trata de la serie semanal del número de “robos agravados”
denunciados en el Ministerio Público de la ciudad de
Guayaquil, durante el año 2006 y el primer semestre el año
2007. Esta es una investigación realizada por el Centro de
Estudios e Investigaciones Estadísticas, en colaboración con la
Fiscalía del Guayas, y el Municipio de Guayaquil.

47
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Figura 1.18
Serie Temporal del Delito: Robo Agravado*
Correspondiente al período de 31 de Diciembre de 2005 a 13 de Abril de 2007


















Fuente de datos:
Ministerio Fiscal de Guayaquil
Elaborado por: Centro de Estudios e Investigaciones Estadísticas ICM-ESPOL


Lo primero que se trata de descubrir en una serie temporal es si
es “estacionaria” esto es si se estabiliza alrededor de algún valor
o si no es estacionaria pero tiene tendencia a crecer o decrecer
a partir de indeterminado valor del tiempo. Si bien el análisis de
las tendencias de una serie temporal es motivo de cursos
especializados; para efectos de este libro nos centraremos en la
presencia de
perturbaciones no controladas dentro del proceso,
también denominadas
ruido, perturbaciones que producen
valores que hacen difícil determinar la presencia de un
determinado patrón de comportamiento de la serie temporal bajo
consideración.

Una forma de reducir este ruido es mediante la construcción de
filtros supresores de oscilaciones extremas. Muchas son las
técnicas de filtrado que pueden utilizarse, pero una muy popular
y ampliamente utilizada por su simplicidad y eficiencia es la de
Filtros de Medias Móviles, que consiste en reemplazar cada
observación X(t) por el promedio de ese valor y los (k-1)
valores previamente observados, éste es un
Filtro de Medias
Móviles de k-términos
.

En definitiva, al aplicar un filtro de medias móviles de k-
términos, la observación X(t) leída al tiempo t del proceso, se la
reemplaza por el valor Y(t) definido como:

)]1kt(X...)1t(X)t(X[(
k
1
)t(Y +−++−+=

Ruido
Perturbaciones no
controladas dentro del
proceso
Filtro de Medias
Móviles de k-
términos
Reemplazo de cada
observación X(t) por
el promedio de ese
valor y los (k-1)
valores previamente
observados
Semanas
13 1
15 4
13 1
14 6
118
99
87
71
98
10 0
15 2
96
10 5
12 4
10 7
116
112
12 6
119
12 5
10 7
16 6
12 9
10 1
12 2
10 9
10 4
83
10 5
111110
117
81
10 6
89
78
99
78
84
98
117
13 6
94
9696
10 3
89
94
10 8
10 0
12 8
111
10 0
13 6
13 7
13 0
94
118
99
93
12 9
97
10 9
10 0
112
98
86
0
20
40
60
80
10 0
12 0
14 0
16 0
18 0
S
e
Robo Agravado
Año 2007 Año 2006
Número de Delitos

48
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones

En la
Figura 1.19 se muestra la serie temporal del delito
denominado “robo simple”, en el mismo período que la anterior
serie de delito; también se observa la serie filtrada, o suavizada,
utilizando un filtro de cuatro términos. Nótese que X(1) y Y(1)
coinciden; que Y(2) es el promedio de solo dos términos
previamente observados; Y(3) solo de tres valores observado; y,
recién Y(4) y los posteriores valores calculados, son el resultado
de aplicar, en su extensión un filtro de cuatro términos. Véase
tabla adjunta a
Figura 1.19

Figura 1.19
Serie Temporal del Delito: Robo Simple
Correspondiente al período de 31 de Diciembre de 2005 a 13 de Abril de 2007



















Fuente de datos: Ministerio Fiscal de Guayaquil
Elaborado por: Centro de Estudios e Investigaciones Estadísticas ICM-ESPOL


1.12.2.- Causas de Variación de un Proceso

Una vez filtrada la serie, es importante observar su gráfico para
así intentar descubrir patrones que denuncien si la serie es
estacionaria o si crece o decrece en determinado lapso y a partir
de un punto específico; es también relevante reflexionar sobre
las causas que producen estas variaciones.

Todo proceso está sujeto a variación, puede que las causas que
lo hacen variar le sean inmanentes o pudiera que se trate de
efectos impredecibles o que se presentan periódicamente. El
primer tipo de causas de variación se denominan
causas
comunes
y el segundo tipo causas especiales. Para remover una
causa común, se requiere modificar el proceso en sí, en cambio
las causas especiales se las puede remediar con medidas de
detección y corrección durante el proceso.
209
235
257
238
217
229
233
204
300
285
246246
287
287
231
205
218
19 4
250
211
259
232
223
240
19 3
265
204
230
19 1
16 6
208206
15 1
180176
202
17 4
15 5
13 1
18 6
251
255
12 0
13 5
17 8
15 4
16 2
211
10 8
18 4
16 9
200
19 8
14 3
18 7
225
19 3
248
18 8
15 2
112
12 8
16 1
12 3
17 2
17 3 17 3
0
50
10 0
15 0
200
250
300
350
S
Año 2007 Año 2006
Robo Simple
Semanas
Número de Delitos

49
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
1.12.3.- Cartas de Control

Cuando a mediados del siglo veinte se da pábulo a la filosofía
de la “calidad sobre la cantidad” ya se contaba con uno de los
instrumentos hasta hoy profusamente utilizados en ingeniería de
la calidad y particularmente en el Control Estadístico de la
Calidad: las
Cartas de Control. Estos instrumentos fueron
inventados por Schewart, en las primeras décadas del siglo
veinte, para controlar la variabilidad en el tiempo de una
característica cuantitativa que corresponde a un producto, sea
este bien o servicio, que esté en proceso de elaboración.

En la
Figura 1.20 se presenta como luce una de estas cartas;
consiste de un gráfico en el plano en el que destacan tres líneas,
una Central, una superior y otra inferior, estas dos últimas
equidistantes de la central. La primera de las nombradas se
denomina
Línea Central de la Carta, y representa el nivel
medio deseado para la característica; la superior se denomina
Línea Superior de Control y se encuentra a tres desviaciones
típicas arriba de la Línea Central. Debajo de la Línea central y a
tres desviaciones de distancia se encuentra la
Línea Inferior de
Control
. Estas cartas tienen sus reglas de decisiones, que
permiten declarar a un sistema de producción, “fuera de control”
o “bajo control”.

Figura 1.20
Cartas de Control










1.13.-DATOS CUALITATIVOS
1.13.1.- Escalas de medidas

De lo desarrollado hasta el momento parecería que las técnicas
estadísticas son solo aplicables a mediciones cuantitativas, lo
cual no es cierto, pues si bien estas técnicas se desarrollan en
base a principios matemáticos y por tanto bajo nociones
cuantitativas, siempre es posible habilitar un camino que
permita tratar estadísticamente variables no cuantitativas,
inclusive en el caso de que ellas no tengan un orden establecido.

0
5
10
15
20
123456789101112131415
Línea Superior
Línea Central
Línea Inferior
Característica de Interés
t

50
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Una variable cualitativa puede tener un orden, por ejemplo nivel
de educación formal, tipo de delito, o punto de vista sobre
determinado asunto de interés de las personas entrevistada; o
puede que no tenga un orden, como el color de los ojos de las
personas, la raza de un grupo humano, el género o la religión.
Uno de los primeros instrumentos que utiliza la Estadística para
tratar variables cualitativas son las
Escalas; el primer tipo es la
Escala Nominal, utilizada cuando la medición efectuada no
solo que está exenta de una noción cuantitativa sino que
tampoco puede asignársele a sus valores una posición u orden,
simplemente se les asigna categorías, esto último hace que a las
variables cualitativas no ordenables también se las denomina
variables categóricas. Son ejemplos de variables categóricas la
raza humana, con sus valores negro, amarillo y blanco y sus
diferentes mezclas; el colegio donde se graduó un bachiller
ecuatoriano, con sus valores fiscal, particular laico, particular
religioso, fisco misional e internacional.

Si bien en caso de escalas nominales puede ocurrir que a cada
uno de los valores que tome la variable, para efectos del
tratamiento informático, se le asigne un código numérico a sus
valores, este código no sirve de modo alguno para calcular
medias, varianzas o cuantiles ya que la noción cuantitativa u
ordinal está ausente. En la
Figura 1.21 se muestra un diagrama
de barras de la variable categórica “tipo de bachiller graduado
en la ESPOL”.

Figura 1.21
Diagrama de Barras de la variable categórica “Tipo de
Bachiller graduado en la ESPOL”













Esto es solo una muestra de cómo agrupar y mostrar algún
tratamiento estadístico de datos categóricos, en posteriores
capítulos volveremos a tratar este tipo de variable a fin de
determinar la “independencia” de dos o mas de este tipo de
variables.

Cuando está presente algún tipo de ordenamiento en los valores
de una variable cualitativa, es posible utilizar
Escalas
Escala Nominal
Escala utilizada
cuando la medición
efectuada no solo que
está exenta de una
noción cuantitativa
sino que tampoco
puede asignársele a
sus valores una
posición u orden,
simplemente se les
asigna categorías
Variables
categóricas
Variables cualitativas
no ordenables
0,01
0,01
0,02
0,02
0,03
0,03
0,06
0,08
0,73
0,00 0,20 0,40 0,60 0,80
Ot r as
So ciales
C i enci as
Elect r ó nica
M ecánica
Químico Biólogo
Inf o rmát ica
Electricidad
Físico Matemático

51
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Ordinales, este tipo de escala produce un escalafón o
“ranking”. Quien logra el número 1 es el que muestra la mayor
cantidad de la variable medida, puede ser la cantidad de
ansiedad que muestren las personas bajo ciertas condiciones o
la posición en la que arriben en una competencia un grupo de
atletas. La escala ordinal sin embargo, no determina diferencias
entre posiciones consecutivas, en cuanto a magnitud de la
variable; bien puede ser que el atleta que llega en la primera
posición tenga una diferencia de dos segundos con el que llega
en la segunda posición, pero el tercero llega a un minuto del
segundo. La escala solo provee información sobre orden, no
sobre cuanto de la variable medida existe. Este tipo de escalas
son usualmente una primera etapa de clasificación, para
posteriormente lograr medidas de mas alta precisión.


1.13.2.- Escalas de Clasificación

Cuando se trata de dar una opinión o establecer una posición
usualmente se plantea al entrevistado una
proposición sobre la
que debe pronunciarse, y de esta forma son requeridas las
Escalas de Clasificación, o escalas Likert, las mismas que
requieren que el informante se pronuncie sobre una proposición,
no sobre una pregunta; el pronunciamiento tiene que efectuarse
concordante con una escala arbitraria que comienza en el
número uno, que debe ser marcado por quienes están en

Completo Desacuerdo” con la proposición, hasta llegar al
número cinco cuyo valor es marcado por quienes están en

Completo Acuerdo” con lo propuesto; el dos es “Desacuerdo”
el tres “
Indiferencia” y el cuatro “Acuerdo” pero no “Completo
Acuerdo
” que como ya dijimos, se lo señala con cinco.

En la
Figura 1.22 se presenta el histograma de una proposición
que se les consultara a un grupo de graduados de la Politécnica
del Litoral durante el proceso de Autoevaluación de dicha
institución el año 2006; en la
Figura 1.23 se presentan gráficos
simultáneos de las respuestas dadas por una misma población, a
varias proposiciones. En esta última figura se puede observar
cómo el pronunciamiento de un grupo humano sobre distintos
tópicos, puede compararse de manera efectiva, utilizando un
gráfico sumamente sencillo.

Figura 1.22
Proposición: “En la enseñanza que ofrece la ESPOL se equilibra lo
teórico y lo práctico”






Escala Ordinal
Escala en la que está
presente algún tipo de
ordenamiento en los
valores de una
variables cualitativa.
Produce un escalafón
o rankin
g
Escalas de
Clasificación
Llamadas también
escalas Likert.
Requieren que el
informante se
pronuncie sobre una
proposición, no sobre
una pregunta y el
pronunciamiento tiene
que efectuarse
concordante con una
escala arbitraria que
comienza en el
número uno por
quienes están en
“Completo
Desacuerdo” hasta
llegar al número cinco
por quienes están en
“Completo Acuerdo”
con lo propuesto
0.04
0.08
0.13
0.31
0.44
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
Completo
D esac uer d o
Par cial
D esac uer d o
Indif erencia Parcial
A c uer d o
Completo
A c uer d o

52
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Fuente: Centro de Estudios e Investigaciones Estadísticas ICM
ESPOL

Figura 1.23
Gráficos Simultáneos de características consultadas a un grupo de
graduados de la ESPOL durante su proceso de Autoevaluación
institucional el año 2006

Características Generales
Fuente: Centro de Estudios e Investigaciones Estadísticas ICM
ESPOL


0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1, 0 0
Completo
Desacuerdo
Parcial
Desacuerdo
Indiferencia P arcial A cuerdo Co mpleto
A cuerdo
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1, 0 0
El Pr o f esi o nal Po l i t écni co d esar r o l l a su
act i vi d ad f avo r eci end o al med i o amb i ent e
y haciend o uso racional de los recursos
puest os a su dispo sició n.
Pr o g r amas d e ed ucaci ó n a d i st anci a y semip resenciales son opcio nes válidas en el c o nt ex t o d e l a ed uc ac i ó n p o l i t éc ni c a.
Cad a vez so n mas escasas las oportunidades de trabajo, por lo que el profesional de hoy y del futuro debe poseer “ Espíritu Emprendedor” , para en muchos casos generar su propia o c up ac i ó n.
U na vez q ue me he g r ad uad o y r eal i zad o act i vi d ad es f uer a d e l as aul as p o l i t écni cas, co mp r end o q ue es i mp o r t ant e ap r end er co n l a ayud a d e un p r o f eso r , p er o mas i mp o r t ant e es q ue se l l eg ue a “ sab er ap r end er ” si n esa ayud a.
No siempre el Prof esional Polit écnico r eci b e una r emuner aci ó n co nco r d ant e co n s u p r ep ar aci ó n.
La receptividad del empleador es siempre l o suf i ci ent ement e amp l i a p ar a q ue se l e permit a al prof esional polit écnico sugerir e i mp l ant ar nuevo s esq uemas d e t r ab aj o , p ar a l o s p r o ceso s q ue ef ect úa l a emp r esa.
La carrera de la que soy graduado de la ESPOL cumplió con mis expect at ivas.
La f o r maci ó n q ue l a ESPOL d a a sus g r ad uad o s sup er a l o s r eq uer i mi ent o s d e los p uest os en las org anizacio nes ecuat o r i anas.
La ESPOL se p r eo cup a d e mant ener una co municació n co n sus g rad uad o s.
La ESPOL a t r avés d e su act i vi d ad docent e d a respuest as válid as a las necesid ad es de d esarro llo del p aí s.
Es evi d ent e, q ue l a ESPOL es una inst it ució n co n cap acid ad p ara mejo rar d e maner a p er manent e y co nt i nua, en l o r ef er ent e a l as act i vi d ad es q ue co mo cent r o d e ed ucaci ó n sup er i o r ej ecut a.

53
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
Acerca de la ESPOL
Fuente: Centro de Estudios e Investigaciones Estadísticas ICM
ESPOL


Un grupo de variables cualitativas han sido cuantitativamente
analizadas dando una magnitud a las respuestas de los
entrevistados.

Este tipo de escalas, de clasificación, pueden también ser
utilizadas cuando se desea investigar características humanas o
de productos que sean representables por los distintos grados
que toma un adjetivo y su negación. En el extremo izquierdo,
inferior, coincidiendo con el “cero” está el adjetivo
Deshonesto,
por ejemplo y en el extremo derecho o “superior” coincidiendo
con el número cinco, está el adjetivo
honesto. Se le puede
proponer a los miembros de la Población Objetivo que se
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1, 0 0
Completo
Desacuerdo
Parcial
Desacuerdo
Indiferencia P arcial A cuerdo Co mpleto
A cuerdo
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1, 0 0
En t ér mi nos gener al es l a f or mac i ón que da l a ESPOL
gar ant i z a el éx i t o de l os pr of esi onal es que f or ma.
La f or mac i ón Mat emát i c a que r ec i bí dur ant e mi est adí a c o m o e s t u d i a n t e e n l a ES P O L f ue l a adec uada.
La f or mación en Ciencias Nat ur ales ( Fí sica, Quí mic a, Bi ol ogí a) que r ec i bí dur ant e mi est adí a c omo est udi ant e en l a ESPOL f ue l a adec uada.
La f or mac i ón en Ci enc i as Humaní st i c as que r ec i bí
dur ant e mi est adí a c omo est udiant es en la ESPOL f ue l a
adec uada.
La f or mac i ón en Inf or mát i c a que r ec i bí dur ant e mi est adí a c omo est udi ant e en l a ESPOL f ue l a adec uada.
En la enseñanza que of rece la ESPOL se equilibra lo t eórico y lo práct ico.
La ESPOL deber í a involuc r ar se de f or ma c ont i nua en Pr oy ec t os de Inv est i gac i ón que sean t r asc endent es par a l a soc i edad.
Desde mi per spec t i v a c omo pr of esi onal pol i t éc ni c o, en
est e moment o puedo asegur ar que l a c al i dad del
pr of esor ado por el c ual f ui f or mado, t ení a un ni v el t eór i c o
y de pr ác t i c a pr of esi onal que er a sat i sf ac t or i o.
La pr esent ac i ón y c ompor t ami ent o de un gr aduado de l a ESP OL son si empr e adec uados par a l a oc asi ón.
Uno de l os may or es obst ác ul os par a el desar r ol l o del pr of esi onal pol i t éc ni c o es su esc asa f or mac i ón en c omuni c ac i ón or al .
Uno de l os may or es obst ác ul os par a el desar r ol l o del
pr of esi onal pol i t éc ni c o es su esc asa f or mac i ón en
c omuni c ac i ón esc r i t a.
Uno de l os may or es obst ác ul os par a el desar r ol l o del pr of esi onal pol i t éc ni c o es su esc asa habi l i dad par a
r el ac i onar se c on t er c er os.
Uno de l os may or es obst ác ul os par a el desar r ol l o del
pr of esi onal pol i t éc ni c o es su esc asa habi l i dad par a
t r abaj ar en equi po.
Uno de l os may or es obst ác ul os par a el desar r ol l o del pr of esi onal pol i t éc ni c o es su esc asa habi l i dad par a or gani z ar y pl ani f i c ar .
Uno de l os may or es obst ác ul os par a el desar r ol l o del
pr of esi onal pol i t éc ni c o es su esc asa habi l i dad par a t omar
dec i si ones opor t unas.
Uno de l os may or es obst ác ul os par a el desar r ol l o del pr of esi onal pol i t éc ni c o es su esc asa c apac i dad par a
adapt ar se a l os c ambi os.
Uno de l os may or es obst ác ul os par a el desar r ol l o del
pr of esi onal pol i t éc ni c o es su esc asa habi l i dad par a i nnov ar
y crear.

54
G. Zurita
ESTADÍSTICA
Fundamentos y Aplicaciones
pronuncie en esa escala, cuando la proposición es “Todo
funcionario público es honesto”.

Quien crea que los funcionarios públicos son en general
deshonesto le asignará el valor “cero” y quienes lo tipifiquen
como honesto marcarán el “cinco”. Todo lo intermedio puede
ser utilizado, por ejemplo un tres para quienes les resulte
indiferente el tema, o un cinco para quienes estén convencidos
que los funcionarios públicos son honestos.

El autor ha ensayado con recomendable éxito, escalas de
clasificación en la que se le pide al informante calificar el grado
de acuerdo o aceptación que sienten frente a una proposición,
con
un número entre cero y diez, siendo cero completo
desacuerdo y diez completa satisfacción o completo acuerdo.

Teniendo en cuenta que no todos los miembros de la población
objetivo están obligados a diferenciar entre número real y
número entero; se les sugiere no escribir mas de dos decimales
de precisión, con esto se ha logrado que los mas ilustrados sepan
con qué “grado de precisión” pueden trabajar y los menos
ilustrados saben que pueden ir mas allá de los enteros. Se
presenta en la
Figura 1.24 un cuadro utilizado en un reporte
técnico efectuado con “escala real” por el Centro de Estudios e
Investigaciones Estadísticas ICM-ESPOL.

Figura 1.24
Cuadro con Escala Real

Población Objetivo: Estudiantes
N
o
Proposición
Escriba en
esta columna
su
Calificación
(Sobre Diez)
1.-
En términos generales, se puede afirmar que el profesorado de la
ESPOL emplea
técnicas e instrumental didáctico moderno para el
desarrollo del proceso enseñanza aprendizaje.
8.50

Fuente
: Centro de Estudios e Investigaciones Estadísticas ICM
ESPOL
Tags