Distribuciones de frecuencias

nchacinp 5,440 views 13 slides May 08, 2017
Slide 1
Slide 1 of 13
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13

About This Presentation

Construcción de tablas de distribución de frecuencias


Slide Content

1

Distribuciones de frecuencias
Las distribuciones de frecuencia es un método de clasificación de datos en
grupos o categorías llamadas clases, de modo tal que se pueda establecer el
número de datos en cada clase y su porcentaje. El número o porcentaje de
una clase se denomina frecuencia de la clase. Este método es
extremadamente útil a la hora de observar un gran número de datos sin que
se tenga que considerar cada dato individual.
El proceso para elaborar una distribución de frecuencia depende del tipo de
dato: cualitativo o cuantitativo. Veamos algunos ejemplos.

Caso1. Distribución de frecuencia para datos cualitativos
Aquí la colección de datos es producto del conteo de la cantidad de
elementos que pertenecen a cada modalidad de la variable cualitativa. La
tabla resultante se llama tabla de distribución de frecuencia.
Ej1. Se tomaron los datos del sexo de un grupo de pacientes en la consulta
de cardiología del hospital. El sexo es una variable cualitativa con 2
modalidades: masculino y femenino. Vamos a considerar “masculino” a la
clase 1 y “femenino” a la clase 2.
Los resultados de este estudio se muestran en la tabla1
Tabla1. Sexo de los pacientes de cardiología
Clase (Sexo) fi fr
masculino 60 0,6
femenino 40 0,4
total 100 1
donde:
fi= cantidad de datos o frecuencia observada en la clase i
fr= frecuencia relativa o proporción de datos en la clase i, donde
fr= fi/n
n=100

Si hacemos fr*100% obtenemos el porcentaje de datos en la clase i,
el 60% de los datos pertenecen a la clase 1 “masculino” y el 40% a la clase
2 “femenino”

Observe que:
∑�
??????=� ?????? ∑�
??????=1

2

Caso 2. Distribución de frecuencia para datos cuantitativos
En este caso las variables pueden ser continuas o discretas. Las
clases aquí pueden valores ser individuales (datos no agrupados) o
intervalos numéricos (datos agrupados).

Distribución de frecuencia para daos no agrupados : aquí las clases
están formadas por los valores individuales de los datos, y la frecuencia
absoluta fi es la cantidad de veces que se repite ese valor en el grupo de
datos. Esto se ilustra en el ejemplo 2.

Ej 2. En un estudio de 30 muestras de cierto cultivo se contó el número de
bacterias por cultivo, obteniéndose los siguientes datos:
0 0 0 1 1 1 1 1 2 2
2 2 2 2 2 3 3 3 3 3
3 3 3 3 3 4 4 4 5 5

Cada valor representa el número de bacterias encontrado en un cultivo en
particular; como este conteo abarca un rango pequeño (de 0 a 5), vamos a
organizar los datos en una distribución de frecuencia para valores
individuales (tabla 2), esto se construye contando la cantidad de veces que
se repite cada valor, en total tenemos 6 clases.

Tabla 2. Distribución de frecuencia
Número de bacterias por cultivo
Clase
(#bacterias/cultivo)
fi fr
0 3 3/30 = 0,100
1 5 5/30 = 0,167
2 7 7/30 = 0,233
3 10 10/30= 0,333
4 3 3/30 = 0,100
5 2 2/30 = 0,067
Total 30 1

3

La primera clase es el cero (0) y su frecuencia absoluta f1 es tres (3), significa
que en 3 de los 30 cultivos no se encontró ninguna bacteria. La frecuencia
relativa de la clase es 0,1 lo que indica que el 10% de todos los cultivos no
se observaron bacterias.
Nota: no es necesario escribir la división, aquí se hace con fines didácticos.
La segunda clase es uno (1) y su frecuencia absoluta f2 es cinco (5), significa
que en cada uno de estos 5 cultivos se encontró una bacteria/cultivo. La
frecuencia relativa de esta clase es 0,167 lo que indica que en el 16,7% de
todos los cultivos se encontró 1 bacterias/cultivo.
La tercera clase es dos (2) y su frecuencia absoluta f3 es siete (7), significa
que en cada uno de estos 7 cultivos se encontró dos bacterias/cultivo.
La frecuencia relativa de la clase es 0,233 lo que indica que en el 23,3% de
todos los cultivos se encontró 2 bacterias/cultivo.
La cuarta clase es tres (3) y su frecuencia absoluta f4 es diez (10), significa
que en cada uno de estos 10 cultivos se encontró tres bacterias/cultivo.
La frecuencia relativa de la clase es 0,333 lo que indica que en el 33,3% de
todos los cultivos se encontró 3 bacterias/cultivo.
La sexta clase es cinco (5) y su frecuencia absoluta f6 es dos (2), significa
que en cada uno de estos 2 cultivos se encontró cinco bacterias/cultivo.
La frecuencia relativa de la clase es 0,067 lo que indica que en el 6,7% de
todos los cultivos se encontró 5 bacterias/cultivo.

Distribución de frecuencia para datos agrupados : aquí las clases están
formadas por intervalos de valores y la frecuencia absoluta fi refleja la
cantidad de valores que pertenecen al intervalo de la clase i. En general es
recomendable agrupar los datos cuando la amplitud es grande y el número
de valores individuales (sin repetir) es mayor que 10.
 Para tener una idea del número de intervalos de clase que deben
usarse (k) pueden aplicarse 2 reglas:

a) Regla de Sturges: k = 1 + 3,322*log(n)

b) Regla empírica: �=√�
donde:
k = número de clases
n = número de datos

4

Para tener una idea de la amplitud de cada intervalo de clase dividimos la
amplitud o rango de todo el conjunto de datos entre el número de clases (k).
Amplitud de la clase = Amplitud de los datos/k
El número de clases y la amplitud del intervalo son valores que una vez
calculados pueden ajustarse.
Caso variable discreta
Ej 3: En un estudio de la contaminación del aire se midió el número de
microorganismos en suspensión por metro cúbico. Los datos que se
muestran a continuación están ordenados y fueron suministrados por 57
ciudades:
12 12 12 16 19 21 22 22 23 23
23 24 24 25 25 25 27 27 27 27
28 28 28 28 30 30 31 31 32 32
36 36 38 38 42 42 42 43 43 43
44 45 46 47 49 49 49 50 51 51
57 63 65 68 69 74 79

En este ejemplo resulta conveniente agrupar los datos en intervalos de clase
ya que agruparlos por valores individuales daría como resultado una tabla
muy larga y poca práctica para describir estos datos, por otra parte, la
variable de estudio es discreta.
Lo primero que se hace es estimar el número de clases k, usemos la regla
de Sturges donde:
k = 1 + 3,3*log(n)
= 1 + 3,3*log(57) ≈7
entonces, k= 7

Luego se calcula la amplitud de cada clase, que es igual para todas, así:
??????���??????��� �� ��??????��=
??????���??????��� �� ��� �??????���
�

=
79−12
7
=9,6

5

En este caso resulta más conveniente tomar una amplitud de 9. Para
determinar los límites de la primera clase, tomamos como límite inferior un
valor cercano y menor al mínimo de los datos, como el mínimo es 12
podemos comenzar el intervalo en 10, luego los límites de la primera clase
serán:
Límite inferior de la primera clase LI1= 10
Límite superior de la primera clase LS1 = LI1 + amplitud de clase
= 10 + 9 = 19
Como la variable es discreta, el límite inferior de las siguientes clases estará
definido por el LS de la clase anterior más 1
LIi =( LSi-1) +1
entonces:
Límite inferior de la segunda clase LI2= LS1 +1= 19 +1 =20
Límite superior de la segunda clase LS2 = LI2 + amplitud de clase
= 20 + 9 = 29
Siguiendo este procedimiento se obtienen los siguientes intervalos de clase:
Intervalos
de clase
10 - 19
20 - 29
30 - 39
40 - 49
50 - 59
60 - 69
70 - 79

En total hay 7 intervalos, número sugeridos por la regla de Sturges. Para
realizar la tabla de distribución de frecuencias se cuenta el número de
valores que caen dentro de cada intervalo o clase (fi), así se le añade una
columna a la tabla:

6

Intervalos
de clase
Frecuencia
(fi)
10 - 19 5
20 - 29 19
30 - 39 10
40 - 49 13
50 - 59 4
60 - 69 4
70 - 79 2
total 57

Las tablas de distribuciones de frecuencias para daos agrupados muestran
en una columna la cantidad de datos acumulados hasta una clase en
particular, esto se calcula para cada clase sumando a la frecuencia de la
clase la frecuencia acumulada de la clase anterior, así:

Intervalos
de clase
Frecuencia

(fi)
Frecuencia
acumulada
(Fa)
10 - 19 5 5
20 - 29 19 5 +19 = 24
30 - 39 10 24 +10= 34
40 - 49 13 34 +13= 47
50 - 59 4 47 + 4 = 51
60 - 69 4 51 + 4 = 55
70 - 79 2 55 + 2 = 57
total 57

Finalmente se incluyen en la tabla 2 columnas una con la frecuencia
relativa, que se calcula dividiendo la frecuencia de la clase entre el total de
datos n, y otra con la frecuencia relativa acumulada, esta última se calcula
sumando a la frecuencia relativa de la clase la frecuencia acumulada de la
clase anterior, o dividiendo la frecuencia acumulada entre n, estos cálculos
se muestran para cada clase:

7

Intervalos
de clase
Frecuencia


(fi)
Frecuencia
acumulada

(Fa)
Frecuencia
relativa

(fr)
Frecuencia
relativa
acumulada
(Fr)
10 - 19 5 5 5/57=0,0877 5/57=0,0877
20 - 29 19 24 19/57=0,3333 24/57=0,4210
30 - 39 10 34 10/57=0,1754 34/57=0,5964
40 - 49 13 47 13/57=0,2281 47/57=0,8245
50 - 59 4 51 4/57=0,0702 51/57=0,8947
60 - 69 4 55 4/57=0,0702 55/57=0,9647
70 - 79 2 57 2/57=0,0351 57/57=1
total 57 1

Los cálculos no se muestran en las tablas definitivas, así el grupo de datos
queda resumido en la tabla 3.

Tabla 3. Distribución de las partículas de materia en suspensión
(microorganismo por metro cúbico)
en muestras de aire tomadas en 57 grandes ciudades
Intervalos
de clase
(microorganismo/m
3)
Frecuencia
absoluta

(fi)
Frecuencia
acumulada

(Fa)
Frecuencia
relativa

(fr)
Frecuencia
relativa
acumulada
(Fr)
10 - 19 5 5 0,0877 0,0877
20 - 29 19 24 0,3333 0,4210
30 - 39 10 34 0,1754 0,5964
40 - 49 13 47 0,2281 0,8245
50 - 59 4 51 0,0702 0,8947
60 - 69 4 55 0,0702 0,9647
70 - 79 2 57 0,0351 1
total 57 1

Análisis de la tabla
De esta tabla se puede extraer información relevante sobre la contaminación
del aire:
Si observamos la columna de las frecuencias absolutas vemos que:
 19 ciudades tienen un nive l de contaminación entre 20 y 29
microorganismos/m
3
y este valor equivale al 33,33% de las ciudades

8

en estudio, este último dato lo obtenemos multiplicando por 100 la
frecuencia relativa de la clase.

 2 ciudades tienen un nivel de contaminación entre 70 y 79
microorganismos/m
3
.

 42 ciudades tienen un nivel de contaminación entre 20 y 49
microorganismos/m
3
. Este valor se obtiene al sumar las frecuencias
absolutas de las clases 2, 3 y 4; esto es: 19 +10 +13


Observando la columna de las frecuencias acumulada s (Fa):
 34 de las 57 ciudades tiene un nivel de contaminación menor o igual
a 39 microorganismos/m
3
(que es el límite superior de la clase 3). Esto
representa un 59,64% de todas las ciudades como se ve en la columna
de la frecuencia relativa acumulada (Fr) de esta clase.

 47 ciudades tienen un nivel de contaminación menor o igual a 49
microorganismos/m
3
. Esto representa el 82,45% de todas las
ciudades del estudio. (clase 4)

Caso variable continua
Ej 4. Vamos a utilizar la información correspondiente al nivel de
hemoglobina de un grupo de 40 pacientes, que se muestra en la tabla 2,
para ilustrar cómo pueden agruparse datos cuantitativos del tipo continuo
en intervalos de valores de hemoglobina que llamamos clases, para tener
una mejor idea de su comportamiento.

Tabla 2. Nivel de hemoglobina (gr/100 ml)
de un grupo de pacientes de un hospital
11,6 12,0 13,2 13,6 13,7 13,8 14,0 14,0 14,4 14,6
14,6 14,7 14,8 14,8 14,8 14,8 15,0 15,0 15,0 15,0
15,2 15,3 15,3 15,4 15,4 15,7 16,0 16,0 16,0 16,2
16,2 16,2 16,2 16,3 16,8 16,9 17,0 17,2 17,3 18,0

9

Para agrupar los datos, al igual que en el caso discreto, necesitamos definir
los límites de las clases. Cuando no se está seguro de la amplitud de los
intervalos, la tabla de distribución de frecuencia se construye de la siguiente
forma:
1) Determinar la amplitud de los datos:

Amplitud = 18 – 11,6 = 6,4

2) Hallar el número de clases k con el método de Sturges
k = 1 + 3,3*log(n)
1 + 3,3*log(40)
1 + 3,3*(1,60) = 6,29

Según la regla de Sturges es recomendable tener un número de clase
igual o alrededor de 6. Vamos a tomar k = 7.

3) Determinar la amplitud de las clases

??????���??????��� �� ��??????��=
??????���??????��� �� ��� �??????���
�

=
6,4
7
=0,91≈1
Para comodidad de lectura, vamos a tomar como amplitud de clase
igual a uno (1)


4) Determinar los límites de las clases
Se puede elegir para la primera clase el valor mínimo de los datos o
cualquier otro valor menor que este que no se encuentre muy alejado.
En este ejemplo el valor mínimo de hemoglobina es de 11,6 gr/100
ml, podemos tomar 11,5 como el límite inferior de la primera clase.
En realidad, el límite inferior de la primera clase es un valor arbitrario
al cual sólo se le exige que sea igual o menor que el valor mínimo de
los datos, y bebe fijarse tomando en cuenta la sencillez para presentar
los datos, la simplicidad para realizar cálculos posteriores y la
conveniencia del investigador.

10

Se denotará:
límite inferior de la clase i como LIi
límite superior de la clase i como LSi

tendremos 7 clases cada una de amplitud igual a uno

clase 1: LI1= 11,5
LS1= LI1 + amplitud de clase
11,5 + 1= 12,5

Como la variable nivel de hemoglobina es continua, el límite superior
de cada clase es un valor extremo idéntico al límite inferior de la clase
siguiente, por lo tanto, hay que decidir a cuál de las dos clases
pertenecerá este valor.

clase 2: LI2 = LS1 = 12,5
LS2 = LI2 + amplitud de clase
= 12,5 + 1=13,5

clase 3: LI3 = LS2 =13,5
LS3 = LI3 + amplitud de clase
LS3 = 13,5 +1 =14,5
.
.
.
clase k: LIk = LSk-1
LSk = LIk + amplitude de clase

Se utiliza el símbolo del corchete abierto para indicar que el límite
inferior estará incluido en la clase “[”, y el símbolo del paréntesis
cerrado “)” que el valor igual al límite superior no se incluye en la clase
en cuestión. Para la última clase ambos límites son cerrados. Entre
clases no debe haber vacíos, y un valor sólo puede pertenecer a una
sola clase. Las clases quedan entonces así:

11

Clases
[11,5-12,5)
[12,5-13,5)
[13,5-14,5)
[14,5-15,5)
[15,5-16,5)
[16,5-17,5)
[17,5-18,5]


Una columna que se añade a la tabla de distribución de frecuencia en el
valor del punto medio de la clase:


�??????=
�????????????+�????????????
2


La tabla de distribución de frecuencia para los niveles de hemoglobina
queda así:


Tabla 3. Distribución de frecuencia del
nivel de hemoglobina (gr/100 ml)
de un grupo de pacientes de un hospital
Clases fi fr Fa Fr mi
[11,5-12,5) 2 0,05 2 0,050 12
[12,5-13,5) 1 0,025 3 0,075 13
[13,5-14,5) 6 0,15 9 0,225 14
[14,5-15,5) 16 0,40 25 0,625 15
[15,5-16,5) 9 0,225 34 0,850 16
[16,5-17,5) 5 0,125 39 0,975 17
[17,5-18,5] 1 0,025 40 1,000 18
total 40 1


Análisis de la tabla: algunos de los datos que pueden extraerse de la tabla
son, por ejemplo:

En la columna de la frecuencia absoluta (fi) se observa que:
 2 pacientes tienen la hemoglobina entre 11,5 y menos de 12,5.
 16 pacientes tienen el nivel de hemoglobina entre 14,5 y 15,5.

12

En la columna de la frecuencia relativa (fr) se observa que:
 el 40% de los pacientes tiene la hemoglobina entre 14,5 y menos de 15,5
 el 22,5% de los pacientes tienen la hemoglobina entre 15,5 y menos de
16,5

En la columna de las frecuencias acumuladas (Fa) se pude observar que:
 25 pacientes tienen el nivel de hemoglobina menor a 15,5.
 3 de los pacientes tienen el nivel de hemoglobina menor a 13,5.
 9 pacientes tienen el nivel de hemoglobina menor a 14,5.

En la columna de las frecuencias relativas acumuladas ( Fr) se puede
observar que:
 El 7,5% de los pacientes tiene el nivel de hemoglobina menor a 13,5.
 El 62,5% de los pacientes tiene el nivel de hemoglobina menor a 15,5.


Punto medio del intervalo (mi): en muchas publicaciones de resultados en
tablas de distribución de frecuencia, no se suelen publicar los datos
originales, dando lugar a una pérdida de información, es decir, por ejemplo,
en la primera clase hay 2 pacientes con el nivel de hemoglobina entre 11,5
y menos de 12,5; pero sin los datos originales no se podría saber los valores
reales de esos 2 datos, así que se toma el punto medio del intervalo m1 como
el valor de estos 2 datos, esto es 12 (gr/100ml).

En general si no se tuviese acceso a los datos originales, se toma el punto
medio de cada intervalo mi como el valor único del nivel de hemoglobina de
los pacientes (datos) allí agrupados, entonces se diría que hay:
2 pacientes con un nivel aproximado de hemoglobina de 12 (clase 1)
1 pacientes con un nivel aproximado de hemoglobina de 13 (clase 2)
6 pacientes con un nivel aproximado de hemoglobina de 14 (clase 3)
16 pacientes con un nivel aproximado de hemoglobina de 15 (clase 4)
9 pacientes con un nivel aproximado de hemoglobina de 16 (clase 5)
5 pacientes con un nivel aproximado de hemoglobina de 17 (clase 6)
1 pacientes con un nivel aproximado de hemoglobina de 18 (clase 7)

13

Esta sería la lectura de la tabla de no contar con la tabla 2 de los datos
originales. El cálculo de las medidas descriptivas tiene sus fórmulas
particulares, que se desarrollarán en la próxima clase.

Los ejercicios de este tema fueron tomados de:

Armas,J. M. Estadística sencilla: Descriptiva
Daniel, SAMUEL. Bioestadística