Presentación curso basico de bioestadistica 2

RalChoqueSandoval 0 views 46 slides May 19, 2025
Slide 1
Slide 1 of 46
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46

About This Presentation

conceptos basicos


Slide Content

1
Bioestadística
Francisco Javier Barón López
Dpto. Medicina Preventiva
Universidad de Málaga – España
[email protected]

2

Inferencia estadística
Hablar de la población, a pesar de haber
estudiado sólo a una muestra:
Respuestas con probabilidad alta de acertar
(típicamente 95%)
La respuesta la solemos dar en forma de:
intervalo de confianza
Contraste de hipótesis.

3

Error típico/estándar
Es “misteriosillo”…
…al principio.
Es muy fácil de interpretar:
El valor obtenido en la muestra se espera que
esté cerca del valor buscado en la población.
¿cómo de cerca?
Hay una probabilidad del 95% de que no esté a
más de 2 errores típicos de distancia

4

Aplic. de la normal: Estimación en muestras
Como ilustración
mostramos una variable
que presenta valores
distribuidos de forma muy
asimétrica. Claramente
no normal.
Saquemos muestras de
diferentes tamaños, y
usemos la media de cada
muestra para estimar la
media de la población.

5

Aplic. de la normal: Estimación en muestras
Cada muestra ofrece un
resultado diferente: La media
muestral es variable aleatoria.
Su distribución es más
parecida a la normal que la
original.
También está menos dispersa.
A su dispersión (‘desv. típica
del estimador media
muestral’… ¿os gusta el
nombre largo?) se le suele
denominar error típico.

6

Aplic. de la normal: Estimación en muestras
Al aumentar el
tamaño, n, de la
muestra:
La normalidad de las
estimaciones mejora
El error típico
disminuye.

7

Aplic. de la normal: Estimación en muestras
Puedo ‘garantizar’ medias
muestrales tan cercanas
como quiera a la
verdadera media, sin más
que tomar ‘n bastante
grande’
Se utiliza esta propiedad
para dimensionar el
tamaño de una muestra
antes de empezar una
investigación.

8

Tamaño de la
muestra
Media Error
estándar
Respuesta
10 mujeres 77 6 No hay evidencia
en contra
100 mujeres 71 1.6 No
1000 mujeres 73 0.5 No
•El valor medio de BUA en mujeres jóvenes es de 85.
¿Las mujeres de las que se ha extraído la muestra,
tienen una BUA similar?
•Dar respuesta con confianza del 95%

9

Contrastando una hipótesis
No se si los
fumadores pesarán
como el resto… unos
70Kg (hipótesis
nula)...
Son
demasiados...
kg 85X
¡Gran
diferencia!
Rechazo la
hipótesis
Muestra
aleatoria de
fumadores

10

¿Qué es una hipótesis?
Una creencia sobre la población,
principalmente sus parámetros:
Media
Varianza
Proporción/Tasa
OJO: Si queremos contrastarla,
debe establecerse antes del
análisis.
Creo que el
porcentaje de
enfermos será el 5%

11

Introducción breve: ¿Los fumadores pesan
más?
Veamos qué puede ocurrir si
tomamos muestras de tamaño 4 y
calculamos el peso medio… para cada caso.
70 75
En la población de no fumadores, el peso
medio es 70 kg.
¿Cómo podríamos ‘demostrar’ si
los fumadores pesan más…
... unos 5 kg más?

12

Decidir si los fumadores pesan más:
Tamaño muestral
¿Qué puede ocurrir si tomamos
muestras de tamaño 30 y
calculamos el peso medio?
70 75

13

Decidir si los fumadores pesan más: Tipos
de error
Tomemos la decisión basándonos
en muestras de tamaño 4...
Puedo cometer 2 tipos de error.
70 75
Se acepta que
no hay
diferencias
Se acepta
que sí hay
diferencias
Error de tipo II
Error de tipo I

14

Razonamiento básico
70
85X
Si supongo que H
0 es cierta...
... el resultado del experimento sería improbable.
Sin embargo ocurrió.
¿qué hace un
científico cuando
su teoría no
coincide con sus
predicciones?

15

Razonamiento básico
70
85X
Si supongo que H
0 es cierta...
... el resultado del experimento sería improbable.
Sin embargo ocurrió.
Rechazo que H
0

sea cierta.

16

Razonamiento básico
70
72X
Si supongo que H
0
es cierta...
... el resultado del experimento es coherente.
• No hay evidencia contra H
0
•No se rechaza H
0
•El experimento no es
concluyente
•El contraste no es significativo
¿Si una teoría
hace predicciones
con éxito, queda
probado que es
cierta?

17

Significación: p
H
0: =70

18

Significación: p
72X
No se rechaza
H
0: =70
H
0: =70

19

Significación: p
72X
No se rechaza
H
0: =70
Es la probabilidad que tendría una región crítica que comenzase exactamente en el
valor del estadístico obtenido de la muestra.
Es la probabilidad de tener una muestra que discrepe aún más que la nuestra de H
0
.
Es la probabilidad de que por puro azar obtengamos una muestra “más extraña” que
la obtenida.
p es conocido después de realizar el experimento aleatorio
El contraste es no significativo cuando p>
P
P

20

Significación : p

85X
Se rechaza H
0
: =70
Se acepta H
1
: >70

21

Significación : p
P
P
85X
Se rechaza H
0
: =40
Se acepta H
1
: >40
El contraste es estadísticamente significativo cuando p<
Es decir, si el resultado experimental discrepa más de “lo tolerado” a priori.

22

Resumen: , p y criterio de rechazo
Sobre 
Es número pequeño,
preelegido al diseñar el
experimento
Conocido  sabemos
todo sobre la región
crítica
Sobre p
Es conocido tras realizar
el experimento
Conocido p sabemos
todo sobre el resultado
del experimento
Sobre el criterio de rechazo
Contraste significativo = p menor que 

23

Resumen: , p y criterio de rechazo
Sobre el criterio de rechazo
Contraste significativo = p menor que 
Estadísticos de contraste
a
259753,500
462319,500
-2,317
,021
U de Mann-Whitney
W de Wilcoxon
Z
Sig. asintót. (bilateral)
Edad del
encuestado
Variable de agrupación: Sexo del encuestadoa.

24

Ejemplo 1: Se juzga a un individuo por la Ejemplo 1: Se juzga a un individuo por la presuntapresunta comisión de un delito comisión de un delito
H
0: Hipótesis nula
Es inocente
No hay diferencias entre
grupos
H
1: Hipótesis alternativa
Es culpable
Sí hay diferencias entre
grupos
Los datos pueden
refutarla
La que se acepta si las
pruebas no indican lo
contrario
Hipótesis nula y alternativa
No debería ser aceptada sin
una gran evidencia a favor.

25

Contrastes de hipótesis clásicos
Pruebas para comparar dos grupos
Un grupo de individuos recibirá un tratamiento.
 Otro grupo ‘comparable’ recibirá un placebo.
¿Los resultados son similares?
¿Cómo medimos el resultado?
Numéricamente

prueba t-student
Si/No, Sana/Enferma, …
Prueba chi-cuadrado

26

Problema:
¿Las diferencias numéricas obtenidas al comparar
dos tratamientos (o dos poblaciones) son lo
suficientemente grandes como para que su única
causa sea atribuible al azar?
Clasificación:
Muestras independientes
Muestras apareadas/relacionadas

27

Muestras relacionadas (apareadas)
Cómo:
Observamos al mismo individuo dos veces
(antes/después,…)
O bien, hacemos parejas de individuos “parecidos”…
Cuándo:
Cuando hay fuentes de variabilidad que pueden tener
un efecto grande con respecto a lo que medimos.

28

Contrastes con muestras relacionadas
Hipótesis Nula:
No hay diferencias entre las parejas de observaciones
Se rechazará cuando la muestra discrepe.
(p es pequeño)
Hay diferentes aproximaciones:
Paramétrica (T- Student)
No puede aplicarse así como así…
No paramétrica (Wilcoxon)
Se puede aplicar siempre.

29

Ejemplo:
Comparar la producción de maiz de dos tipos de
semillas.
Las semillas influirán, pero posiblemente poco con
respecto a otras variables:

Sol, viento, terreno,…
Idea: Probar los dos tipos de semillas en “idénticas”
condiciones.

30

Ejemplo: Semillas
Prueba de muestras relacionadas
-33,7273 19,95135 -78,1816 10,7271 ,122
Semilla tipo I -
Semilla tipo II
Media
Error típ. de
la media InferiorSuperior
95% Intervalo de
confianza para la
diferencia
Diferencias relacionadas
Sig. (bilateral)
Estadísticos de contraste
b
-1,600
a
,110
Z
Sig. asintót. (bilateral)
Semilla tipo II
- Semilla tipo I
Basado en los rangos negativos.a.
Prueba de los rangos con signo de Wilcoxonb.

31

Muestras independientes
Problema:
¿La ingesta de calcio reduce la presión sanguínea?
 Esquema de estrategia:
Elegimos 2 muestras de individuos (independientes)
Unos toman dosis fija de calcio. Otros no.
Experimental/Placebo
Alguna diferencia habrá en los resultados… ¿Se
deben al azar?
Elección de un contraste y cálculo de significación.

32

Muestras independientes
Hipótesis Nula:
No hay diferencias entre los resultados de ambos
grupos.
Al igual que antes… sigue habiendo diferentes
aproximaciones:
Paramétrica (T- Student)

No puede aplicarse así como así…
No paramétrica (Wilcoxon, Mann-Whitney)

Se puede aplicar siempre.

33

Muestras independientes: Ejemplo
Se cree que la ingesta de calcio reduce la
presión sanguínea. Para contrastarlo se decidió
elegir 2 muestras independientes:
Casos: A 10 individuos, se les asignó un tratamiento
consistente en un suplemento de calcio durante 3
meses y se observó la diferencia producida en la
presión arterial

la que había “antes” menos la que había “después”
Controles: A los 11 individuos restantes se les
suministró un placebo y se midió también la
diferencia.

34

… y ahora la inferencia…
Prueba de muestras independientes
,051 ,119-12,02622 1,48077
,129-12,25749 1,71204
Se han asumido
varianzas iguales
No se han asumido
varianzas iguales
Efecto
Sig.
Prueba
de
Levene
para la
igualdad
de
varianzas
Sig. (bilateral)InferiorSuperior
95% Intervalo de
confianza para la
diferencia
Prueba T para la igualdad de medias
Estadísticos de contraste
40,500
,306
U de Mann-Whitney
Sig. asintót. (bilateral)
Efecto

35

Sobre las condiciones de validez
(paramétrica)
Igualdad en la dispersión
en cada muestra es algo
a tener en cuenta.
No es un problema para
dos muestras, !pero sí para
casos más complicados!
Normalidad en cada
muestra:
Kolmogorov
-Smirnov
Placebo Calcio
Grupo
-10,00
0,00
10,00
20,00
E
f
e
c
t
o
13
Pruebas de normalidad
,200 ,753
,200 ,194
Grupo
Placebo
Calcio
Efecto
Sig. Sig.
Kolmogorov-Smirnov Shapiro-Wilk

36

-10 -5 0 5 10
Valor observado
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
N
o
r
m
a
l

e
s
p
e
r
a
d
o
para grupo= Placebo
Gráfico Q-Q normal de Efecto
-10 -5 0 5 10 15 20
Valor observado
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
N
o
r
m
a
l

e
s
p
e
r
a
d
o
para grupo= Calcio
Gráfico Q-Q normal de Efecto
Condición de normalidad

37

Una variable numérica y varios grupos
Problema:
¿Las diferencias numéricas obtenidas al comparar dos,
tres o más tratamientos (o poblaciones) son lo
suficientemente grandes como para que su única causa
sea atribuible al azar?
Observar que generaliza lo anterior.
A la variable numérica que observamos se la suele llamar
dependiente.
A la variable que clasifica a los individuos en diferentes grupos
se la llama factor (o variable independiente).
A sus modalidades se les llama niveles del factor.

38

Muestras independientes
Hipótesis Nula:
No hay diferencias entre los niveles del factor.
Aproximaciones:
Paramétricas: ANOVA de un factor
Es el caso más simple de toda una familia de técnicas muy
poderosas.
No paramétricas: Kruskal-Wallis.

39

Muestras independientes
Problema:
¿La ingesta de calcio reduce la presión sanguínea?
 Esquema de estrategia:
Elegimos 2 muestras de individuos (independientes)
Unos toman dosis fija de calcio. Otros no.
Control/Placebo
Alguna diferencia habrá en los resultados… ¿Se
deben al azar?
Elección de un contraste y cálculo de significación.

40

Muestras independientes: Ejemplo
Ejemplo: Se realizó un experimento para comparar tres
métodos de aprendizaje de lectura.
 Se asignó aleatoriamente los estudiantes a cada uno de
los tres métodos.
Los métodos de lectura son el factor (lo que explicará los
resultados).
 Cada método fue probado con 22 estudiantes
(experimento equilibrado).
Cada método es uno de los niveles del factor
 Se evaluó mediante diferentes pruebas la capacidad de
comprensión de los estudiantes, antes y después de
recibir la instrucción.
Variables dependientes (numéricas).

41

¿Problemas de diseño?
Los individuos fueron asignados al azar a cada
grupo… ¿Se repartieron bien?
¿Tenían la misma puntuación “antes”?
No se encuentra evidencia en contra (p=0,436)
ANOVA
Antes
7,826 2 3,913 ,842 ,436
292,739 63 4,647
300,564 65
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.

42

Sobre las condiciones de validez (paramétrica)
Igualdad en la
dispersión en cada
muestra (Levene)
Normalidad de cada
muestra.
Pruebas de normalidad
,032 ,589
,026 ,039
,118 ,073
Grupo
Control
Técnica I
Técnica II
pre1
Sig. Sig.
Kolmogorov-
Smirnov
Shapiro-Wilk
Prueba de homogeneidad de varianzas
Antes
,305 2 63 ,738
Estadístico
de Levene gl1 gl2 Sig.

43

Y ahora lo interesante…
Informe
Diferencia
9,8712 2,67505 22
13,5000 3,06283 22
13,0909 2,36918 22
12,1540 3,13531 66
Grupo
Control
Técnica I
Técnica II
Total
Media Desv. típ. N
222222N =
Grupo
Técnica IITécnica IControl
D
if
e
r
e
n
c
ia
20
18
16
14
12
10
8
6
4
2
¿Las tres técnicas de aprendizaje producen el
mismo efecto?

44

Prueba de homogeneidad de varianzas
Diferencia
1,412 2 63 ,251
Estadístico
de Levene gl1 gl2 Sig.
ANOVA
Diferencia
173,814 2 86,907 11,771 ,000
465,148 63 7,383
638,962 65
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados gl
Media
cuadrática F Sig.

45

Análisis a posteriori de un ANOVA significativo
Comparaciones planeadas
Hay que ser honestos
Comparaciones no planeadas (post-hoc)
Muy conservadoras
Para que las diferencias sean significativas,
tienen que serlo muuuucho.

46

Versión no paramétrica (Kruskal Wallis)
No requerimos ninguna condición que sea de
comprobación difícil.
Estadísticos de contraste
a,b
18,042
2
,000
Chi-cuadrado
gl
Sig. asintót.
Diferencia
Prueba de Kruskal-Wallisa.
Variable de agrupación: Grupob.
Tags