Presentación de Análisis Estadístico Multivariado

EduardoCaman 0 views 31 slides Oct 03, 2025
Slide 1
Slide 1 of 31
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31

About This Presentation

Presentación Análisis Estadístico Multivariado


Slide Content

An´alisis Estad´ıstico Multivariado
Universidad Torcuato Di Tella
Eduardo Caman Mamani
30 de septiembre de 2025
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

Objetivos y variables seleccionadas
Aplicar t´ecnicas de an´alisis multivariado sobre indicadores de
desarrollo (PCA, Cluster y an´alisis factorial).
Fuente: World Development Indicators, Banco Mundial (2022).
Se seleccionaron 101 pa´ıses/territorios (no regiones o bloques de
pa´ıses).
Variables seleccionadas:
PIB per c´apita
Inflaci´on
Exportaciones ( % PIB)
Esperanza de vida
Tasa de fertilidad
Educaci´on secundaria completa ( %)
Emisiones de CO2per c´apita
Acceso a Internet
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

Estad´ısticas descriptivas
Se calcularon:
Media, mediana, desviaci´on est´andar, m´ınimo y m´aximo.
Resultados clave:
Alta variabilidad en PIB per c´apita, exportaciones e Internet.
Patrones consistentes en esperanza de vida y fertilidad.
Presencia de posibles outliers.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

Correlaciones y covarianzas
Matrices calculadas:
Varianzas y covarianzas (S)
Correlaciones (R)
Hallazgos principales:
Correlaci´on negativa entre fertilidad y educaci´on/internet.
PIB per c´apita correlacionado con esperanza de vida e Internet.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

Observaciones preliminares
La informaci´on de las 8 variables nos permiten ver el siguiente cuadro
de principales medidas como la media, varianza, entre otros.
Variable
lejos que las dem´as.
La mayor parte de las variables excepto
fertilidad) son las que se diferencian de las dem´as, tienen una relaci´on
negativa con el grado de desarrollo de los pa´ıses.
Esto se evidencia con en la matriz de correlaciones (R
correlaciones negativas entre estas dos y la variable
c´apita)
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

Matriz de varianzas y covarianzas (S
En el caso de la matriz de varianzas y covarianzas (S
Apreciamos como la variable
varianza.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

Matriz de correlaciones (R
En el caso de la matriz de correlaciones de la muestra:
Apreciamos como las variables
correlacionan negativamente con el PBI per c´apita, lo que podr´ıa
indicar su relaci´on con el desarrollo econ´omico de los pa´ıses.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

Principales medidas de variabilidad global
Los resultados de las medidas de
variabilidad global son los siguientes:
Varianza totalS
562559506,69
Varianza media
562559506,69
8
=
70319938,34
Varianza generalizada
detS,55828824286e
Varianza
efectivaS
1
8= 370,60
En s´ıntesis, los altos valores de la
varianza total, media y dem´as
podr´ıan indicar una alta variabilidad
de los datos, si consideramos en el
an´alisis descriptivo, se puede notar
que las varianzas de cada variable
son muy altas, lo cual indicar´ıa que
en promedio para cada indicador hay
una alta dispersi´on de los datos en
torno a la media.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de componentes principales
Resultados principales de PCA (matriz de correlaciones)
N´umero de variables: 8 (indicadores econ´omicos, sociales, ambientales,
etc.).
Primer componente (u
varianza.
Segundo componente (u
varianza.
Varianza acumulada explicada con 2 componentes: 69,9 %.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de componentes principales
Podemos apreciar en los resultados del PCA:
Apreciamos que reci´en con 5 componentes se supera el 90 % de
varianza explicada por el PCA.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de componentes principales
Podemos apreciar en los resultados a la matriz de autovectores:
Apreciamos que la primera componente est´a vinculada con el grado
de desarrollo socio-econ´omico de los pa´ıses.
De otro lado, la segunda componente podr´ıa estar vinculada con el
grado de estabilidad macroecon´omica.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de componentes principales
Hallamos el valor de las primeras 2 componentes principales para cada una
de las observaciones (pa´ıses) con predict y aplicamos estad´ıstica
descriptiva:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de componentes principales
En lo que refiere al Biplot:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de componentes principales
Dimensi´on 1 (horizontal): est´a asociada fuertemente a PIB per c´apita
(vv 2(v
(vvv
desarrollo socioecon´omico y apertura..
Dimensi´on 2 (vertical): est´a dominada por inflaci´on (v
negativa) y, en menor medida, por fertilidad (v
positiva) podr´ıa indicar un eje de inestabilidad macroecon´omica y
transici´on demogr´afica.
Vectores largos (v
contribuci´on al espacio 2D.
v
positivamente correlacionados (desarrollo, educaci´on, salud,
digitalizaci´on, exportaciones).
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de componentes principales
Por el contrario,
vvv
v
captado en el componente principal 2.
En cuanto a los pa´ıses
Parte derecha (Componente 1 alto): pa´ıses como Luxemburgo, Catar

Parte izquierda (Componente 1 bajo): pa´ıses africanos (N´ıger, Mal´ı,
etc.)
Parte superior (Componente 2 positivo): pa´ıses con mayor fertilidad
relativa.
Parte inferior (Componente 2 negativo): pa´ıses con alta inflaci´on (ej.
Turqu´ıa, Zimbabue, entre otros).
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de componentes principales
En lo que refiere al Biplot:
En ambos se confirma la interpretaci´on anterior, la primera dimensi´on es
socio econ´omica y la segunda es de corte macro y tendencias poblacionales
(inflaci´on, fertilidad).
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de conglomerados (clusters)
Se pide aplicar el m´etodo jer´arquico a las 2 componentes principales
halladas.
Utilizar dos m´etodos distintos (elegir entre los encadenamientos
simple, completo, promedio, etc.).
Utilizar un dendrograma para interpretar y representar los resultados.
Comparar con el biplot usado en el PCA.
En nuestro caso usamos:
Encadenamiento simple: nivel ´optimo de clusters: 9
Encadenamiento completo: nivel ´optimo de clusters: 11
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de conglomerados (clusters)
En lo que refiere a la dispersi´on de las dos componentes principales:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de conglomerados (clusters)
En lo que refiere al encadenamiento simple con 9 grupos:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de conglomerados (clusters)
En lo que refiere al encadenamiento completo con 11 grupos:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de conglomerados (clusters)
En lo que refiere al encadenamiento simple (derecha) y completo
(izquierda), los dendrogramas son:
Debido a la cantidad de observaciones (101) solo se agruparon en 20
grupos para ser visibles.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de conglomerados (clusters)
Podemos apreciar que Zimbabue se agrupa en un conglomerado m´as
aislado del resto, al igual que los pa´ıses con mayor renta per c´apita como
Catar y Luxemburgo siguiendo la tendencia de los dos componentes
principales:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis de conglomerados (clusters)
Grupo de alto desarrollo: PIB e Internet altos, baja fertilidad, buena
educaci´on y salud (ej. OCDE, pa´ıses del Golfo).
Grupo intermedio: exportadores o con indicadores mixtos (ej. pa´ıses
latinoamericanos, emergentes asi´aticos)
Grupo rezagado: baja renta, alta fertilidad, bajos niveles de educaci´on
e Internet (ej.´Africa subsahariana).
Con m´as cortes (5 cl´usteres) aparecen subdivisiones internas (ej.
pa´ıses con alta inflaci´on como Zimbabue o Turqu´ıa forman
subgrupos).
El cl´uster confirma lo visto en PCA: desarrollo vs. rezago, con la
inflaci´on como diferenciador adicional.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis factorial
Nos piden hallar un modelo factorial con un solo factor.
Estimar la matriz de varianzas y covarianzas que surge del modelo y
compararlo con la matriz muestral
Repetir estos pasos con dos factores y analizar cu´al es el m´as
adecuado.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis factorial
Podemos apreciar con un factor se explica el 89,2 %:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis factorial
Comparando la matriz de covarianzas del modelo con 1 factor con la
matriz de varianzas y covarianzas muestrales (correlaciones):
Vemos que hay cierta similitud entre ambas matrices.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis factorial
Aplicando el Test:
Podemos apreciar que con dos factores hay un p-valor menor al 5 % y un
AIC m´as bajo.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis factorial
Podemos apreciar con dos factores se explica el 99,4 %:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis factorial
Comparando la matriz de covarianzas del modelo con 2 factores con la
matriz de varianzas y covarianzas muestrales (correlaciones):
Vemos que hay cierta similitud entre ambas matrices, un tanto diferente
que con el modelo de 1 factor.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis factorial
Asimismo, los cambios en las comunalidades:
Podemos apreciar que hay un incremento en las comunalidades ante un
aumento de un factor.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025

An´alisis factorial
El Factor 1 agrupa de forma consistente las variables de desarrollo
socioecon´omico y humano:
Altas cargas positivas: PIB (vv
(vvv
Alta carga negativa: fertilidad (v
Inflaci´on (v,97).
Este factor puede interpretarse como un ´ındice de desarrollo
socioecon´omico, donde pa´ıses con alto PIB, educaci´on, salud e
Internet punt´uan alto, y pa´ıses con alta fertilidad punt´uan bajo.
Se puede apreciar cierta similitud con los scores hallados en el PCA.
El primer factor est´a asociado positivamente con las variables que
tienen relaci´on con el desarrollo socio-econ´omico, mientras que el
segundo factor no tiene mucha similitud con el componente principal
dos.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025