An´alisis Estad´ıstico Multivariado
Universidad Torcuato Di Tella
Eduardo Caman Mamani
30 de septiembre de 2025
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
Objetivos y variables seleccionadas
Aplicar t´ecnicas de an´alisis multivariado sobre indicadores de
desarrollo (PCA, Cluster y an´alisis factorial).
Fuente: World Development Indicators, Banco Mundial (2022).
Se seleccionaron 101 pa´ıses/territorios (no regiones o bloques de
pa´ıses).
Variables seleccionadas:
PIB per c´apita
Inflaci´on
Exportaciones ( % PIB)
Esperanza de vida
Tasa de fertilidad
Educaci´on secundaria completa ( %)
Emisiones de CO2per c´apita
Acceso a Internet
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
Estad´ısticas descriptivas
Se calcularon:
Media, mediana, desviaci´on est´andar, m´ınimo y m´aximo.
Resultados clave:
Alta variabilidad en PIB per c´apita, exportaciones e Internet.
Patrones consistentes en esperanza de vida y fertilidad.
Presencia de posibles outliers.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
Correlaciones y covarianzas
Matrices calculadas:
Varianzas y covarianzas (S)
Correlaciones (R)
Hallazgos principales:
Correlaci´on negativa entre fertilidad y educaci´on/internet.
PIB per c´apita correlacionado con esperanza de vida e Internet.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
Observaciones preliminares
La informaci´on de las 8 variables nos permiten ver el siguiente cuadro
de principales medidas como la media, varianza, entre otros.
Variable
lejos que las dem´as.
La mayor parte de las variables excepto
fertilidad) son las que se diferencian de las dem´as, tienen una relaci´on
negativa con el grado de desarrollo de los pa´ıses.
Esto se evidencia con en la matriz de correlaciones (R
correlaciones negativas entre estas dos y la variable
c´apita)
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
Matriz de varianzas y covarianzas (S
En el caso de la matriz de varianzas y covarianzas (S
Apreciamos como la variable
varianza.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
Matriz de correlaciones (R
En el caso de la matriz de correlaciones de la muestra:
Apreciamos como las variables
correlacionan negativamente con el PBI per c´apita, lo que podr´ıa
indicar su relaci´on con el desarrollo econ´omico de los pa´ıses.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
Principales medidas de variabilidad global
Los resultados de las medidas de
variabilidad global son los siguientes:
Varianza totalS
562559506,69
Varianza media
562559506,69
8
=
70319938,34
Varianza generalizada
detS,55828824286e
Varianza
efectivaS
1
8= 370,60
En s´ıntesis, los altos valores de la
varianza total, media y dem´as
podr´ıan indicar una alta variabilidad
de los datos, si consideramos en el
an´alisis descriptivo, se puede notar
que las varianzas de cada variable
son muy altas, lo cual indicar´ıa que
en promedio para cada indicador hay
una alta dispersi´on de los datos en
torno a la media.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de componentes principales
Resultados principales de PCA (matriz de correlaciones)
N´umero de variables: 8 (indicadores econ´omicos, sociales, ambientales,
etc.).
Primer componente (u
varianza.
Segundo componente (u
varianza.
Varianza acumulada explicada con 2 componentes: 69,9 %.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de componentes principales
Podemos apreciar en los resultados del PCA:
Apreciamos que reci´en con 5 componentes se supera el 90 % de
varianza explicada por el PCA.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de componentes principales
Podemos apreciar en los resultados a la matriz de autovectores:
Apreciamos que la primera componente est´a vinculada con el grado
de desarrollo socio-econ´omico de los pa´ıses.
De otro lado, la segunda componente podr´ıa estar vinculada con el
grado de estabilidad macroecon´omica.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de componentes principales
Hallamos el valor de las primeras 2 componentes principales para cada una
de las observaciones (pa´ıses) con predict y aplicamos estad´ıstica
descriptiva:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de componentes principales
En lo que refiere al Biplot:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de componentes principales
Dimensi´on 1 (horizontal): est´a asociada fuertemente a PIB per c´apita
(vv 2(v
(vvv
desarrollo socioecon´omico y apertura..
Dimensi´on 2 (vertical): est´a dominada por inflaci´on (v
negativa) y, en menor medida, por fertilidad (v
positiva) podr´ıa indicar un eje de inestabilidad macroecon´omica y
transici´on demogr´afica.
Vectores largos (v
contribuci´on al espacio 2D.
v
positivamente correlacionados (desarrollo, educaci´on, salud,
digitalizaci´on, exportaciones).
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de componentes principales
Por el contrario,
vvv
v
captado en el componente principal 2.
En cuanto a los pa´ıses
Parte derecha (Componente 1 alto): pa´ıses como Luxemburgo, Catar
→
Parte izquierda (Componente 1 bajo): pa´ıses africanos (N´ıger, Mal´ı,
etc.)
Parte superior (Componente 2 positivo): pa´ıses con mayor fertilidad
relativa.
Parte inferior (Componente 2 negativo): pa´ıses con alta inflaci´on (ej.
Turqu´ıa, Zimbabue, entre otros).
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de componentes principales
En lo que refiere al Biplot:
En ambos se confirma la interpretaci´on anterior, la primera dimensi´on es
socio econ´omica y la segunda es de corte macro y tendencias poblacionales
(inflaci´on, fertilidad).
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de conglomerados (clusters)
Se pide aplicar el m´etodo jer´arquico a las 2 componentes principales
halladas.
Utilizar dos m´etodos distintos (elegir entre los encadenamientos
simple, completo, promedio, etc.).
Utilizar un dendrograma para interpretar y representar los resultados.
Comparar con el biplot usado en el PCA.
En nuestro caso usamos:
Encadenamiento simple: nivel ´optimo de clusters: 9
Encadenamiento completo: nivel ´optimo de clusters: 11
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de conglomerados (clusters)
En lo que refiere a la dispersi´on de las dos componentes principales:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de conglomerados (clusters)
En lo que refiere al encadenamiento simple con 9 grupos:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de conglomerados (clusters)
En lo que refiere al encadenamiento completo con 11 grupos:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de conglomerados (clusters)
En lo que refiere al encadenamiento simple (derecha) y completo
(izquierda), los dendrogramas son:
Debido a la cantidad de observaciones (101) solo se agruparon en 20
grupos para ser visibles.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de conglomerados (clusters)
Podemos apreciar que Zimbabue se agrupa en un conglomerado m´as
aislado del resto, al igual que los pa´ıses con mayor renta per c´apita como
Catar y Luxemburgo siguiendo la tendencia de los dos componentes
principales:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis de conglomerados (clusters)
Grupo de alto desarrollo: PIB e Internet altos, baja fertilidad, buena
educaci´on y salud (ej. OCDE, pa´ıses del Golfo).
Grupo intermedio: exportadores o con indicadores mixtos (ej. pa´ıses
latinoamericanos, emergentes asi´aticos)
Grupo rezagado: baja renta, alta fertilidad, bajos niveles de educaci´on
e Internet (ej.´Africa subsahariana).
Con m´as cortes (5 cl´usteres) aparecen subdivisiones internas (ej.
pa´ıses con alta inflaci´on como Zimbabue o Turqu´ıa forman
subgrupos).
El cl´uster confirma lo visto en PCA: desarrollo vs. rezago, con la
inflaci´on como diferenciador adicional.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis factorial
Nos piden hallar un modelo factorial con un solo factor.
Estimar la matriz de varianzas y covarianzas que surge del modelo y
compararlo con la matriz muestral
Repetir estos pasos con dos factores y analizar cu´al es el m´as
adecuado.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis factorial
Podemos apreciar con un factor se explica el 89,2 %:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis factorial
Comparando la matriz de covarianzas del modelo con 1 factor con la
matriz de varianzas y covarianzas muestrales (correlaciones):
Vemos que hay cierta similitud entre ambas matrices.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis factorial
Aplicando el Test:
Podemos apreciar que con dos factores hay un p-valor menor al 5 % y un
AIC m´as bajo.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis factorial
Podemos apreciar con dos factores se explica el 99,4 %:
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis factorial
Comparando la matriz de covarianzas del modelo con 2 factores con la
matriz de varianzas y covarianzas muestrales (correlaciones):
Vemos que hay cierta similitud entre ambas matrices, un tanto diferente
que con el modelo de 1 factor.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis factorial
Asimismo, los cambios en las comunalidades:
Podemos apreciar que hay un incremento en las comunalidades ante un
aumento de un factor.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025
An´alisis factorial
El Factor 1 agrupa de forma consistente las variables de desarrollo
socioecon´omico y humano:
Altas cargas positivas: PIB (vv
(vvv
Alta carga negativa: fertilidad (v
Inflaci´on (v,97).
Este factor puede interpretarse como un ´ındice de desarrollo
socioecon´omico, donde pa´ıses con alto PIB, educaci´on, salud e
Internet punt´uan alto, y pa´ıses con alta fertilidad punt´uan bajo.
Se puede apreciar cierta similitud con los scores hallados en el PCA.
El primer factor est´a asociado positivamente con las variables que
tienen relaci´on con el desarrollo socio-econ´omico, mientras que el
segundo factor no tiene mucha similitud con el componente principal
dos.
Eduardo Caman Mamani An´alisis Estad´ıstico Multivariado 30 de septiembre de 2025