ANALISIS ESTADISTICO MULTIVARIADO
Alejandra Clemente
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Analisis Multivariado
1
Programa
2
Breve repaso de algebra lineal
3
Descripcion de datos univariados
4
Descripcion de datos multivariados
5
Ejemplo: Caractersticas habitacionales de la poblacion
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Programa
1
Descripcion de datos multivariados: La matriz de datos, vector de medias, matriz de
variancias y covariancias, medidas globales de variabilidad, medidas de distancia, matriz de
precision.
2
Componentes Principales: Enfoques descriptivo, estadstico y geometrico del pro- blema.
Calculo de las componentes. Propiedades. Los componentes como predictores optimos.
Escalado multidimensional.
3
Analisis de Conglomerados: Metodos clasicos de particion. Metodos jerarquicos y no
jerarquicos. Algoritmos de particion.
4
Inferencia con datos multivariados: Variables aleatorias vectoriales. Propiedades. Dis-
tribuciones de probabilidad multivariadas.
5
Analisis Factorial: Hipotesis del modelo factorial. Propiedades. Unicidad del mo- delo.
Estimacion de factores. Rotacion de los factores.
6
Analisis Discriminante: Clasicacion entre dos poblaciones. Poblaciones normales: funcion
lineal discriminante para clasicar dos o mas poblaciones. Variables canonicas discrimi-
nantes: dos o mas grupos.
7
Correlaciones Canonicas: Construccion de variables canonicas. Propiedades. Estimacion.
Tests de hipotesis de interes.
8
Deteccion de outliers.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Breve repaso de algebra lineal
Introduccion
Seaxun vector yAuna matriz cuadrada y simetrica. Se dene una
forma cuadratica como:
x
0
Ax=
n
X
i=1
aiix
2
i+ 2
n
X
i=1
n
X
j=i+1
aijxixj
Six
0
Ax0 para todox6= 0, entoncesAes semidenida positiva.
Six
0
Ax>0 para todox6= 0, entoncesAes denida positiva.
El determinante y la traza de matrices denidas positivas son numeros
positivos.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Breve repaso de algebra lineal
Introduccion
Las matrices ortogonales son matrices cuadradas que pueden represen-
tar un giro en el espacio o simetra con respecto a un plano.
Condicion de ortogonalidad:
C
0
=C
1
Dado un vectorxyCuna matriz no singular, se deney=Cx.
SiCrepresenta un giro:y
0
y=x
0
C
0
Cx=x
0
x, es decir,C
0
C=I.
Entonces,
y=Cx;
C
0
y=C
0
Cx=x
por otro lado, siendo C no singular...
y=Cx;
C
1
y=C
1
Cx=x
entoncesC
0
=C
1
.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Breve repaso de algebra lineal
Introduccion
Dada una matriz cuadrada hay determinadas propiedades invariantes
ante transformaciones lineales que preservan la informacion existente
en la matriz.
Losautovaloresson las medidas basicas de tama~no de una matriz.
Se puede demostrar que las medidas globales de tama~no de la matriz
(traza, determinante), solo dependen de los autovalores y en conse-
cuencia seran tambien invariantes ante transformaciones lineales.
Losautovectoresrepresentan las direcciones caractersticas de la ma-
triz. Para cada matriz cuadrada existen ciertos vectores que al trans-
formarlos por la matriz solo se modica su norma y no su posicion en
el espacio.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Breve repaso de algebra lineal
Introduccion
SeaA
(nxn), llamaremos autovectores deAa aquellos vectores cuya
direccion no se modica al transformarlos (multiplicarlos) por la matriz:
Au=u
dondees un escalar que llamamos autovalor de la matriz.
Determinar los autovectores deAimplica resolver (AI)u= 0 que
es un sistema homogeneo de ecuaciones que tendra solucion no nula si
y solo si la matriz (AI) es singular (vericajAIj= 0).
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Breve repaso de algebra lineal
Introduccion
Cuando la matriz tienenautovalores propios distintos, a cada autovalor
le podemos asociar un autovector bien denido y esos autovectores son
linealmente independientes.
Algunas propiedades:
Sies un autovalor deA,entonces
r
es un autovalor deA
r
. En
particular, siAes no singular,6= 0 y
1
es un autovalor deA
1
.
Los autovalores de una matriz y su transpuesta son iguales.
La suma de los autovalores deAes igual a la traza deA.
El producto de los autovalores deAes igual al determinante deA.
SiAes una matriz simetrica, los autovalores son siempre reales y los
autovectores son siempre ortogonales.
SiPes no singular, las matricesAyP
1
APtienen los mismos autova-
lores.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Breve repaso de algebra lineal
Introduccion
Las matrices simetricas pueden diagonalizarse mediante una transfor-
macion ortogonal.
SeaA
(nxn)una matriz cuadrada y simetrica, tiene autovalores reales y
autovectores ortonormales.
Los autovectoresu1;u2; :::;unson linealmente independientes y forman
una base enR
n
.
A[u1;u2; : : :un] = [1u1; 2u2; : : : ; nun];
AU=UD
dondeison los autovalores asociados a los autovectoresui.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Breve repaso de algebra lineal
Introduccion
AU=UD;
U
0
AU=U
0
UD;
U
0
AU=D
Des la matriz diagonal de autovaloresi,Ues la matriz ortogonal de
autovectores.
Al diagonalizar una matriz simetrica:
los autovalores representan las constantes por las que se han multiplicado
los vectores ortonormales iniciales.
los autovectores indican el giro o rotacion realizado.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Breve repaso de algebra lineal
Introduccion
Analizando el determinante:
jU
0
jjAjjUj=jDj=
n
Y
i=1
i
Por lo tanto:
Si un autovalor es nulo el determinante es igual a 0 y la matrizAes
singular (no invertible)
rango(A) =rango(D), e igual al numero autovalores no nulos.
El rango de una matriz simetrica es igual al numero de autovalores no
nulos.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Descripcion de datos univariados
Estadsticos descriptivos basicos
Estadstico Expresion
Media muestral xj=
1
n
n
X
i=1
xij
Variancia s
2
=
1
n
n
X
i=1
(xijxj)
2
Desvo estandars=
1
n
n
X
i=1
(xijxj)
2
!
1=2
Coeciente de variacion CV=
s
x
Asimetra A=
1
n
P
n
i=1
(xijxj)
3
s
3
j
Kurtosis K=
1
n
P
n
i=1
(xijxj)
4
s
4
j
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Descripcion de datos univariados
Estadsticos descriptivos
Consideremos las desviaciones:
dij= (xijxj)
2
La variancia muestral representa un promedio de desviaciones:
s
2
j=
1
n
n
X
i=1
(xijxj)
2
=
1
n
n
X
i=1
dij
Para comparar la variabilidad de distintas variables conviene calcular
una medida de variabilidad relativa, que no dependa de las unidades de
medida:
CVj=
sj
xj
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Descripcion de datos univariados
Estadsticos descriptivos
Coeciente de asimetra de los datos con respecto a su centro:
Aj=
1
n
P
n
i=1
(xijxj)
3
s
3
j
Este coeciente es igual a cero para una variable simetrica.
Si el valor de este coeciente es positivo y mayor a 1 los datos tienen
una distribucion claramente asimetrica hacia la derecha.
Si el valor de este coeciente es negativo y menor a -1 los datos tienen
una distribucion claramente asimetrica hacia la izquierda.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Descripcion de datos univariados
Estadsticos descriptivos
Homogeneidad del conjunto de datos: Si las desviacionesdijson grandes
o muy distintas, esto sugiere que hay datos que se separan mucho de la
media y por lo tanto tenemos alta heterogeneidad. Una posible medida
de homogeneidad es la variancia de lasdij:
1
n
n
X
i=1
(dijs
2
j)
2
Por lo que vimos antes,s
2
j
es el promedio de las desviaciones. Pode-
mos calcular una medida de homogeneidad analoga al coeciente de
variacion, que no dependa de las unidades de medida.
Hj=
1
n
P
n
i=1
(dijs
2
j
)
2
(s
2
j
)
2
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Descripcion de datos univariados
Estadsticos descriptivos
Hj=
1
n
P
n
i=1
(dijs
2
j
)
2
(s
2
j
)
2
Desarrollando el cuadrado del numerador:
n
X
i=1
(dijs
2
j)
2
=
n
X
i=1
d
2
ij+ns
4
j2s
2
j
n
X
i=1
dij=
n
X
i=1
d
2
ijns
4
j
Podemos calcular el coeciente de homogeneidad de la siguiente ma-
nera:
Hj=
1
n
P
n
i=1
(dijs
2
j
)
2
s
4
j
=
1
n
P
n
i=1
d
2
ij
ns
4
j
s
4
j
=
1
n
P
n
i=1
(xijxj)
4
s
4
j
1
Hj=Kj1
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Descripcion de datos univariados
Estadsticos descriptivos
Hj=Kj1
Kjes el coeciente de Kurtosis.Kj1 ya queHj0.
Ambos coecientes miden la relacion entre la variabilidad de las desvia-
ciones y la desviacion media.
Si hay unos pocos datos atpicos muy alejados del resto, los coecientes
de homogeneidad o kurtosis seran altos.
En el extremo, si los datos se separan en dos grupos,Hjsera peque~no.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Descripcion de datos univariados
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Descripcion de datos multivariados
Datos multivariados
Nuestro objeto de trabajo sera un conjunto denobservaciones parap
variables.
Seaxila i-esima observacion o elemento del conjunto (i= 1;2; : : : ;p),
el vectorxse representa como:
x=
0
B
B
B
@
x1
x2
.
.
.
xp
1
C
C
C
A
Un vectorxp1es un conjunto ordenado depnumeros reales que
representan una posicion en un espacio p-dimensionalVp.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Descripcion de datos multivariados
La matriz de datos
Supondremos que hemos observadopvariables numericas en un con-
junto denelementos. El conjunto de laspvariables conforman una
variable vectorial o vector de variables.
Esta informacion se representa en la matrizX(np), que llamaremos
matriz de datos. Cualquier elemento genericoxijde esta matriz repre-
senta el valor de la variablejsobre el individuoi.
La matriz de datos se puede representar de dos maneras diferentes. Por
las:
X=
0
B
B
B
B
@
x11x12: : :x1p
x21
.
.
.: : :
.
.
.
.
.
.: : :
.
.
.
.
.
.
xn1: : : : : :xnp
1
C
C
C
C
A
=
0
B
B
B
@
x
0
1
x
0
2
.
.
.
x
0
n
1
C
C
C
A
o por columnas:
X=
x1x2: : :xp
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Caractersticas habitacionales de la poblacion - CNPHyC 2022
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Condiciones habitacionales de la poblacion
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Estadsticos descriptivos
En el caso multivariado, la medida descriptiva de posicion central mas
utilizada es el vector de medias.
x=
1
n
X
0
1 =
0
B
B
B
@
x1
x2
.
.
.
xp
1
C
C
C
A
Se dene la matriz de variancias y covariancias:
S=
1
n
n
X
i=1
(xix)(xix)
0
=
0
B
B
B
B
@
s
2
1
s12: : :s1p
s21
.
.
.: : :
.
.
.
.
.
.: : :
.
.
.
.
.
.
sp1: : : : : :s
2
p
1
C
C
C
C
A
Es una matriz cuadrada y simetrica y semidenida positiva.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Estadsticos descriptivos
La matriz de datos centrada se dene como la diferencia entre la matriz
de datosXy la media de cada observacion.
~X=X1x
0
=X
1
n
11
0
X= (I
1
n
11
0
)X=PX
La matrizPes simetrica e idempotente (es decir,PP=P)
S=
1
n
~X
0~X=
1
n
X
0
P
0
PX=
1
n
X
0
PX
La matriz de variancias y covariancias es semidenida positiva:y
0
Sy
0 para todoyno nulo.
La traza, el determinante y los autovalores deSson no negativos.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Condiciones habitacionales de la poblacion
x=
1
n
X
0
1 =
0
B
B
B
B
B
B
B
B
B
B
B
@
0:793
0:882
0:765
0:584
0:682
0:170
0:918
0:828
0:015
1
C
C
C
C
C
C
C
C
C
C
C
A
Matriz S de variancias y covariancias.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Estadsticos descriptivos
Si la matriz S es singular existe una relacion lineal exacta entre las
variables.
Para cada observacionise vericaw
0
(xix) = 0, es decir~Xw= 0.
Multiplicando por~X
0
y dividendo porn:
1
n
~X
0~Xw=Sw= 0
La matrizStiene un autovalor igual a 0 ywes el autovector asociado
a ese autovalor nulo. Si multiplicamos la expresion anterior porw
0
se
obtiene:
1
n
w
0~X
0~Xw=w
0
Sw= 0
.
Es posible reducir la dimension del conjunto de datos eliminando esa
variable. Las coordenadas del vectorwnos indican la combinacion
lineal redundante.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Estadsticos descriptivos
Generalizando, sirango(S) =h,h<p:
Existenphvariables redundantes que pueden eliminarse.
Stienehautovalores distintos de 0 y existiranr=phvectores
no nulos que representanrcombinaciones lineales exactas entre las
variables y verican:
Swi= 08i= 1;2; :::;r
Es posible representar las observaciones de la matriz de datos a partir
deh=prvariables.
Cuando hay mas de un autovalor nulo, las relaciones lineales entre las
variables no estan denidas unvocamente:
S(a1w1+a2w2+:::+arwr) = 0
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Estadsticos descriptivos
Una forma alternativa de analizar el problema. Como
S=
1
n
~X
0~X
El rango deScoincide con el de la matriz de datos centrada, ya que
para cualquier matrizA, si llamamosrg(A) al rango deA, siempre se
verica que:
rg(A) =rg(A
0
) =rg(A
0
A) =rg(AA
0
)
Por lo tanto, si la matriz de datos centrada tiene rangop, este sera
tambien el rango deS.
Si existenrcombinaciones lineales entre las variablesX, el rango de la
matriz de datos centrada serah=pry este sera tambien el rango
de la matrizS.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Medidas de variabilidad conjunta
Cuando las variables estan expresadas todas en la misma unidad de
medida puede resultar interesante encontrar una medida de la variabi-
lidad global o promedio que permitan comparar distintos conjuntos de
datos.
Estadstico Expresion
Variancia totalT=traza(S) =
p
X
i=1
s
2
i
Variancia media s
2
=
1
p
p
X
i=1
s
2
i=
T
p
Variancia generalizada VG=jSj
Desvo generalizado DG=jSj
1=2
Variancia efectiva VE=jSj
1=p
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Medidas de variabilidad conjunta
Lavariancia mediaytotalno tienen en cuenta la estructura de de-
pendencia entre las variables.
Si la dependencia entre las variables es muy alta, la variabilidad con-
junta de los datos es peque~na ya que conociendo una variable podemos
determinar aproximadamente los valores de las demas.
Lavariancia generalizada, esta bien denida, el determinante de la
matriz de variancias y covariancias es siempre no negativo
Es una medida de area (sip= 2), volumen (sip= 3) o hipervolumen
(parap>3) ocupado por el conjunto de datos.
Sip= 2, el desvo estandar generalizado es
jSj
1=2
=sxsy(1r
2
)
1=2
Si las variables son independientes, la mayora de sus valores estaran
dentro de un rectangulo cuyos lados tienen longitud 6sxy 6sy, ya que
por el teorema de Tchebychev entre la media y 3 desvos estandar
podemos encontrar al menos el 90 por ciento de los datos.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Ejemplo conp= 2
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Estadsticos descriptivos - Medidas de Variabilidad
Si las variables estan relacionadas linealmente y el coeciente de cor-
relacion es distinto de cero, la mayora de los puntos tenderan a situarse
alrededor de una recta de regresion y habra una reduccion del area tanto
mayor cuanto mayor seaR
2
.
En el lmite, siR
2
es exactamente igual a 1, todos los puntos estan
ubicados sobre una linea recta, la relacion entre las variables es exacta
y el area ocupada es igual a 0.
En este casoSes singular ya quep= 2 pero su rango es igual a 1.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Estadsticos descriptivos - Medidas de Variabilidad
La variancia generalizada no es util para comparar conjuntos de datos
con distinta cantidad de variables.
Si a un conjunto de datos conpvariables le agregamos una variable
mas, no correlacionada con las anteriores y de variancia igual as
2
p+1
es
facil comprobar que se satisface lo siguiente:
jSp+1j=jSpjs
2
p+1
y eligiendo las unidades de medida de la variablep+ 1 podemos hacer
que la variancia generalizada aumente o disminuya a voluntad.
Para evitar estos inconvenientes, se ha propuesto otra medida global
de variabilidad,variancia efectiva.
VE=jSj
1=p
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Estadsticos descriptivos - Medidas de Variabilidad
Para matrices diagonales (pvariables no correlacionadas entre si), la
variancia efectiva es la media geometrica de las variancias de las va-
riables.
El determinante deSes el producto de sus autovalores, por lo tanto
la variancia efectiva tambien es la media geometrica de los autovalores
que por ser semidenida positiva seran siempre no negativos.
La variancia efectiva tiene en cuenta la estructura de dependencia de
las variables ya que si una variable fuera combinacion lineal de las
restantes, al existir un autovalor nulo se obtendraVE= 0, mientras
que la variancia media sera no nula.
La variancia efectiva siempre es menor a la variancia media.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Ejemplo: Condiciones habitacionales de la poblacion
Matriz S de variancias y covariancias.
Variancia total = 0:1325
Variancia media = 0:01325
Variancia generalizada = 4.359e-27
Desvo estandar generalizado = 6.603e-14
Variancia efectiva = 0:00231175
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Medidas de dependencia
Uno de los objetivos del analisis multivariado es comprender la estructura
de dependencias entre las variables. Estas dependencias pueden darse:
entre pares de variables!matriz de correlacion
entre una variable con respecto a las restantes!regresion
entre pares de variables, eliminando el efecto de las demas variables!
correlaciones parciales
entre el conjunto de todas las variables!coeciente de dependencia
conjunta
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Dependencia entre pares de variables
El coeciente de correlacion entre dos variablesXeYse dene como
=
Cov(X;Y)
p
Var(X)
p
Var(Y)
La dependencia entre pares de variables se mide a traves de la matriz de
correlaciones. Es una matriz cuadrada, simetrica y semidenida positiva (al
igual queS).
R=
0
B
B
B
B
@
1r12: : :r1p
r211: : :
.
.
.
.
.
.: : :
.
.
.
.
.
.
rp1rp2: : :1
1
C
C
C
C
A
R=D
1=2
SD
1=2
dondeD=D(S) es una matriz diagonal que contiene los elementos
diagonales de la matriz de variancias y covarianciasS.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Dependencia conjunta
Finalmente se puede obtener una medida conjunta de la dependencia
entre las variables. Podemos utilizar el determinante de la matriz de
correlacion, que mide el alejamiento del conjunto de variables de la
situacion de perfecta dependencia lineal.
Se puede demostrar 0 jRj 1 y ademas:
Si las variables estan todas no correlacionadas,Res una matriz identidad
de ordenpyjRj= 1.
Si una variable es combinacion lineal del resto,SyRson singulares y
por lo tantojRj= 0
En el caso general, se puede demostrar que:
jRpj= (1R
2
p=1;2;3;:::;p1
)(1R
2
p1=1;2;3;:::;p2
): : :(1R
2
1=2
)
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Dependencia conjunta
De acuerdo con esta propiedad,jRpj
1
p1representa la media geometrica
de la proporcion de variabilidad explicada por todas las regresiones
anteriores.
Se puede observar que tambien es la media geometrica de los auto-
valores deRp, teniendo en cuenta que solo tenemosp1 autovalores
independientes ya que estan ligados por la relacion:
p
X
i=1
i=p
dondeison los autovalores deR. Se dene elcoeciente de de-
pendencia efectivacomo:
D(Rp) = 1 jRpj
1=(p1)
Sip= 2jR2j= 1r
2
12
y este coeciente coincide con el cuadrado del
coeciente de correlacion entre las dos variables.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Ejemplo: Condiciones habitacionales de la poblacion
Traza(R) = 10
Det(R) = 0:00155
Dependencia efectiva = 0:5125
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Medidas de distancia
Una familia de medidas de distancia muy habituales enR
p
es la familia
de metricas o distancias de Minkowski:
d
(r)
ij
=
p
X
s=1
(xisxjs)
r
!
1=r
Cuando r = 2 obtenemos la distancia eucldea:
d
(2)
ij
=
p
X
s=1
(xisxjs)
2
!
1=2
= [(xixj)
0
(xixj)]
1=2
Es la distancia mas utilizada pero depende de las unidades de medida
de las variables.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Medidas de distancia
Una manera de evitar este problema es dividir cada variable por un
termino que elimine el efecto de escala. Esto conduce a la familia de
metricas eucldeas ponderadas, que se denen como:
dij= [(xixj)
0
M
1
(xixj)]
1=2
DondeMes una matriz diagonal que se utiliza para estandarizar las
variables y hacer la medida invariante ante cambios de escala. Por
ejemplo, podemos colocar en la diagonal deMlos desvos estandar de
las variables:
dij=
p
X
h=1
(xihxjh)
2
sh
!
1=2
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Medidas de distancia
Se dene la distancia de Mahalanobis entre un punto y su vector de medias
de la siguiente manera:
di= [(xix)
0
S
1
(xix)]
1=2
Consideremos que p=2:
S
1
=
1
(1r
2
)
s
2
1
rs
1
1
s
1
2
rs
1
1
s
1
2
s
2
2
Y la distancia al cuadrado entre dos puntos (x1;y1), (x2;y2) es:
d
2
M=
1
(1r
2
)
(x1x2)
2
s
2
1
+
(y1y2)
2
s
2
2
2r
(x1x2)(y1y2)
s1s2
Sir= 0, la distancia de mahalanobis es la distancia eucldea estandarizando
las variables por sus desvos estandar.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Asimetra y Kurtosis
La generalizacion de estos coecientes para el caso multivariado no es
inmediata. A continuacion vemos una de las propuestas mas utilizadas
y se debe a Mardia (1970).
Se propuso calcular las distancias de Mahalanobis para cada par de
elementos muestrales (i;j):
dij= [(xix)
0
S
1
(xjx)]
Coeciente de asimetra multivariante:
Ap=
1
n
2
n
X
i=1
n
X
j=1
d
3
ij
Coeciente de kurtosis multivariante:
Kp=
1
n
n
X
i=1
d
2
ii
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Asimetra y Kurtosis
Propiedades:
Para variables escalares,Ap=A
2
:
Ap=
1
n
2
n
X
i=1
n
X
j=1
d
3
ij=
1
n
2
n
X
i=1
n
X
j=1
(xix)(xjx)
s
2
3
=
Ap=
1
n
2
s
6
"
n
X
i=1
(xix)
3
#
2
=A
2
El coeciente de asimetra es no negativo, y solo sera igual a cero si
los datos son simetricos.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Asimetra y Kurtosis
Propiedades:
Para variables escalaresK=Kp.
dii=
(xix)(xix)
s
2
2
=
(xix)
4
s
4
Los coecientes son invariantes ante transformaciones lineales de los
datos.
Siy=ax+b, los coecientes de asimetra y kurtosis dexeyson
identicos.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Anexo: algo mas sobre dependencia entre variables
La matrizS
1
se denominamatriz de precisiony contiene informacion
sobre la relacion multivariada entre cada una de las variables y el resto.
Puede demostrarse que esta matriz contiene informacion sobre:
Por las y fuera de la diagonal principal, los coecientes de regresion
multiple de la variable correspondiente a esa la, explicada por todas
las demas.
En la diagonal, las inversas de las variancias residuales de la regresion
de cada variable con el resto.
Si estandarizamos los elementos de esta matriz, los elementos fuera
de la diagonal principal son los coecientes de correlacion parcial entre
estas variables.
Por lo tantoS
1
contiene toda la informacion sobre las regresiones de
cada variable sobre las restantes.
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa
Ejemplo: Caractersticas habitacionales de la poblacion
Matrices de covariancias y de precision
S=
0
B
B
B
B
B
B
B
@
s
2
1
s12s13: : :s1p
s21s
2
2
s23: : :
.
.
.
s31s32s
2
3
: : :
.
.
.
.
.
.: : : : : :
.
.
.
.
.
.
sp1: : : : : : : : :s
2
p
1
C
C
C
C
C
C
C
A
S
1
=
0
B
B
B
B
B
B
B
@
s
11
s
12
s
13
: : :s
1p
s
21
s
22
s
23
: : :
.
.
.
s
31
s
32
s
33
: : :
.
.
.
.
.
.: : : : : :
.
.
.
.
.
.
s
p1
: : : : : : : : :s
pp
1
C
C
C
C
C
C
C
A
Maestra en Econometra Universidad Torcuato Di Tella Maestra en Economa