vitor_vasconcelos
7,764 views
77 slides
Aug 12, 2017
Slide 1 of 77
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
About This Presentation
Aula de Métodos e Técnicas de Análise da Informação para o Planejamento, UFABC, 8 de agosto de 2017
Gravação de aula disponível em: https://youtu.be/8AHJ8PfUg30
Bases de dados disponívem em: https://app.box.com/s/usbad42g9op1coew9n6fw17lqlq5b3t1
Size: 4.28 MB
Language: pt
Added: Aug 12, 2017
Slides: 77 pages
Slide Content
ANÁLISE DE AGRUPAMENTOS
(Cluster Analysis)
Vitor Vieira Vasconcelos
Fláviada Fonseca Feitosa
BH1350 –Métodose Técnicasde Análiseda Informaçãoparao Planejamento
Agosto de 2017
É uma técnica analítica pra identificar subgrupos
significativos de entidades homogêneas
(pessoas/objetos/lugares).
O objetivo é classificar uma amostra de entidades
em um número menor de grupos mutuamente
excludentes, com base nas similaridades entre as
entidades.
Busca por uma estrutura “natural” entre as
observações com base em um perfil multivariado.
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados.6ª ed., 2009.
ANÁLISE DE AGRUPAMENTOS
Os agrupamentos resultantes de entidades devem
exibir elevada homogeneidade interna (dentro
dos agrupamentos) e elevada heterogeneidade
externa (entre agrupamentos).
ANÁLISE DE AGRUPAMENTOS
Idealmente, os
objetos dentro de um
agrupamento estarão
próximos quando
representados
graficamente, e
diferentes
agrupamentos estarão
distantes.
Agrupamentoscom maisde
duasvariáveis
1.Classificarossetorescensitáriosde acordocom as
diferentesdimensõesde justiça/injustiça ambiental.
2.Classificarosmunicípiosde SP emfunçãodas diferentes
dimensõesde violênciacontra a mulher
3.Classificarosbairrosdo ABC de acordo com a
quantidade/perfildos lançamentosresidenciais
4.Classificarosdistritosde SP de acordocom as variáveisde
infraestruturae entornodos domicílios
5.…
Exemplos “inspirados” nos trabalhos
propostos pelos alunos
1. Medição de Similaridade
Agrupamentossãogruposde objetossemelhantes.
Precisamos, portanto, definirumamedidado graude
similaridade/dissimilaridadeentre osobjetos.
Épossívelmedirsimilaridade, porexemplo, de acordocom a
distânciaeuclidianaentre cadapar de observações.
1. Medição de Similaridade
•Medidasde proximidade
oDistânciaEuclidiana(ouEuclidianaQuadrática)
•Medidasde Padrões
oCoeficientede correlação“r” de Pearson
2. Formação de Agrupamentos
Definidaa medidade similaridadea seradotada,
precisamosformaragrupamentoscom base na
similaridadede cadapar de observações.
Esseprocedimentodevedeterminara pertinênciaa
grupode cadaobservaçãoparacadaconjuntode
agrupamentosformados
2. Formação de Agrupamentos
•Diminuira variaçãoentre agrupamentos
•Diminuira variaçãodentrodos agrupamentos
2. Formação de Agrupamentos
•Ligaçãoentre grupos
1
2
1
2
1
2
1
2
3
4
5
3
4
5
3
4
5
3
4
5. .
Single-Linkage
Distância ao vizinho mais próximo
Complete-Linkage
Distância ao vizinho mais afastado
Average- Linkage
Distância média aos elementos
Centroid-linkage
Distância ao centro médio dos elementos
2. Formação de Agrupamentos
•MétodoWard
Diminuira variânciainternanosagrupamentos
Tendea geraragrupamentoscom númerosmais
similaresde casosdo que o métodode ligaçãoentre
grupos
3. Número de Agrupamentos
DILEMA
Menornr. de agrupamentos&
Menorhomogeneidadeinternanosgrupos
VS.
Maiornr. de agrupamentos&
Maiorhomogeneidadeinternanosgrupos
Agrupamento em Árvore
Considereas seguintesobservações:
Variávelde
Agrupamento
Observação
A B C D E F G
Variável1 (V1) 3 4 4 2 6 7 6
Variável2 (V2) 2 5 7 7 6 7 4
Agrupamento em Árvore
0
2
4
6
8
0 2 4 6 8
V2
V1
D C
E
F
A
B
G
0
2
4
6
8
0 2 4 6 8
V2
V1
D C
E
F
A
B
G
Agrupamento em Árvore
Como medimossimilaridade?
Nesteexemplo, utilizaremosa
distânciaeuclidiana(linhareta)
entre cadapar de observações
Matrizde Proximidadede Distâncias
Euclidianasentre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,0992,000 -
D 5,0992,8282,000 -
E 5,0002,2362,2364,123 -
F 6,4033,6063,0005,0001,414 -
G 3,6062,2363,6065,0002,0003,162 -
Matrizde Proximidadede Distâncias
Euclidianasentre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,0992,000 -
D 5,0992,8282,000 -
E 5,0002,2362,2364,123 -
F 6,4033,6063,0005,0001,414 -
G 3,6062,2363,6065,0002,0003,162 -
MenorDistância,
MaiorSimilaridade
Agrupamento em Árvore
(1)Identificaras observaçõesmaispróximas(E e F) e
combiná-lasemum agrupamento
Agrupamento em Árvore
(2) Encontrarpróximospares de observações
maissemelhantes
K-MÉDIAS
Gera kdiferentesgruposcom a maiordistinçãopossível
entre eles.
Parte de k-conjuntosaleatóriose move osobjetosentre
estesconjuntoscom o objetivode:
(1)Minimizara variabilidadedentrodos conjuntos
(2)Maximizara variabilidadeentre conjuntos
Refazeranálisehierárquicapara métodoWard e
distânciaeuclidianaquadráticaincluindocoordenadas
geográficasX e Y com variáveis
Análisede Cluster Hierárquica
Consumo
Renda
Rede
X
Y
60%
40%
1º Passo: Criarosscores Z das váriáveis
Analisar> EstatísticasDescritivas> Descritivas
K-MÉDIAS
Analisar> Classificar> Cluster de K- médias…
K-MÉDIAS
Analisar> Classificar> Cluster de K- médias…
K-MÉDIAS
Podemosexportar, no formato .csv ou.dbf (Dbase IV), os
resultadossalvos natabela.
Emseguida, podemosjuntarestatabelaaoshapefile
(União) no QGIS e visualizarosgruposespacialmente
Visualizaçãodos
agrupamentos
Par de
correlação
Renda
X
Rede
2
Renda
X
Consumo
Rede
2
X
Consumo
Agrupamento
1 0.69 0.74 0.86
2 0.89 0.96 0.88
3 0.95 0.83 0.77
4 0.65 0.84 0.69
5 0.86 0.80 0.77
Total 0.44 0.60 0.63
Par de
correlação
Renda
X
Rede
2
Renda
X
Consumo
Rede
2
X
Consumo
Agrupamento
1 0.66 0.74 0.81
2 0.89 0.93 0.86
3 0.93 0.78 0.79
4 0.66 0.86 0.70
5 0.73 0.86 0.93
Total 0.44 0.60 0.63
Correlaçãode Pearson
Ligação
entre
grupos
Método
Ward
Par de
correlação
Renda
X
Rede
2
Renda
X
Consumo
Rede
2
X
Consumo
Agrupamento
1 0.69 0.74 0.86
2 0.89 0.96 0.88
3 0.95 0.83 0.77
4 0.65 0.84 0.69
5 0.86 0.80 0.77
Total 0.44 0.60 0.63
Correlaçãode Pearson
Ligação
entre
grupos
R
2
B1
Renda
B2
Rede
2
Geral0.530.400.46
Agrupamento
1 0.780.290.66
2 0.690.95-0.13*
3 0.920.860.11
4 0.670.540.31
5 0.740.670.26
Regressão
Correlação
Gravardados no Shapefile
Clique com o botãodireitonacamadae selecione
“salvarcomo…”
Exercício
Realize as seguintesanálisesde agrupamentopara os
dados do seu trabalhode curso:
-MétodoWard
-DistânciaEuclideanaaoQuadrado
-Correlaçãode Pearson
-Escolhaum númerode agrupamentoscom base na
heterogeneidadedos grupos
-Realize a regressãopara cada um dos agrupamentosde
correlaçãode Pearson
-Exporteosresultadosdo SPSS para sua base de dados
do QGIS e gereosdoismapasde agrupamento
-Interpreteosresultados