Análise de Agrupamentos (Clusters)

vitor_vasconcelos 7,764 views 77 slides Aug 12, 2017
Slide 1
Slide 1 of 77
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52
Slide 53
53
Slide 54
54
Slide 55
55
Slide 56
56
Slide 57
57
Slide 58
58
Slide 59
59
Slide 60
60
Slide 61
61
Slide 62
62
Slide 63
63
Slide 64
64
Slide 65
65
Slide 66
66
Slide 67
67
Slide 68
68
Slide 69
69
Slide 70
70
Slide 71
71
Slide 72
72
Slide 73
73
Slide 74
74
Slide 75
75
Slide 76
76
Slide 77
77

About This Presentation

Aula de Métodos e Técnicas de Análise da Informação para o Planejamento, UFABC, 8 de agosto de 2017
Gravação de aula disponível em: https://youtu.be/8AHJ8PfUg30
Bases de dados disponívem em: https://app.box.com/s/usbad42g9op1coew9n6fw17lqlq5b3t1


Slide Content

ANÁLISE DE AGRUPAMENTOS
(Cluster Analysis)
Vitor Vieira Vasconcelos
Fláviada Fonseca Feitosa
BH1350 –Métodose Técnicasde Análiseda Informaçãoparao Planejamento
Agosto de 2017

•Análisede Agrupamentos
Medidasde similaridade
Métodosde agrupamento
oEmárvore(hierárquico)
oMédiasK
Práticano SPSS e QGIS
Conteúdo

HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise
Multivariada de Dados. 6ª ed., 2009.
Capítulo9 –Análisede Agrupamentos
ReferênciaPrincipal

É uma técnica analítica pra identificar subgrupos
significativos de entidades homogêneas
(pessoas/objetos/lugares).
O objetivo é classificar uma amostra de entidades
em um número menor de grupos mutuamente
excludentes, com base nas similaridades entre as
entidades.
Busca por uma estrutura “natural” entre as
observações com base em um perfil multivariado.
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados.6ª ed., 2009.
ANÁLISE DE AGRUPAMENTOS

Os agrupamentos resultantes de entidades devem
exibir elevada homogeneidade interna (dentro
dos agrupamentos) e elevada heterogeneidade
externa (entre agrupamentos).
ANÁLISE DE AGRUPAMENTOS
Idealmente, os
objetos dentro de um
agrupamento estarão
próximos quando
representados
graficamente, e
diferentes
agrupamentos estarão
distantes.

Agrupamentoscom maisde
duasvariáveis

1.Classificarossetorescensitáriosde acordocom as
diferentesdimensõesde justiça/injustiça ambiental.
2.Classificarosmunicípiosde SP emfunçãodas diferentes
dimensõesde violênciacontra a mulher
3.Classificarosbairrosdo ABC de acordo com a
quantidade/perfildos lançamentosresidenciais
4.Classificarosdistritosde SP de acordocom as variáveisde
infraestruturae entornodos domicílios
5.…
Exemplos “inspirados” nos trabalhos
propostos pelos alunos

Conjuntode variáveisque representamas
característicasusadaspara compararobjetosda
análisede agrupamentos.
Deveserespecificadopeloanalista.
Variável Estatística de Agrupamento

Procedimentospara Análisede
Agrupamento

Características da Análise
de Agrupamentos
1.Édescritiva, não-teóricae não-inferencial
2.Semprecriaráagrupamentos, independenteda
existênciareal de algumaestruturados dados
3.Variedadede viase critériosparaa definiçãodos grupos,
o quepossibilitaa obtençãode soluçõesdiferentes
4.Nãoégeneralizável, poisétotalmentedependentedas
variáveisusadascomobase paraa medidade
similaridade

QUESTÕES-CHAVE
1.Como medirsimilaridade?
2.Como formarosagrupamentos?
3.Quantosgruposformar?

1. Medição de Similaridade
Agrupamentossãogruposde objetossemelhantes.
Precisamos, portanto, definirumamedidado graude
similaridade/dissimilaridadeentre osobjetos.
Épossívelmedirsimilaridade, porexemplo, de acordocom a
distânciaeuclidianaentre cadapar de observações.

1. Medição de Similaridade
•Medidasde proximidade
oDistânciaEuclidiana(ouEuclidianaQuadrática)
•Medidasde Padrões
oCoeficientede correlação“r” de Pearson

2. Formação de Agrupamentos
Definidaa medidade similaridadea seradotada,
precisamosformaragrupamentoscom base na
similaridadede cadapar de observações.
Esseprocedimentodevedeterminara pertinênciaa
grupode cadaobservaçãoparacadaconjuntode
agrupamentosformados

2. Formação de Agrupamentos
•Diminuira variaçãoentre agrupamentos
•Diminuira variaçãodentrodos agrupamentos

2. Formação de Agrupamentos
•Ligaçãoentre grupos
1
2
1
2
1
2
1
2
3
4
5
3
4
5
3
4
5
3
4
5. .
Single-Linkage
Distância ao vizinho mais próximo
Complete-Linkage
Distância ao vizinho mais afastado
Average- Linkage
Distância média aos elementos
Centroid-linkage
Distância ao centro médio dos elementos

2. Formação de Agrupamentos
•MétodoWard
Diminuira variânciainternanosagrupamentos
Tendea geraragrupamentoscom númerosmais
similaresde casosdo que o métodode ligaçãoentre
grupos

3. Número de Agrupamentos
DILEMA
Menornr. de agrupamentos&
Menorhomogeneidadeinternanosgrupos
VS.
Maiornr. de agrupamentos&
Maiorhomogeneidadeinternanosgrupos

Qualo melhornúmerode agrupamentos?
Regrado Cotovelo

Métodos de Agrupamento
1.Agrupamentoemárvore(tree clustering): método
aglomerativohierárquico
2.K-médias(k-means): métodonãohierárquicopor
repartição
3.Duasetapas: 1º Método-> 2º Método

Agrupamento em Árvore
Considereas seguintesobservações:
Variávelde
Agrupamento
Observação
A B C D E F G
Variável1 (V1) 3 4 4 2 6 7 6
Variável2 (V2) 2 5 7 7 6 7 4

Agrupamento em Árvore
0
2
4
6
8
0 2 4 6 8
V2
V1
D C
E
F
A
B
G

0
2
4
6
8
0 2 4 6 8
V2
V1
D C
E
F
A
B
G
Agrupamento em Árvore
Como medimossimilaridade?
Nesteexemplo, utilizaremosa
distânciaeuclidiana(linhareta)
entre cadapar de observações

Matrizde Proximidadede Distâncias
Euclidianasentre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,0992,000 -
D 5,0992,8282,000 -
E 5,0002,2362,2364,123 -
F 6,4033,6063,0005,0001,414 -
G 3,6062,2363,6065,0002,0003,162 -

Matrizde Proximidadede Distâncias
Euclidianasentre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,0992,000 -
D 5,0992,8282,000 -
E 5,0002,2362,2364,123 -
F 6,4033,6063,0005,0001,414 -
G 3,6062,2363,6065,0002,0003,162 -
MenorDistância,
MaiorSimilaridade

Agrupamento em Árvore
(1)Identificaras observaçõesmaispróximas(E e F) e
combiná-lasemum agrupamento

Agrupamento em Árvore
(2) Encontrarpróximospares de observações
maissemelhantes

Dendograma

Dendograma
7 grupos6grupos2 grupos

Métodos de Agrupamento
1.Agrupamentoemárvore(tree clustering): método
aglomerativohierárquico
2.K-médias(k-means): métodonãohierárquicopor
repartição
3.Duasetapas: 1º Método-> 2º Método

K-MÉDIAS
Gera kdiferentesgruposcom a maiordistinçãopossível
entre eles.
Parte de k-conjuntosaleatóriose move osobjetosentre
estesconjuntoscom o objetivode:
(1)Minimizara variabilidadedentrodos conjuntos
(2)Maximizara variabilidadeentre conjuntos

K-MÉDIAS
MINIMIZAR
VARIÂNCIAS
INTRA-GRUPOS
MAXIMIZAR
VARIÂNCIAS
INTER-GRUPOS

Métodos de Agrupamento
1.Agrupamentoemárvore(tree clustering): método
aglomerativohierárquico
2.K-médias(k-means): métodonãohierárquicopor
repartição
3.Duasetapas: 1º Método-> 2º Método

Agrupamentosemduas
etapas
Exemplo:
1.Análisede AgrupamentoHierárquica
2.Usapontoscentraisdos agrupamentosda análise
hierárquicapara criarosprimeirosconjuntosde médiasK
3.Realizaas modificaçõesaleatóriaspara tentar:
•Minimizara variabilidadedentrodos conjuntos
•Maximizara variabilidadefora dos conjuntos

Gruposde Entropia
•Gruposcom poucoselementos, bastantediferentes
do restante da amostra
•Úteispara análisede valoresatípicos

Prática no SPSS
•Abrirarquivo: agua&rede2010_SNIS_v2.sav
•Analisar-> Classificar-> Cluster Hierárquico

Análisede Cluster Hierárquica

Análisede Cluster Hierárquica

Método…
Padronizar: Minimizarproblemasoriundosdo usode
unidadese dispersõesdistintasentre as variáveis.

Análisede Cluster Hierárquica
Apósrodarcadaanálisede agrupamento, atribuaum nome
compreensívelaoatributode agrupamento

Heterogeneidadepornúmerode
agrupamentos

Heterogeneidadepornúmerode
agrupamentos
0
2000
4000
6000
8000
10000
12000
14000
123456789101112131415
Heterogeneirdade

Dendograma
5 agrupamentos

Analisar-> Relatórios-> Resumode Caso
Análisede Cluster Hierárquica

Análisede Cluster Hierárquica

Refazeranálisehierárquicacom métodode ligaçãoentre
grupos
Análisede Cluster Hierárquica

Analisar-> Relatórios-> Resumosde Caso
Análisede Cluster Hierárquica

Analisar-> Relatórios-> Resumosde Caso
Análisede Cluster Hierárquica

Refazeranálisehierárquicacom métodoWard e
intervaloporcorrelaçãode Pearson
Análisede Cluster Hierárquica

Análisede Cluster Hierárquica
Correlaçãode Pearson nos Agrupamentos
Par de
correlação
Renda
X
Rede
2
Renda
X
Consumo
Rede
2
X
Consumo
Total 0.44 0.60 0.63
Agrupamento
1 0.66 0.74 0.81
2 0.89 0.93 0.86
3 0.93 0.78 0.79
4 0.66 0.86 0.70
5 0.73 0.86 0.93

Refazeranálisehierárquicacom métodoLigaçãoentre
grupose intervaloporcorrelaçãode Pearson
Análisede Cluster Hierárquica

Análisehierárquicacom métodoLigaçãoentre grupose
intervaloporcorrelaçãode Pearson
Análisede Cluster Hierárquica
Par de
correlação
Renda
X
Rede
2
Renda
X
Consumo
Rede
2
X
Consumo
Agrupamento
1 0.69 0.74 0.86
2 0.89 0.96 0.88
3 0.95 0.83 0.77
4 0.65 0.84 0.69
5 0.86 0.80 0.77
Total 0.44 0.60 0.63

RegressãopelosAgrupamentosde
Correlaçãode Pearson
Métodode Ligaçãoentre grupos

Análisede Cluster Hierárquica
R
2 B1Renda
(padronizado)
B2 Rede
2
(padronizado)
Geral 0.53 0.40 0.46
Agrupamento
1 0.78 0.29 0.66
2 0.69 0.95 -0.13*
3 0.92 0.86 0.11
4 0.67 0.54 0.31
5 0.74 0.67 0.26
RegressãopelosAgrupamentosde Correlaçãode
Pearson, Método Ligaçãoentre grupos
* Nãosignificativoa 95% de confiança

Refazeranálisehierárquicapara métodoWard e
distânciaeuclidianaquadráticaincluindocoordenadas
geográficasX e Y com variáveis
Análisede Cluster Hierárquica
Consumo
Renda
Rede
X
Y
60%
40%

1º Passo: Criarosscores Z das váriáveis
Analisar> EstatísticasDescritivas> Descritivas
K-MÉDIAS

Analisar> Classificar> Cluster de K- médias…
K-MÉDIAS

Analisar> Classificar> Cluster de K- médias…
K-MÉDIAS

Podemosexportar, no formato .csv ou.dbf (Dbase IV), os
resultadossalvos natabela.
Emseguida, podemosjuntarestatabelaaoshapefile
(União) no QGIS e visualizarosgruposespacialmente
Visualizaçãodos
agrupamentos

1º -Visualizarmapapara AnáliseHierárquica
MétodoWard –DistânciaEuclideanaaoQuadrado
Visualizaçãodos agrupamentos

AnáliseHierárquica
MétodoWard
Distância
Euclideanaao
Quadrado

2º -Visualizarmapapara AnáliseHierárquica
Ligaçãoentre grupos–DistânciaEuclideanaaoQuadrado
Visualizaçãodos agrupamentos

AnáliseHierárquica-DistânciaEuclideanaaoQuadrado
Ligação
entre
grupos
Método
Ward

3º -Visualizarmapapara MédiasK
Visualizaçãodos agrupamentos

HierárquicoX MédiasK
Distância
entre
grupos
Hierárquico
MétodoWard
Distância
Euclideanaao
Quadrado
MédiasK

4º -Visualizarmapapara análisehierárquica
MétodoWard –DistânciaEuclideanaQuadrática
IncluindoCoordenadasX e Y
Visualizaçãodos agrupamentos

DistânciaEuclideanaaoQuadrado
Incluindo
coordenadas
geográficas
MétodoWard

5º -Visualizarmapapara análisehierárquica
MétodoWard –Correlaçãode Pearson
Visualizaçãodos agrupamentos

Correlaçãode Pearson
Par de
correlação
Renda
X
Rede
2
Renda
X
Consumo
Rede
2
X
Consumo
Agrupamento
1 0.66 0.74 0.81
2 0.89 0.93 0.86
3 0.93 0.78 0.79
4 0.66 0.86 0.70
5 0.73 0.86 0.93
Total 0.44 0.60 0.63
Correlação
Método
Ward

6º -Visualizarmapapara análisehierárquica
Métodode Ligaçãoentre Grupos–Correlaçãode Pearson
Visualizaçãodos agrupamentos

Par de
correlação
Renda
X
Rede
2
Renda
X
Consumo
Rede
2
X
Consumo
Agrupamento
1 0.69 0.74 0.86
2 0.89 0.96 0.88
3 0.95 0.83 0.77
4 0.65 0.84 0.69
5 0.86 0.80 0.77
Total 0.44 0.60 0.63
Par de
correlação
Renda
X
Rede
2
Renda
X
Consumo
Rede
2
X
Consumo
Agrupamento
1 0.66 0.74 0.81
2 0.89 0.93 0.86
3 0.93 0.78 0.79
4 0.66 0.86 0.70
5 0.73 0.86 0.93
Total 0.44 0.60 0.63
Correlaçãode Pearson
Ligação
entre
grupos
Método
Ward

Par de
correlação
Renda
X
Rede
2
Renda
X
Consumo
Rede
2
X
Consumo
Agrupamento
1 0.69 0.74 0.86
2 0.89 0.96 0.88
3 0.95 0.83 0.77
4 0.65 0.84 0.69
5 0.86 0.80 0.77
Total 0.44 0.60 0.63
Correlaçãode Pearson
Ligação
entre
grupos
R
2
B1
Renda
B2
Rede
2
Geral0.530.400.46
Agrupamento
1 0.780.290.66
2 0.690.95-0.13*
3 0.920.860.11
4 0.670.540.31
5 0.740.670.26
Regressão
Correlação

Gravardados no Shapefile
Clique com o botãodireitonacamadae selecione
“salvarcomo…”

Exercício
Realize as seguintesanálisesde agrupamentopara os
dados do seu trabalhode curso:
-MétodoWard
-DistânciaEuclideanaaoQuadrado
-Correlaçãode Pearson
-Escolhaum númerode agrupamentoscom base na
heterogeneidadedos grupos
-Realize a regressãopara cada um dos agrupamentosde
correlaçãode Pearson
-Exporteosresultadosdo SPSS para sua base de dados
do QGIS e gereosdoismapasde agrupamento
-Interpreteosresultados