Análise exploratória de dados no SPSS

vitor_vasconcelos 9,429 views 49 slides Aug 04, 2016
Slide 1
Slide 1 of 49
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49

About This Presentation

Aula de Métodos e Técnicas de Análise da Informação para Planejamento, junho de 2016, UFABC
Apresentação disponível em: https://youtu.be/GDOnBJN8Zkk


Slide Content

AnáliseExploratória
de Dados no SPSS
Gráficose EstatísticasDescritivas
Vitor Vieira Vasconcelos
Flávia da Fonseca Feitosa
BH1350 –Métodose Técnicasde Análiseda Informaçãoparao Planejamento
Junhode 2017

O quenósvimosnaaula passada
DistribuiçãoAmostral
Erropadrãoda Média
Intervalosde Confiança
Distribuiçãot
Comparaçãode Intervalosde Confiança(SPSS)

Conteúdo
Inferênciaestatística
Normalidadede dados
Gráficosde caixase bigodes(boxplot)
Valoresdiscrepantes(outliers)
GráficosQ-Q
Transformaçõesde dados

Leitura de Referência
Capítulo1 –p. 47-59
Capítulo3
ExplorandoDados
(p. 85 –124)

Comparandomédiase errospadrão
Abrao arquivo
“Agua2010_SNIS.sav”
Gráficos-> Caixasde
diálogolegadas-> Barras

Comparandomédiase errospadrão

Comparandomédiase errospadrão

Comparando médias e erros padrão

Métodocientíficoparatirarconclusõessobreos
parâmetrosda populaçãoa partirda coleta,
tratamentoe análisedos dados de umaamostra
recolhidadessapopulação.
InferênciaEstatística

InferênciaEstatística

PARAMÉTRICA: Admitequea distribuiçãoda
populaçãotem umaforma matemática
conhecida, emboracontendoum oumais
parâmetrosdesconhecidos.
NÃO-PARAMÉTRICA: Pretende-se conhecera
forma da distribuição
InferênciaEstatística

PARAMÉTRICA: Admitequea distribuiçãoda
populaçãotem umaforma matemática
conhecida, emboracontendoum oumais
parâmetrosdesconhecidos.
InferênciaEstatística
Emmuitoscasos, umadistribuiçãonormal.

Normalidadedos Dados
Assume-se queosdados foramobtidosde umaou
maispopulaçõesnormais.
Pesquisadoresverificamsuasamostras
(histogramae outros testes) e se a amostra
assemelha-se a umanormal, assume-se quea
populaçãotambémo é.

Explorando Dados no SPSS
1.DistribuiçãodosEscoreseValoresAtípicos
(verificaçãodanormalidadedosdados)
2.Corrigindoproblemasnosdados
3.Transformandodados

Explorando Dados
Analisar> EstatísticasDescritivas> Explorar> Estatísticas… >
Gráficos…

Explorando Dados

Explorando Dados

Explorando Dados
Positivamenteassimétrica
Leptocúrtica
A DistribuiçãoéNormal?
Converter assimetriae curtoseem
escores-z
Uma distribuiçãonormal deveráter
assimetriae curtosenulas. Serápossívelquea distribuição
da populaçãoassemelhe-se a umanormal?

Explorando Dados
Positivamenteassimétrica
Leptocúrtica
A DistribuiçãoéNormal?
z
s=(1.532-0)/0.037=41.4
z
k=(7.097-0)/0.074=95.9
Curtosee
Assimetria
Significativa
Converter assimetriae curtoseem
escores-z
Uma distribuiçãonormal deveráter
assimetriae curtosenulas. Serápossívelquea distribuição
da populaçãoassemelhe-se a umanormal?

Histograma -Outliers
Valoresatípicos(outliers)
Distorcema médiae
inflacionamo desviopadrão
Importanteparaa detecção
de erros, valoresatípicose
observaçãoda forma da
distribuiçãodos dados

Diagramade Caixase Bigodes
(boxplot)

Explorando Dados –Box Plot
Gráficos-> Caixasde DiálogoLegadas-> Boxplot
Resumode variáveisseparadas-> Consumode ÁguaPercapita–PopulaçãoTotal

Explorando Dados –Box Plot
Boxplot
Gráficos-> Caixasde DiálogoLegadas-> Boxplot
Resumode variáveisseparadas-> Consumode ÁguaPercapita–PopulaçãoTotal

Explorando Dados –Box Plot
Boxplot

Outliers –ValoresDiscrepantes

Explorando Dados –Q-Q Plot
(quantil-quantil plot)
ValoresObservadosnaAmostra
Valores
esperadoscasoa
variáveltenha
umadistribuição
normal

Explorando Dados por Regiões
Gráficos> Histograma

Histograma por Regiões

Estatísticas por Regiões
Analisar> EstatísticasDescritivas> Explorar
Listade fatores: Região

z=.294/.168= 1.75
z=-.077/.334= 0.23
Z=1.339/.063=21.25
z=-5.378/.127=42.35
Z=1.225/.067=18.3
z=-6.499/.135=48.1
!!!

z=2.671/.076=35.1
z=18.517/.153= 121
z=2.315/.126=18.4
z=14.757/.252= 58.6
No histogramaparecesimétrica, mas
nasestatísticasnão. Pq?

Boxplot (Caixa e Bigodes)
Discrepantes!!!
Poucos
outliers

Q-Q Plots

CORRIGINDO PROBLEMAS NOS
DADOS

Observou algum erro de digitação
que gostaria de corrigir?
Vápara o editor de dados, em“irpara o caso”
Editeo valordesejado

Reduzindo o Impacto de Outliers
1.Remover o caso
Sódeveserfeitose tiverumaboa razãoparaacreditarqueesse
valornãoérepresentanteda população.
2. Transformarosdados
Deveráserfeitono casode termosumadistribuiçãonãonormal.
Costumamreduziro impactode outliers.
3. Substituiro valor
O próximoescoremaisalto adicionadode 1
Inverter o valordo escore-z (adicionaro triplodo desvio
padrãoàmédiae substituiro valoratípicoporesse)
A médiamaisdoisdesviospadrão(variaçãodo métodoacima)

Transformação dos Dados
Para corrigirproblemasrelacionadosànão-normalidadeda
distribuiçãoouvaloresatípicos(outliers)
a. Transformaçãologaritmica(log(Xi))
Tomaro logaritmode um conjuntode números“esmaga” a caudadireitada
distribuição. É umaboa maneirade reduzirumaassimetriapositiva.
Atenção: Nãopodemosobterlogaritmode zero ouvaloresnegativos. Se tiver
zero nosdados, façalog(Xi+1)

Transformação dos Dados
Para corrigirproblemasrelacionadosànão-normalidadeda
distribuiçãoouvaloresatípicos(outliers)
b. Transformaçãoporradiciação(sqr(Xi))
Tomara raizquadradade valoresgrandestem efeitomaiordo queextraira
raizde efeitospequenos. Útilparadados com assimetriapositiva.
Problemascom númerosnegativos.
Somarum valoraoselementos(X + a) para nãotermaisnúmerosnegativos.
c. Transformaçãorecíproca(1/Xi)
Dividir1 porcadaescorereduzo impactodos grandesvalores. A variável
transformadateráum limiteinferior de zero (grandesvaloresficarão
próximosde zero.
Atenção: Este tipode transformaçãoreverteosescores(valoresgrandesse
tornarãopequenose vice-versa)
Para desinverter, utilizara fómula: 1/(X
máximo–X)

Transformando Dados no SPSS
Transformar> CalcularVariável

Transformando Dados no SPSS
Analisar> Frequências

Transformando Dados no SPSS
Analisar> Frequências

Transformando Dados no SPSS
CONSUMO LOG(CONSUMO + 1)

Transformando Dados no SPSS
Transformar> Calcularvariável

Transformando Dados no SPSS
CONSUMO SQRT(CONSUMO)

Transformando Dados no SPSS
Vocêspodemusaro comando“Transformar>
CalcularVariável” para realizaras mais
diversastransformaçõesnosdados!
Porexemplo: Normalizarosdados, calcular
taxase proporções, etc.

PARTE II
Realizar análises exploratórias sobre
os dados do trabalho do curso!!!
Para importarum arquivo.csvou.dbf parao SPSS, váem:
Arquivo> Abrir> Dados…
DICA: Vocêspodemimportaro arquivo.dbf quecompõeo
arquivovetorial(shapefile)

Atividade
Utilizandoosdados que pretendeusarno trabalhofinal da disciplina,
cadaintegrantedo grupoescolheráaomenosumavariávele faráas
atividadesa seguir.
a.Calculeas estatísticasdescritivasde umavariávelde suaescolha.
Expliquecadaumadelas.
b.Apresenteo histograma, box-plot e Q-Q Plot. Explique.
c.Realize alguma(s) transformação(ões) emumaoumaisvariáveis
selecionadas(ex: log, raizquadrada…). Expliquequalse
aproximoumaisda distribuiçãonormal.
d.Se houvergruposdistintos(bairros, distritos), repitaositens(a) e
(b) paracadagrupo. Compare intervalosde confiançada média
de umavariávelde interesse. Hásobreposições? O queisso
significa? Interprete!
Jáestamoselaborandoo trabalhofinal da disciplina!!!