Análise multivariada de dados Docente: Carla Oliveira Silva
Teste Paramétrico / Parametric Test Teste Não Paramétrico Teste T uma amostra / On e sample T test 1 variável quantitativa H0: =a ou ≤a ou ≥a H1: ≠a ou >a ou <a Wilcoxon ( h =0,95) 1 variável quantitativa ou 1 var. qualitativa ordinal H0: mediana =a ou mediana≤a ou mediana ≥a H1: mediana≠a ou mediana >a ou mediana <a Teste T amostras Indep / 2 indep . Samples 1 var quantit + 1 var qualit . nom H0: 1 = 2 ou 1 ≤ 2 ou 1 ≥ 2 H1: 1 ≠ 2 ou 1 > 2 ou 1 < 2 Mann Whitney ( h =0,95) 1 var quantit . /qual. ordin + 1 var qualit . nom H0: med 1 =med 2 ou med 1 ≤med 2 ou med 1 ≥ med 2 H1: med 1 ≠med 2 ou med 1 >med 2 ou med 1 <med 2 Teste T amostras empar / 2 pair samples 2 var quantitativas H0: d =0 ou d ≤0 ou d ≥ H1: d ≠0 ou d >0 ou d <0 Wilcoxon ( h =0,95) / Signals ( h =0,63) 2 quant ou 2 qualit ordin . H0: med d =0 ou med d ≤0 ou med d ≥ H1: medd≠0 ou med d >0 ou med d <0 ANOVA Analysis of Variance 1 var quantit + 1 var qualit . nom H0: 1 = 2 = 3 H1: pelo menos uma é ≠ Kruskal-Wallis ( h =0,95) 1 var quantit . /qual. ordin + 1 var qualit . nom H0: med 1 =med 2 =med 3 H1: pelo menos uma mediana é ≠ Dizer que um teste tem uma eficiência de 0,95 ou de 95% significa que só em 95% dos casos em que um teste T rejeitaria H é que o seu equivalente não paramétrico a rejeita.
Comparação de 3 ou mais médias Comparing 3 or more means Comparação de 3 ou mais médias Comparing 3 or more means Shapiro Wilk or Kolmogorov Smirnov F(x)=N( m , s )? Variâncias homogéneas? Homogeneous variances ? Anova F de Welch ( F w ) or F de Brown & Forsythe (F BF ) Kruskal Wallis Não / No Sim / Yes Não / No Sim / Yes
Análise da Variância Analysis of variance ANOVA é um método para testar a igualdade de três ou mais médias populacionais através da análise das variâncias amostrais Usa a distribuição F, que é: contínua assimétrica à direita Tem valores 0 ou positivos (jamais negativos) existe uma distribuição F diferente para cada par de graus de liberdade ( dF numerador , dF denominador .) Homenagem a / Tribute to Ronald Aylmer Fisher & George Waddel Snedecor A distribuição F mede a razão entre 2 distribuições qui-quadrado. Fisher- Snedecor F distribution measures the rate between 2 Qui-square distributions ANOVA Is a method to test the equality of 3 or more population means, trough the analysis of variances. Uses F distribution, which is: continuous asymmetrical on the right values of F are 0 or positive (never negative) there is a different F distribution for each pair of degrees of freedom ( dF factor dF error )
Teste Anova Compara duas estimativas distintas da variância comum de duas populações diferentes: Variância entre amostras Variância dentro das amostras Anova a um fator Permite verificar qual o efeito de uma variável independente, de natureza qualitativa (fator), numa variável dependente ou de resposta, cuja natureza é quantitativa. Fator ou tratamento é uma propriedade ou característica que nos permite distinguir as diferentes populações umas das outras H : m 1 = m 2 = m 3 H 1 : m 1 ≠ m 2 ou m 2 ≠ m 3 ou m 1 ≠ m 3 ou m 1 ≠ m 2 ≠ m 3 O teste Anova permite verificar a igualdade de três ou mais médias Anova allows to compare 3 or more means Em alternativa: alternatively H 1 : pelo menos uma média é diferente / at least one mean is different ANOVA = ANALYSIS OF VARIANCE Test Anova Compares two distinct estimates of the common variance of two different populations: Variance between samples Variance within the samples One Way Anova It allows to test the effect of an independent variable, of qualitative nature (factor), in a dependent or response variable, whose nature is quantitative. Factor is a property or characteristic that allows us to distinguish different populations from one another
Requisitos: Todas as populações têm distribuições que são aproximadamente normais – exigência leve As populações têm variâncias homogéneas* ( homocedasticidade ) – exigência leve (se os tamanhos amostrais forem idênticos, a maior variância pode ser até 9x superior à menor. As amostras são aleatórias simples As amostras são independentes As diferentes amostras são categorizadas por um único fator. * Quando a variável dependente tem distribuição normal e as variâncias são heterogéneas existem duas estatísticas alternativas: F de Welch ou F w e F de Brown & Forsythe ou F BF . * When the dependent variable has a normal distribution and the variances are heterogeneous, one of two alternative statistics must be used: F de Welch ( F w ) ou F de Brown Forsythe (F BF ). Requirements: All populations have distributions that are approximately normal - light requirement Populations have homogeneous variances * (homoscedasticity) - light requirement (if sample sizes are identical, the largest variance can be up to 9x higher than the lowest. Samples are randomly selected Samples are independent The different samples are categorized by a single factor. ANOVA H : m 1 = m 2 =….= m m H 1 : pelo menos uma das médias é ≠ / at least one mean is ≠
SS f – Squares Sum factor – soma dos quadrados do fator : variação entre as amostras Ss e –Squares Sum error – soma dos quadrados do erro : variação dentro das amostras SS t –Squares Sum total – soma dos quadrados total em torno de em todos os dados amostrais combinados One-way Anova H : m 1 =m 2 =…= m k H 1 : pelo menos uma das médias é distinta / at least one mean is different .
Anova a um Fator / One-way Anova MS factor – Mean Square factor – variância entre amostras MS error – Mean Square error – variância dentro da amostra MS total – Mean Square total – variância total Estatística do Teste: Test statistic : Comparação de médias Comparing means Qual o valor de F? Which is the F statistic? F pequeno / small F grande / big P-valor é grande. Não se rejeita H . P- value is big. Don't reject H0. P-valor é pequeno. Rejeita-se H . P-value is small. Reject H . dF factor =k-1 dF error =N-k dF total =N-1
One-way Anova: Group 1 Group 2 Group 3 7 6 4 3 5 7 6 5 6 7 6 7 6 8 8 n 1 =5 n 2 =5 n 3 =5 Média 1 =5,8 Média 2 =6,0 Média 3 =6,4 S 1 2 =2,7 S 2 2 =1,5 S 3 2 =2,3 Variância dentro das amostras Variance inside samples p-valor=1-cdf.F(0.215,2,12)=0,809 + Soma de Quadrados entre amostras: Square sum between samples : Média das Médias Amostrais Mean of samples means: Gl entre amostras : dF / betweeen samples: Variância entre amostras variance between samples: Soma de Quadrados dentro das amostras: Square sum of inside samples: GL dentro amostras / dF freedom inside samples Não se rejeita H ! Example 1: dF error =N-k=15-3=12
One-way Anova Anova um Fator Tal como no caso de duas amostras independentes, é testada a homogeneidade das variâncias, através do Teste de Levene SS Total = SS Factor +SS Error =(N-1)xS’ 2 Soma dos Quadrados Totais: As in the case of two independent samples, the variances homogeneity is tested through Levene test
One Way Anova Rejeita-se H ! p-valor=1-cdf.F(70.985,2,12)=0,000 Group 1 Group 2 Group 3 17 6 4 13 5 7 16 5 6 17 6 7 16 8 8 n 1 =5 n 2 =5 n 3 =5 Média 1 =15,8 Média 2 =6,0 Média 3 =6,4 S 1 2 =2,7 S 2 2 =1,5 S 3 2 =2,3 Example 2: dF error =N-k=15-3=12 Média das Médias Amostrais Mean of samples means : GL entre amostras / dF between samples: Soma de Quadrados entre amostras: Square sum between samples: Variância entre amostras variance between samples: Graus de liberdade dentro das amostras: Degrees of freedom inside samples Soma de Quadrados dentro das amostras: Square sum of inside samples: Variância dentro das amostras Variance inside samples
Anova a um Fator / One Way Anova Teste de Levene Soma dos Quadrados Totais: SS Total = SS Factor +SS Error =(N-1)xS’ 2 Para o 2.º conjunto de dados os resultados da Anova são:
Comparações à posteriori Post Hoc Multiple Comparisons Quando se rejeita H0 na Anova é necessário identificar a ou as populações com média distinta . Para o efeito usam -se as comparações múltiplas à posteriori. When H0 is rejected in an Anova Test, the populations with different means must be identified. To do so we use Post Hoc Multiple Comparisons Muito embora não haja consenso sobre o teste mais apropriado , o teste de Tukey é um dos mais robustos para desvios à normalidade quando há homogeneidade das variâncias e o Bonferroni um dos mais potentes para amostras pequenas . Although there is no consensus on the most appropriate test, the Tukey test is one of the most robust for deviations to normality and homogeneous variances and Bonferroni is one of the most powerful for small samples.
Testes robustos de igualdade das médias Robust tests of equality of means Testes incluídos nas opções da Anova Tests included in Anova options O teste de Welch tem melhor performance. Welch test has a better performance Quando as variâncias são heterogéneas devem -se usar as opções das estatísticas de Brown & Forstythe , ou a estatística de Welch. When the variances are heterogeneous Brown & Forstythe statistic or Welch statistic must be used.
Kruskal Wallis Test Requisitos: três ou mais amostras independentes selecionadas aleatoriamente n≥5 em todos os grupos Notação: n: número total de observações em todas as amostras combinadas k: número de grupos R j : ordenações da categoria j t i : n.º de empates de cada categoria i Teste não paramétrico aplicável: . variáveis ordinais . variáveis quantitativas, alternativa à Anova Utiliza ordens de dados amostrais de três ou mais populações independentes. É usado para testar a H0 de que as amostras independentes provêm de populações com a mesma mediana. H : med 1 =med 2 =…= med k H 1 : pelo menos uma mediana é diferente Non parametric test used to: . ordinal variables . quantitative variables, alternative to Anova Uses data orders of three or more independent populations. Is used to test H0 the equality of three or more medians. H : med 1 =med 2 =…= med k H 1 : at least one median is different Requirements: three or more randomly selected independent samples n≥5 in all groups Notation: n: total number of observations in all samples combined k: number of groups Rj : orders of category j ti : number of tied observations of each category i
Kruskal-Wallis Group 1 Group 2 Group 3 Value Ranking Value Ranking Value Ranking 7 11,5 6 7 4 2 3 1 5 3,5 7 11,5 6 7 5 3,5 6 7 7 11,5 6 7 7 11,5 6 7 8 14,5 8 14,5 n 1 =5 n 2 =5 n 3 =5 Mean ranking = 6,0 Mean ranking = 6,375 Mean ranking = 7,125 R 1 =38 R 2 =35,5 R 3 =46,5 R 1 2 =1444 R 2 2 =1260,25 R 3 2 =2162,25 2 empates duplos 1 empate quádruplo 1 empate quíntuplo Sem correção para empates! No tie corrected Com correção para empates! Tie corrected 2 double ties 1 quadruple tie 1 quintuple tie P- valor =1-Cdf.Chisq(0.705,2)=0,703
Teste de Kruskal-Wallis P- valor =1-Cdf.Chisq(0.705,2)=0,703