Modern Multivariate Statistical Techniques Alan J Izenman

ihszacek 5 views 91 slides May 24, 2025
Slide 1
Slide 1 of 91
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52
Slide 53
53
Slide 54
54
Slide 55
55
Slide 56
56
Slide 57
57
Slide 58
58
Slide 59
59
Slide 60
60
Slide 61
61
Slide 62
62
Slide 63
63
Slide 64
64
Slide 65
65
Slide 66
66
Slide 67
67
Slide 68
68
Slide 69
69
Slide 70
70
Slide 71
71
Slide 72
72
Slide 73
73
Slide 74
74
Slide 75
75
Slide 76
76
Slide 77
77
Slide 78
78
Slide 79
79
Slide 80
80
Slide 81
81
Slide 82
82
Slide 83
83
Slide 84
84
Slide 85
85
Slide 86
86
Slide 87
87
Slide 88
88
Slide 89
89
Slide 90
90
Slide 91
91

About This Presentation

Modern Multivariate Statistical Techniques Alan J Izenman
Modern Multivariate Statistical Techniques Alan J Izenman
Modern Multivariate Statistical Techniques Alan J Izenman


Slide Content

Modern Multivariate Statistical Techniques Alan
J Izenman download
https://ebookbell.com/product/modern-multivariate-statistical-
techniques-alan-j-izenman-47936626
Explore and download more ebooks at ebookbell.com

Here are some recommended products that we believe you will be
interested in. You can click the link to download.
Modern Multivariate Statistical Techniques Regression Classification
And Manifold Learning Alan J Izenman
https://ebookbell.com/product/modern-multivariate-statistical-
techniques-regression-classification-and-manifold-learning-alan-j-
izenman-23628964
Modern Multivariate Statistical Techniques Regression Classification
And Manifold Learning 1st Edition Alan J Izenman Auth
https://ebookbell.com/product/modern-multivariate-statistical-
techniques-regression-classification-and-manifold-learning-1st-
edition-alan-j-izenman-auth-1224008
Modern Statistical Methods For Spatial And Multivariate Data Norou
Diawara
https://ebookbell.com/product/modern-statistical-methods-for-spatial-
and-multivariate-data-norou-diawara-56901438
Multivariate Statistics Classical Foundations And Modern Machine
Learning 1st Edition Hemant Ishwaran
https://ebookbell.com/product/multivariate-statistics-classical-
foundations-and-modern-machine-learning-1st-edition-hemant-
ishwaran-230444270

Applied Statistics And Multivariate Data Analysis For Business And
Economics A Modern Approach Using Spss Stata And Excel 1st Ed Thomas
Cleff
https://ebookbell.com/product/applied-statistics-and-multivariate-
data-analysis-for-business-and-economics-a-modern-approach-using-spss-
stata-and-excel-1st-ed-thomas-cleff-10487620
Modern Developments In Multivariate Approximation 5th International
Conference Wittenbommerholz Germany September 2002 1st Ed Werner
Haussmann
https://ebookbell.com/product/modern-developments-in-multivariate-
approximation-5th-international-conference-wittenbommerholz-germany-
september-2002-1st-ed-werner-haussmann-10489326
Modern Nonparametric Robust And Multivariate Methods Festschrift In
Honour Of Hannu Oja Klaus Nordhausen
https://ebookbell.com/product/modern-nonparametric-robust-and-
multivariate-methods-festschrift-in-honour-of-hannu-oja-klaus-
nordhausen-5235926
Linear Algebra Multivariable Calculus And Modern Applications Stanford
University Math Department
https://ebookbell.com/product/linear-algebra-multivariable-calculus-
and-modern-applications-stanford-university-math-department-43218100
Modern Day Miracles Miraculous Moments And Extraordinary Stories From
People All Over The World Whose Lives Have Been Touched By Louise L
Hay 1st Edition Louise Hay
https://ebookbell.com/product/modern-day-miracles-miraculous-moments-
and-extraordinary-stories-from-people-all-over-the-world-whose-lives-
have-been-touched-by-louise-l-hay-1st-edition-louise-hay-44887924

Springer Texts in Statistics
Series Editors:
G. Casella
S. Fienberg
I. Olkin

Springer Texts in Statistics
For other titles published in this series, go to
www.springer.com/series/417

Alan Julian Izenman
ModernMultivariate
StatisticalTechniques
Regression, Classification,
and Manifold Learning
123

Alan J. Izenman
Department of Statistics
Temple University
Speakman Hall
Philadelphia, PA 19122
USA
[email protected]
Editorial Board
George Casella
Department of Statistics
University of Florida
Gainesville, FL 32611-
8545
USA
Stephen Fienberg
Department of Statistics
Carnegie Mellon University
Pittsburgh, PA 15213-3890
USA
Ingram O kin
Department of Statistics
Stanford University
Stanford, CA 94305
USA
ISSN: 1431-875X
ISBN: 978-0-387-78188-4 e-ISBN: 978-0-387-78189-1
DOI: 10.1007/978-0-387-78189-1
Library of Congress Control Number: 2008928720.
c2008 Springer Science+Business Media, LLC
All rights reserved. This work may not be translated or copied in whole or in part without the written
permission of the publisher (Springer Science+Business Media, LLC, 233 Spring Street, New York,
NY 10013, USA), except for brief excerpts in connection with reviews or scholarly analysis. Use
in connection with any form of information storage and retrieval, electronic adaptation, computer
software, or by similar or dissimilar methodologynow known or hereafter developed is forbidden.
The use in this publication of trade names, trademarks, service marks, and similar terms, even if they
are not identified as such, is not to be taken as an expression of opinion as to whether or not they are
subject to proprietary rights.
Printed on acid-free paper
springer.com
l

This book is dedicated
to the memory of my parents,
Kitty and Larry,
and to my family,
Betty-Ann and Kayla

Preface
Not so long ago, multivariate analysis consisted solely of linear methods
illustrated on small to medium-sized data sets. Moreover, statistical com-
puting meant primarily batch processing (often using boxes of punched
cards) carried out on a mainframe computer at a remote computer facil-
ity. During the 1970s, interactive computing was just beginning to raise its
head, and exploratory data analysis was a new idea. In the decades since
then, we have witnessed a number of remarkable developments in local
computing power and data storage. Huge quantities of data are being col-
lected, stored, and efficiently managed, and interactive statistical software
packages enable sophisticated data analyses to be carried out effortlessly.
These advances enabled new disciplines called data mining and machine
learning to be created and developed by researchers in computer science
and statistics.
As enormous data sets become the norm rather than the exception, sta-
tistics as a scientific discipline is changing to keep up with this development.
Instead of the traditional heavy reliance on hypothesis testing, attention
is now being focused on information or knowledge discovery. Accordingly,
some of the recent advances in multivariate analysis include techniques
from computer science, artificial intelligence, and machine learning theory.
Many of these new techniques are still in their infancy, waiting for statistical
theory to catch up.
The origins of some of these techniques are purely algorithmic, whereas
the more traditional techniques were derived through modeling, optimiza-

viii Preface
tion, or probabilistic reasoning. As such algorithmic techniques mature, it
becomes necessary to build a solid statistical framework within which to
embed them. In some instances, it may not be at all obvious why a partic-
ular technique (such as a complex algorithm) works as well as it does:
When new ideas are being developed, the most fruitful approach
is often to let rigor rest for a while, and let intuition reign — at
least in the beginning. New methods may require new concepts
and new approaches, in extreme cases even a new language, and
it may then be impossible to describe such ideas precisely in the
old language.
— Inge S. Helland, 2000
It is hoped that this book will be enjoyed by those who wish to under-
stand the current state of multivariate statistical analysis in an age of high-
speed computation and large data sets. This book mixes new algorithmic
techniques for analyzing large multivariate data sets with some of the more
classical multivariate techniques. Yet, even the classical methods are not
given only standard treatments here; many of them are also derived as spe-
cial cases of a common theoretical framework (multivariate reduced-rank
regression) rather than separately through different approaches. Another
major feature of this book is the novel data sets that are used as examples
to illustrate the techniques.
I have included as much statistical theory as I believed is necessary to
understand the development of ideas, plus details of certain computational
algorithms; historical notes on the various topics have also been added
wherever possible (usually in theBibliographical Notesat the end of each
chapter) to help the reader gain some perspective on the subject matter.
Referencesat the end of the book should be considered as extensive without
being exhaustive.
Some common abbreviations used in this book should be noted: “iid”
meansindependently and identically distributed; “wrt” means with respect
to; and “lhs” and “rhs” meanleft-andright-hand side, respectively.
Audience
This book is directed toward advanced undergraduate students, gradu-
ate students, and researchers in statistics, computer science, artificial in-
telligence, psychology, neural and cognitive sciences, business, medicine,
bioinformatics, and engineering. As prerequisites, readers are expected to
have had previous knowledge of probability, statistical theory and methods,
multivariable calculus, and linear/matrix algebra. Because vectors and ma-
trices play such a major role in multivariate analysis, Chapter 3 gives the
matrix notation used in the book and many important advanced concepts
in matrix theory. Along with a background in classical statistical theory

Preface ix
and methods, it would also be helpful if the reader had some exposure to
Bayesian ideas in statistics.
There are various types of courses for which this book can be used, in-
cluding data mining, machine learning, computational statistics, and for
a traditional course in multivariate analysis. Sections of this book have
been used at Temple University as the basis of lectures in a one-semester
course in applied multivariate analysis to statistics and graduate business
students (where technical derivations are skipped and emphasis is placed
on the examples and computational algorithms) and a two-semester course
in advanced topics in statistics given to graduate students from statistics,
computer science, and engineering. I am grateful for their feedback (includ-
ing spotting typos and inconsistencies).
Although there is enough material in this book for a two-semester course,
a one-semester course in traditional multivariate analysis can be drawn
from the material in Sections 1.1–1.3, 2.1–2.3, 2.5, 2.6, 3.1–3.5, 5.1–5.7, 6.1–
6.3, 7.1–7.3, 8.1–8.7, 12.1–12.4, 13.1–13.9, 15.4, and 17.1–17.4; additional
parts of the book can be used as appropriate.
Software
Software for computing the techniques described in this book is publicly
available either through routines in major computer packages or through
download from Internet websites. I have used primarily the R,S-Plus,and
Matlabpackages in writing this book. In theSoftware Packagessection at
the ends of certain chapters, I have listed the relevantR/S-Plusroutines
for the respective chapter as well as the appropriate toolboxes inMatlab.
I have also tried to indicate other major packages wherever relevant.
Data Sets
The many data sets that illustrate the multivariate techniques presented
in this book were obtained from a wide variety of sources and disciplines and
will be made available through the book’s website. Disciplines from which
the data were obtained include astronomy, bioinformatics, botany, chemo-
metrics, criminology, food science, forensic science, genetics, geoscience,
medicine, philately, physical anthropology, psychology, soil science, sports,
and steganography. Part of the learning process for the reader is to become
familiar with the classic data sets that are associated with each technique.
In particular, data sets from popular data repositories are used to compare
and contrast methodologies. Examples in the book involve small data sets
(if a particular point or computation needs clarifying) and large data sets
(to see the power of the techniques in question).
Exercises
At the end of every chapter (except Chapter 1), there is a number of
exercises designed to make the reader (a) relate the problem to the text and
fill in the technical details omitted in the development of certain techniques,

xPreface
(b) illustrate the techniques described in the chapter with real data sets
that can be downloaded from Internet websites, and (c) write software to
carry out an algorithm described in the chapter. These exercises are an
integral part of the learning experience. The exercises are not uniform in
level of difficulty; some are much easier than others, and some are taken
from research publications.
Book Website
The book’s website is located at:
http://astro.ocis.temple.edu/~alan/MMST
where additional materials and the latest information will be available,
including data sets and R andS-Pluscode for many of the examples in
the book.
Acknowledgments
I would like to thank David R. Brillinger, who instilled in me a deep
appreciation of the interplay between theory, data analysis, computation,
and graphical techniques long before attention to their connections became
fashionable.
There are a number of people who have helped in the various draft stages
of this book, either through editorial suggestions, technical discussions,
or computational help. They include Bruce Conrad, Adele Cutler, Gene
Fiorini, Burt S. Holland, Anath Iyer, Vishwanath Iyer, Joseph Jupin, Chuck
Miller, Donald Richards, Cynthia Rudin, Yan Shen, John Ulicny, Allison
Watts, and Myra Wise. Special thanks go to Richard M. Heiberger for his
invaluable advice and willingness to share his expertise in all matters com-
putational. Thanks also go to Abraham “Adi” Wyner, whose conversations
at Border’s Bookstore kept me fueled literally and figuratively. Thanks also
go to the reviewers and to all the students who read through various drafts
of this book. Individuals who were kind enough to allow me to use their
data or with whom I had e-mail discussions to clarify the nature of the data
are acknowledged in footnotes at the place the data are first used. I would
also like to thank theSpringereditor John Kimmel, who provided help
and support during the writing of this book, and theSpringerL
ATEXexpert
Frank Ganz for his help.
Finally, I thank my wife Betty-Ann and daughter Kayla whose patience
and love these many years enabled this book to see the light of day.
Alan Julian Izenman
Philadelphia, Pennsylvania
April 2008

Contents
Preface vii
1 Introduction and Preview 1
1.1 Multivariate Analysis...................... 1
1.2 DataMining .......................... 3
1.2.1 From EDA to Data Mining.............. 3
1.2.2 What Is Data Mining?................. 5
1.2.3 Knowledge Discovery.................. 8
1.3 MachineLearning........................ 9
1.3.1 How Does a Machine Learn?............. 9
1.3.2 Prediction Accuracy.................. 10
1.3.3 Generalization..................... 11
1.3.4 Generalization Error.................. 12
1.3.5 Overfitting....................... 13
1.4 OverviewofChapters ..................... 14
Bibliographical Notes........................ 16
2 Data and Databases 17
2.1 Introduction . .......................... 17

xii Contents
2.2 Examples ............................ 18
2.2.1 Example: DNA Microarray Data........... 18
2.2.2 Example: Mixtures of Polyaromatic Hydrocarbons . 19
2.2.3 Example: Face Recognition . ............. 22
2.3 Databases............................ 24
2.3.1 Data Types....................... 25
2.3.2 Trends in Data Storage................ 26
2.3.3 Databases on the Internet . . ............. 27
2.4 Database Management..................... 29
2.4.1 Elements of Database Systems............ 29
2.4.2 Structured Query Language (SQL.......... 30
2.4.3 OLTP Databases.................... 32
2.4.4 Integrating Distributed Databases.......... 32
2.4.5 Data Warehousing................... 33
2.4.6 Decision Support Systems and OLAP........ 35
2.4.7 Statistical Packages and DBMSs........... 36
2.5 Data Quality Problems..................... 36
2.5.1 Data Inconsistencies.................. 37
2.5.2 Outliers......................... 38
2.5.3 Missing Data...................... 39
2.5.4 More Variables than Observations.......... 40
2.6 The Curse of Dimensionality................. 41
Bibliographical Notes........................ 42
Exercises ............................... 43
3 Random Vectors and Matrices 45
3.1 Introduction........................... 45
3.2 VectorsandMatrices...................... 45
3.2.1 Notation......................... 45
3.2.2 Basic Matrix Operations................ 46
3.2.3 Vectoring and Kronecker Products.......... 47
3.2.4 Eigenanalysis for Square Matrices.......... 48
3.2.5 Functions of Matrices................. 49
3.2.6 Singular-Value Decomposition ............. 50
3.2.7 Generalized Inverses.................. 50
3.2.8 Matrix Norms...................... 51

Contents xiii
3.2.9 Condition Numbers for Matrices........... 52
3.2.10 Eigenvalue Inequalities................. 52
3.2.11 Matrix Calculus.................... 53
3.3 RandomVectors ........................ 56
3.3.1 Multivariate Moments................. 57
3.3.2 Multivariate Gaussian Distribution.......... 59
3.3.3 Conditional Gaussian Distributions.......... 61
3.4 RandomMatrices........................ 62
3.4.1 Wishart Distribution.................. 63
3.5 Maximum Likelihood Estimation for the Gaussian . . . . . 65
3.5.1 Joint Distribution of Sample Mean
andSampleCovarianceMatrix ............ 67
3.5.2 Admissibility...................... 68
3.5.3 James–Stein Estimator of the Mean Vector . . . . . 69
Bibliographical Notes........................ 72
Exercises ............................... 72
4 Nonparametric Density Estimation 75
4.1 Introduction . .......................... 75
4.1.1 Example: Coronary Heart Disease.......... 76
4.2 Statistical Properties of Density Estimators......... 77
4.2.1 Unbiasedness...................... 77
4.2.2 Consistency....................... 78
4.2.3 Bona Fide Density Estimators............ 79
4.3 The Histogram......................... 80
4.3.1 The Histogram as an ML Estimator......... 81
4.3.2 Asymptotics...................... 82
4.3.3 Estimating Bin Width................. 84
4.3.4 Multivariate Histograms................ 85
4.4 MaximumPenalizedLikelihood................ 87
4.5 Kernel Density Estimation................... 88
4.5.1 Choice of Kernel.................... 89
4.5.2 Asymptotics...................... 91
4.5.3 Example: 1872 Hidalgo Postage Stamps
ofMexico ........................ 93
4.5.4 Estimating the Window Width............ 95
4.6 Projection Pursuit Density Estimation............ 100

xiv Contents
4.6.1 The PPDE Paradigm ................. 100
4.6.2 Projection Indexes................... 102
4.7 Assessing Multimodality.................... 103
Bibliographical Notes........................ 103
Exercises ............................... 104
5 Model Assessment and Selection
in Multiple Regression 107
5.1 Introduction........................... 107
5.2 The Regression Function and Least Squares......... 108
5.2.1 Random-X Case .................... 109
5.2.2 Fixed-XCase...................... 111
5.2.3 Example: Bodyfat Data................ 116
5.3 Prediction Accuracy and Model Assessment......... 117
5.3.1 Random-X Case .................... 119
5.3.2 Fixed-XCase...................... 119
5.4 Estimating Prediction Error.................. 120
5.4.1 Apparent Error Rate.................. 120
5.4.2 Cross-Validation.................... 121
5.4.3 Bootstrap........................ 122
5.5 Instability of LS Estimates.................. 127
5.6 BiasedRegressionMethods .................. 129
5.6.1 Example: PET Yarns and NIR Spectra....... 129
5.6.2 Principal Components Regression........... 131
5.6.3 Partial Least-Squares Regression........... 133
5.6.4 Ridge Regression.................... 136
5.7 Variable Selection........................ 142
5.7.1 Stepwise Methods................... 144
5.7.2 All Possible Subsets.................. 146
5.7.3 Criticisms of Variable Selection Methods....... 147
5.8 RegularizedRegression..................... 148
5.9 Least-AngleRegression..................... 152
5.9.1 The Forwards-Stagewise Algorithm.......... 152
5.9.2 The LARS Algorithm................. 153
Bibliographical Notes........................ 154
Exercises ............................... 155

Contents xv
6 Multivariate Regression 159
6.1 Introduction . .......................... 159
6.2 The Fixed-X Case ....................... 160
6.2.1 Classical Multivariate Regression Model....... 161
6.2.2 Example: Norwegian Paper Quality......... 166
6.2.3 Separate and Multivariate Ridge Regressions . . . . 167
6.2.4 Linear Constraints on the Regression Coefficients . . 168
6.3 The Random-XCase...................... 175
6.3.1 Classical Multivariate Regression Model....... 175
6.3.2 Multivariate Reduced-Rank Regression........ 176
6.3.3 Example: Chemical Composition of Tobacco . . . . . 183
6.3.4 Assessing the Effective Dimensionality........ 185
6.3.5 Example: Mixtures of Polyaromatic Hydrocarbons . 188
6.4 SoftwarePackages ....................... 189
Bibliographical Notes........................ 189
Exercises ............................... 191
7 Linear Dimensionality Reduction 195
7.1 Introduction . .......................... 195
7.2 Principal Component Analysis................ 196
7.2.1 Example: The Nutritional Value of Food....... 196
7.2.2 Population Principal Components.......... 199
7.2.3 Least-Squares Optimality of PCA.......... 199
7.2.4 PCA as a Variance-Maximization Technique . . . . . 202
7.2.5 Sample Principal Components............ 203
7.2.6 How Many Principal Components to Retain? . . . . 205
7.2.7 Graphical Displays................... 209
7.2.8 Example: Face Recognition Using Eigenfaces . . . . 209
7.2.9 Invariance and Scaling................. 210
7.2.10 Example: Pen-Based Handwritten Digit Recognition 211
7.2.11 Functional PCA.................... 212
7.2.12 What Can Be Gained from Using PCA?....... 215
7.3 Canonical Variate and Correlation Analysis......... 215
7.3.1 Canonical Variates and Canonical Correlations . . . 215
7.3.2 Example: COMBO-17 Galaxy Photometric
Catalogue........................ 216

xvi Contents
7.3.3 Least-Squares Optimality of CVA........... 219
7.3.4 Relationship of CVA to RRR ............. 222
7.3.5 CVA as a Correlation-Maximization Technique . . . 223
7.3.6 Sample Estimates................... 226
7.3.7 Invariance........................ 227
7.3.8 How Many Pairs of Canonical Variates to Retain? . 228
7.4 Projection Pursuit....................... 228
7.4.1 Projection Indexes................... 229
7.4.2 Optimizing the Projection Index........... 232
7.5 Visualizing Projections Using Dynamic Graphics...... 232
7.6 SoftwarePackages ....................... 233
Bibliographical Notes........................ 233
Exercises ............................... 234
8 Linear Discriminant Analysis 237
8.1 Introduction........................... 237
8.1.1 Example: Wisconsin Diagnostic Breast Cancer Data 238
8.2 ClassesandFeatures...................... 240
8.3 Binary Classification...................... 241
8.3.1 Bayes’s Rule Classifier................. 241
8.3.2 Gaussian Linear Discriminant Analysis........ 242
8.3.3 LDA via Multiple Regression ............. 247
8.3.4 Variable Selection................... 249
8.3.5 Logistic Discrimination................ 250
8.3.6 Gaussian LDA or Logistic Discrimination?...... 256
8.3.7 Quadratic Discriminant Analysis........... 257
8.4 Examples of Binary Misclassification Rates......... 258
8.5 Multiclass LDA......................... 260
8.5.1 Bayes’s Rule Classifier................. 261
8.5.2 Multiclass Logistic Discrimination.......... 265
8.5.3 LDA via Reduced-Rank Regression.......... 266
8.6 Example: Gilgaied Soil..................... 271
8.7 Examples of Multiclass Misclassification Rates....... 272
8.8 SoftwarePackages ....................... 277
Bibliographical Notes........................ 277
Exercises ............................... 278

Contents xvii
9 Recursive Partitioning and Tree-Based
Methods 281
9.1 Introduction . .......................... 281
9.2 Classification Trees....................... 282
9.2.1 Example: Cleveland Heart-Disease Data....... 284
9.2.2 Tree-Growing Procedure................ 285
9.2.3 Splitting Strategies................... 285
9.2.4 Example: Pima Indians Diabetes Study....... 292
9.2.5 Estimating the Misclassification Rate........ 294
9.2.6 Pruning the Tree.................... 295
9.2.7 Choosing the Best Pruned Subtree.......... 298
9.2.8 Example: Vehicle Silhouettes............. 302
9.3 RegressionTrees ........................ 303
9.3.1 The Terminal-Node Value............... 305
9.3.2 Splitting Strategy................... 305
9.3.3 Pruning the Tree.................... 306
9.3.4 Selecting the Best Pruned Subtree.......... 306
9.3.5 Example: 1992 Major League Baseball Salaries . . . 307
9.4 ExtensionsandAdjustments ................. 309
9.4.1 Multivariate Responses................ 309
9.4.2 Survival Trees...................... 310
9.4.3 MARS .......................... 311
9.4.4 Missing Data...................... 312
9.5 SoftwarePackages ....................... 313
Bibliographical Notes........................ 313
Exercises ............................... 313
10 Artificial Neural Networks 315
10.1 Introduction .......................... 315
10.2 The Brain as a Neural Network............... 316
10.3 The McCulloch–Pitts Neuron................. 318
10.4 Hebbian Learning Theory................... 320
10.5 Single-Layer Perceptrons................... 321
10.5.1 Feedforward Single-Layer Networks......... 322
10.5.2 Activation Functions................. 323
10.5.3 Rosenblatt’s Single-Unit Perceptron......... 325

xviii Contents
10.5.4 The Perceptron Learning Rule............ 326
10.5.5 Perceptron Convergence Theorem.......... 326
10.5.6 Limitations of the Perceptron............ 328
10.6 Artificial Intelligence and Expert Systems.......... 329
10.7 Multilayer Perceptrons.................... 330
10.7.1 Network Architecture................. 331
10.7.2 A Single Hidden Layer................ 332
10.7.3 ANNs Can Approximate Continuous Functions . . . 333
10.7.4 More than One Hidden Layer............ 334
10.7.5 Optimality Criteria.................. 335
10.7.6 The Backpropagation of Errors Algorithm..... 336
10.7.7 Convergence and Stopping . ............. 340
10.8 Network Design Considerations................ 341
10.8.1 Learning Modes.................... 341
10.8.2 Input Scaling...................... 342
10.8.3 How Many Hidden Nodes and Layers?....... 343
10.8.4 Initializing the Weights................ 343
10.8.5 Overfitting and Network Pruning.......... 343
10.9 Example: Detecting Hidden Messages in Digital Images . . 344
10.10 Examples of Fitting Neural Networks............ 347
10.11 Related Statistical Methods.................. 348
10.11.1 Projection Pursuit Regression............ 349
10.11.2 Generalized Additive Models ............. 350
10.12 Bayesian Learning for ANN Models ............. 352
10.12.1 Laplace’s Method................... 353
10.12.2 Markov Chain Monte Carlo Methods........ 361
10.13 Software Packages....................... 364
Bibliographical Notes........................ 364
Exercises ............................... 366
11 Support Vector Machines 369
11.1 Introduction.......................... 369
11.2 Linear Support Vector Machines . . ............. 370
11.2.1 The Linearly Separable Case ............. 371
11.2.2 The Linearly Nonseparable Case........... 376
11.3 Nonlinear Support Vector Machines ............. 378

Contents xix
11.3.1 Nonlinear Transformations.............. 379
11.3.2 The “Kernel Trick”.................. 379
11.3.3 Kernels and Their Properties............. 380
11.3.4 Examples of Kernels.................. 380
11.3.5 Optimizing in Feature Space............. 384
11.3.6 Grid Search for Parameters.............. 385
11.3.7 Example: E-mail or Spam?.............. 385
11.3.8 Binary Classification Examples............ 387
11.3.9 SVM as a Regularization Method.......... 387
11.4 Multiclass Support Vector Machines............. 390
11.4.1 Multiclass SVM as a Series of Binary Problems . . 390
11.4.2 A True Multiclass SVM................ 391
11.5 Support Vector Regression.................. 397
11.5.1ff-Insensitive Loss Functions............. 398
11.5.2 Optimization for Linearff-Insensitive Loss . . . . . 398
11.5.3 Extensions....................... 401
11.6 Optimization Algorithms for SVMs............. 401
11.7 Software Packages....................... 403
Bibliographical Notes........................ 404
Exercises ............................... 404
12 Cluster Analysis 407
12.1 Introduction .......................... 407
12.1.1 What Is a Cluster?.................. 408
12.1.2 Example: Old Faithful Geyser Eruptions...... 409
12.2 Clustering Tasks........................ 409
12.3 Hierarchical Clustering.................... 411
12.3.1 Dendrogram...................... 412
12.3.2 Dissimilarity...................... 412
12.3.3 Agglomerative Nesting (agnes) ........... 414
12.3.4 A Worked Example.................. 414
12.3.5 Divisive Analysis (diana)............... 420
12.3.6 Example: Primate Scapular Shapes......... 420
12.4 Nonhierarchical or Partitioning Methods.......... 422
12.4.1K-Means Clustering (kmeans) ............ 423
12.4.2 Partitioning Around Medoids (pam) ......... 424

xx Contents
12.4.3 Fuzzy Analysis (fanny)................ 425
12.4.4 Silhouette Plot..................... 426
12.4.5 Example: Landsat Satellite Image Data....... 428
12.5 Self-Organizing Maps (SOMs................ 431
12.5.1 The SOM Algorithm................. 432
12.5.2 On-line Versions.................... 433
12.5.3 Batch Version..................... 434
12.5.4 Unified-Distance Matrix . . ............. 435
12.5.5 Component Planes.................. 437
12.6 Clustering Variables...................... 439
12.6.1 Gene Clustering.................... 439
12.6.2 Principal-Component Gene Shaving......... 440
12.6.3 Example: Colon Cancer Data ............. 443
12.7 Block Clustering........................ 443
12.8 Two-Way Clustering of Microarray Data.......... 446
12.8.1 Biclustering...................... 447
12.8.2 Plaid Models...................... 449
12.8.3 Example: Leukemia (ALL/AML ....... 451
12.9 Clustering Based Upon Mixture Models........... 453
12.9.1 The EM Algorithm for Finite Mixtures....... 456
12.9.2 How Many Components? . . ............. 459
12.10 Software Packages....................... 459
Bibliographical Notes........................ 460
Exercises ............................... 461
13 Multidimensional Scaling
and Distance Geometry 463
13.1 Introduction.......................... 463
13.1.1 Example: Airline Distances . ............. 464
13.2 Two Golden Oldies...................... 468
13.2.1 Example: Perceptions of Color in Human Vision . . 468
13.2.2 Example: Confusion of Morse-Code Signals..... 469
13.3 Proximity Matrices...................... 471
13.4 Comparing Protein Sequences................ 472
13.4.1 Optimal Sequence Alignment ............. 472
13.4.2 Example: Two Hemoglobin Chains.......... 475

Contents xxi
13.5 String Matching........................ 476
13.5.1 Edit Distance..................... 476
13.5.2 Example: Employee Careers at Lloyds Bank . . . . 477
13.6 Classical Scaling and Distance Geometry.......... 478
13.6.1 From Dissimilarities to Principal Coordinates . . . 479
13.6.2 Assessing Dimensionality............... 480
13.6.3 Example: Airline Distances (Continued)....... 481
13.6.4 Example: Mapping the Protein Universe...... 484
13.7 Distance Scaling........................ 486
13.8 Metric Distance Scaling.................... 487
13.8.1 Metric Least-Squares Scaling............. 488
13.8.2 Sammon Mapping................... 488
13.8.3 Example: Lloyds Bank Employees.......... 489
13.8.4 Bayesian MDS..................... 489
13.9 Nonmetric Distance Scaling.................. 492
13.9.1 Disparities....................... 492
13.9.2 The Stress Function.................. 497
13.9.3 Fitting Nonmetric Distance-Scaling Models . . . . . 499
13.9.4 How Good Is an MDS Solution?........... 500
13.9.5 How Many Dimensions?................ 501
13.10 Software Packages....................... 501
Bibliographical Notes........................ 502
Exercises ............................... 503
14 Committee Machines 505
14.1 Introduction .......................... 505
14.2 Bagging............................. 506
14.2.1 Bagging Tree-Based Classifiers............ 507
14.2.2 Bagging Regression-Tree Predictors......... 509
14.3 Boosting . . .......................... 511
14.3.1AdaBoost:BoostingbyReweighting........ 512
14.3.2 Example: Aqueous Solubility in Drug Discovery . . 514
14.3.3 Convergence Issues and Overfitting......... 515
14.3.4 Classification Margins................. 518
14.3.5AdaBoostand Maximal Margins.......... 519
14.3.6 A Statistical Interpretation ofAdaBoost..... 523

xxii Contents
14.3.7 Some Questions AboutAdaBoost......... 527
14.3.8 Gradient Boosting for Regression.......... 530
14.3.9 Other Loss Functions................. 532
14.3.10 Regularization..................... 533
14.3.11 Noisy Class Labels.................. 535
14.4 Random Forests........................ 536
14.4.1 Randomizing Tree Construction........... 536
14.4.2 Generalization Error................. 537
14.4.3 An Upper Bound on Generalization Error...... 538
14.4.4 Example: Diagnostic Classification
ofFourChildhoodTumors.............. 541
14.4.5 Assessing Variable Importance............ 542
14.4.6 Proximities for Classical Scaling........... 544
14.4.7 Identifying Multivariate Outliers........... 545
14.4.8 Treating Unbalanced Classes ............. 547
14.5 Software Packages....................... 548
Bibliographical Notes........................ 548
Exercises ............................... 549
15 Latent Variable Models
for Blind Source Separation 551
15.1 Introduction.......................... 551
15.2 Blind Source Separation
and the Cocktail-Party Problem . . ............. 552
15.3 Independent Component Analysis . ............. 553
15.3.1 Applications of ICA.................. 553
15.3.2 Example: Cutaneous Potential Recordings
of a Pregnant Woman................. 554
15.3.3 Connection to Projection Pursuit.......... 556
15.3.4 Centering and Sphering................ 557
15.3.5 The General ICA Problem . ............. 558
15.3.6 Linear Mixing: Noiseless ICA ............. 560
15.3.7 Identifiability Aspects................. 560
15.3.8 Objective Functions.................. 561
15.3.9 Nonpolynomial-Based Approximations....... 562
15.3.10 Mutual Information.................. 564
15.3.11 The FastICA Algorithm................ 566

Contents xxiii
15.3.12 Example: Identifying Artifacts
inMEGRecordings.................. 569
15.3.13 Maximum-Likelihood ICA.............. 572
15.3.14 Kernel ICA....................... 575
15.4 Exploratory Factor Analysis................. 581
15.4.1 The Factor Analysis Model.............. 582
15.4.2 Principal Components FA.............. 583
15.4.3 Maximum-Likelihood FA............... 584
15.4.4 Example: Twenty-four Psychological Tests . . . . . 587
15.4.5 Critiques of MLFA.................. 588
15.4.6 Confirmatory Factor Analysis............ 590
15.5 Independent Factor Analysis................. 590
15.6 Software Packages....................... 594
Bibliographical Notes........................ 594
Exercises ............................... 595
16 Nonlinear Dimensionality Reduction
and Manifold Learning 597
16.1 Introduction .......................... 597
16.2 Polynomial PCA........................ 598
16.3 Principal Curves and Surfaces................ 600
16.3.1 Curves and Curvature................. 601
16.3.2 Principal Curves.................... 603
16.3.3 Projection-Expectation Algorithm.......... 604
16.3.4 Bias Reduction.................... 605
16.3.5 Principal Surfaces................... 606
16.4 Multilayer Autoassociative Neural Networks........ 607
16.4.1 Main Features of the Network............ 607
16.4.2 Relationship to Principal Curves........... 608
16.5 Kernel PCA .......................... 609
16.5.1 PCA in Feature Space................ 610
16.5.2 Centering in Feature Space.............. 612
16.5.3 Example: Food Nutrition (Continued)........ 612
16.5.4 Kernel PCA and Metric MDS............ 613
16.6 Nonlinear Manifold Learning................. 613
16.6.1 Manifolds........................ 615

xxiv Contents
16.6.2 Data on Manifolds................... 616
16.6.3Isomap......................... 616
16.6.4 Local Linear Embedding . . ............. 621
16.6.5 Laplacian Eigenmaps................. 625
16.6.6 Hessian Eigenmaps.................. 626
16.6.7 Other Methods.................... 628
16.6.8 Relationships to Kernel PCA ............. 628
16.7 Software Packages....................... 630
Bibliographical Notes........................ 630
Exercises ............................... 631
17 Correspondence Analysis 633
17.1 Introduction.......................... 633
17.1.1 Example: Shoplifting in The Netherlands...... 634
17.2 Simple Correspondence Analysis . . ............. 635
17.2.1 Two-Way Contingency Tables............ 635
17.2.2 Row and Column Dummy Variables......... 636
17.2.3 Example: Hair Color and Eye Color......... 638
17.2.4 Profiles, Masses, and Centroids............ 639
17.2.5 Chi-squared Distances................. 642
17.2.6 Total Inertia and Its Decomposition......... 644
17.2.7 Principal Coordinates for Row and
Column Profiles.................... 646
17.2.8 Graphical Displays.................. 649
17.3 Square Asymmetric Contingency Tables........... 651
17.3.1 Example: Occupational Mobility in England.... 653
17.4 Multiple Correspondence Analysis . ............. 658
17.4.1 The Multivariate Indicator Matrix.......... 658
17.4.2 The Burt Matrix.................... 659
17.4.3 Equivalence and an Implication........... 660
17.4.4 Example: Satisfaction with Housing Conditions . . 660
17.4.5 A Weighted Least-Squares Approach........ 661
17.5 Software Packages....................... 663
Bibliographical Notes........................ 663
Exercises ............................... 663
References 667

Contents xxv
Index of Examples 708
Author Index 710
Subject Index 721

1
Introduction and Preview
1.1 Multivariate Analysis
This book invites the reader to learn about multivariate analysis, its mod-
ern ideas, innovative statistical techniques, and novel computational tools,
as well as exciting new applications.
The need for a fresh approach to multivariate analysis derives from three
recent developments. First, many of our classical methods of multivariate
analysis have been found to yield poor results when faced with the types
of huge, complex data sets that private companies, government agencies,
and scientists are collecting today; second, the questions now being asked
of such data are very different from those asked of the much-smaller data
sets that statisticians were traditionally trained to analyze; and, third, the
computational costs of storing and processing data have crashed over the
past decade, just as we see the enormous improvements in computational
power and equipment. All these rapid developments have now made the
efficient analysis of more complicated data a lot more feasible than ever
before.
Multivariate statistical analysis is the simultaneous statistical analysis
of a collection of random variables. It is partly a straightforward extension
A.J. Izenman,Modern Multivariate Statistical Techniques,
doi: 10.1007/978-0-387-78189-1
1, 1
cffiSpringer Science+Business Media, LLC 2008

2 1. Introduction and Preview
of the analysis of a single variable, where we would calculate, for example,
measures of location and variation, check violations of a particular distrib-
utional assumption, and detect possible outliers in the data. Multivariate
analysis improves upon separate univariate analyses of each variable in a
study because it incorporates information into the statistical analysis about
the relationships between all the variables.
Much of the early developmental work in multivariate analysis was mo-
tivated by problems from the social and behavioral sciences, especially ed-
ucation and psychology. Thus, factor analysis was devised to provide a
statistical model for explaining psychological theories of human ability and
behavior, including the development of a notion of general intelligence;
principal component analysis was invented to analyze student scores on
a battery of different tests; canonical variate and correlation analysis had
a similar origin, but in this case the relationship of interest was between
student scores on two separate batteries of tests; and multidimensional scal-
ing originated in psychometrics, where it was used to understand people’s
judgments of the similarity of items in a set.
Some multivariate methods were motivated by problems in other scien-
tific areas. Thus, linear discriminant analysis was derived to solve a taxo-
nomic (i.e., classification) problem using multiple botanical measurements;
analysis of variance and its big brother, multivariate analysis of variance,
derived from a need to analyze data from agricultural experiments; and the
origins of regression and correlation go back to problems involving heredity
and the orbits of planets.
Each of these multivariate statistical techniques was created in an era
when small or medium-sized data sets were common and, judged by today’s
standards, computing was carried out on less-than-adequate computational
platforms (desk calculators, followed by mainframe batch computing with
punched cards). Even as computational facilities improved dramatically
(with the introduction of the minicomputer, the hand calculator, and the
personal computer), it was only recently that the floodgates opened and the
amounts of data recorded and stored began to surpass anything previously
available. As a result, the focus of multivariate data analysis is changing
rapidly, driven by a recognition that fast and efficient computation is of
paramount importance to its future.
Statisticians have always been considered as partners for joint research
in all the scientific disciplines. They are now beginning to participate with
researchers from some of the subdisciplines within computer science, such
as pattern recognition, neural networks, symbolic machine learning, com-
putational learning theory, and artificial intelligence, and also with those
working in the new field of bioinformatics; together, new tools are being
devised for handling the massive quantities of data that are routinely col-
lected in business transactions, governmental studies, science and medical
research, and for making law and public policy decisions.

1.2 Data Mining 3
We are now seeing many innovative multivariate techniques being devised
to solve large-scale data problems. These techniques include nonparamet-
ric density estimation, projection pursuit, neural networks, reduced-rank
regression, nonlinear manifold learning, independent component analysis,
kernel methods and support vector machines, decision trees, and random
forests. Some of these techniques are new, but many of them are not so
new (having been introduced several decades ago but virtually ignored by
the statistical community). It is because of the current focus on large data
sets that these techniques are now regarded as serious alternatives to (and,
in some cases, improvements over) classical multivariate techniques.
This book focuses on the areas of regression, classification, and mani-
fold learning, topics now regarded as the core components of data mining
and machine learning, which we briefly describe in this chapter. It is im-
portant to note here that these areas overlap a great deal in content and
methodology: what is one person’s data-mining problem may be another’s
machine-learning problem.
1.2 Data Mining
1.2.1 From EDA to Data Mining
Although the revolutionary concept ofexploratory data analysis (EDA)
(Tukey, 1977) changed the way many statisticians viewed their discipline, emphasis in EDA centered on quick and dirty methods (using pencil and paper) for the visualization and examination of small data sets. Enthusi-
asts soon introduced EDA topics into university (and high school) courses
in statistics. To complete the widespread acceptance and utility of John
Tukey’s exploratory procedures and his idiosyncratic nomenclature, EDA
techniques were included in standard statistical software packages. Never-
theless, despite the available computational power, EDA was still perceived
as a collection of small-sample, data-analytic tools.
Today, measurements on a variety of related variables often produce a
data set so large as to be considered unwieldy for practical purposes. Such
data now often range in size from moderate (say 10
3
to 10
4
cases) to large
(10
6
cases or more). For example, billions of transactions each year are
carried out by international finance companies; Internet traffic data are
described as “ferocious” (Cleveland and Sun, 2000); the Human Genome
Project has to deal with gigabytes (2
30
(∼10
9
) bytes) of genetic informa-
tion; astronomy, the space sciences, and the earth sciences have terabytes
(2
40
(∼10
12
) bytes) and soon, petabytes (2
50
(∼10
15
) bytes), of data for
processing; and remote-sensing satellite systems, in general, record many
gigabytes of data each hour. Each of these data sets is incredibly large and

4 1. Introduction and Preview
complex, with millions of observations being recorded on huge numbers of
variables.
Furthermore, governmental statistical agencies (e.g., the Federal Statis-
tical Service in the United States, the National Statistical Service in the
United Kingdom, and similar agencies in other countries) are accumulat-
ing greater amounts of detailed economic, labor, demographic, and census
information than at any time in the past. The U.S. census file based solely
on administrative records, for example, has been estimated to be of size
at least 10
12
bytes (Kirkendall, 1997). Other massive data sets (e.g., crime
data, health-care data) are maintained by other governmental agencies.
The availability of massive quantities of data coupled with enormous
increases in computational power for relatively low cost has led to the cre-
ation of a whole new activity calleddata mining. With massive data sets,
the process of data mining is not unlike a gigantic effort at EDA for “infi-
nite” data sets. For many companies, their data sets of interest are so large
that only the simplest of statistical computations can be carried out. In
such situations, data mining means little more than computing means and
standard deviations of each variable; drawing some bivariate scatterplots
and carrying out simple linear regressions of pairs of variables; and doing
some cross-tabulations. The level of sophistication of a data mining study
depends not just on the statistical software but also on the computer hard-
ware (RAM, hard disk, etc.) and database management system for storing
the data and processing the results.
Even if we are faced with a huge amount of data, if the problem is
simple enough, we can sample and use standard exploratory and confirma-
tory methods. In some instances, especially when dealing with government-
collected data, sampling may be carried out by the agency itself. Census
data, for example, is too big to be useful for most users; so, the U.S. Census
Bureau creates manageable public-use files by drawing a random sample of
individuals from the full data set and either removes or masks identifying
information (Kirkendall, 1997),
In most applications of data mining, there is no `a priori reason to sam-
ple. The entire population of data values (at least, those with which we
would be interested) is readily available, and the questions asked of that
data set are usually exploratory in nature and do not involve inference. Be-
cause a data pattern (e.g., outliers, data errors, hidden trends, credit-card
fraud) is a local phenomenon, possibly affecting only a few observations,
sampling, which typically reduces the size of the data set in drastic fashion,
may completely miss the specifics of whatever pattern would be of special
interest.
Data mining differs from classical statistical analysis in that statistical
inference in its hypothesis-testing sense may not be appropriate. Further-
more, most of the questions asked of large data sets are different from the

1.2 Data Mining 5
classical inference questions asked of much smaller samples of data. This is
not to say that sampling and subsequent modeling and inference have no
role to play when dealing with massive data sets. Sampling, in fact, may be
appropriate in certain circumstances as an accompaniment to any detailed
data exploration activities.
1.2.2 What Is Data Mining?
It is usual to categorize data mining activities as eitherdescriptiveor
predictive, depending upon the primary objective:
Descriptive data mining:Search massive data sets and discover the lo-
cations of unexpected structures or relationships, patterns, trends,
clusters, and outliers in the data.
Predictive data mining:Build models and procedures for regression,
classification, pattern recognition, or machine learning tasks, and as-
sess the predictive accuracy of those models and procedures when
applied to fresh data.
The mechanism used to search for patterns or structure in high-dimensional
data might be manual or automated; searching might require interactively
querying a database management system, or it might entail using visual-
ization software to spot anomolies in the data. In machine-learning terms,
descriptive data mining is known asunsupervised learning, whereas predic-
tive data mining is known assupervised learning.
Most of the methods used in data mining are related to methods devel-
oped in statistics and machine learning. Foremost among those methods are
the general topics of regression, classification, clustering, and visualization.
Because of the enormous sizes of the data sets, many applications of data
mining focus on dimensionality-reduction techniques (e.g., variable selec-
tion) and situations in which high-dimensional data are suspected of lying
on lower-dimensional hyperplanes. Recent attention has been directed to
methods of identifying high-dimensional data lying on nonlinear surfaces
or manifolds.
Table 1.1 lists some of the application areas of data mining and exam-
ples of major research themes within those areas. Using the massive data
sets that are routinely collected by each of these disciplines, advances in
dealing with the topics depend crucially upon the availability of effective
data mining techniques and software.
One of the most important issues in data mining is the computational
problem ofscalability. Algorithms developed for computing standard ex-
ploratory and confirmatory statistical methods were designed to be fast
and computationally efficient when applied to small and medium-sized data
sets; yet, it has been shown that most of these algorithms are not up to

6 1. Introduction and Preview
the challenge of handling huge data sets. As data sets grow, many exist-
ing algorithms demonstrate a tendency to slow down dramatically (or even
grind to a halt).
In data mining, regardless of size or complexity of the problem (essen-
tially, the numbers of variables and observations), we require algorithms to
have good performance characteristics; that is, they have to be scalable.
There is no globally accepted definition of scalability, but a general idea of
what this property means is the following:
Scalability:The capability of an algorithm to remain efficient and accu-
rate as we increase the complexity of the problem.
The best scenario is that scalability should be linear. So, one goal of data
mining is to create a library of scalable algorithms for the statistical analysis
of large data sets.
Another issue that has to be considered by those working in data mining
is the thorny problem ofstatistical inference. The twentieth century saw
Fisher, Neyman, Pearson, Wald, Savage, de Finetti, and others provide
a variety of competing — yet related — mathematical frameworks (fre-
quentist, Bayesian, fiducial, decision theoretic, etc.) from which inferential
theories of statistics were built. Extrapolating to a future point in time,
can we expect researchers to provide a version of statistical inference for
analyzing massive data sets?
There are situations in data mining when statistical inference — in its
classical sense — either has no meaning or is of dubious validity: the former
occurs when we have the entire population to search for answers (e.g.,
gene or protein sequences, astronomical recordings), and the latter occurs
when a data set is a “convenience” sample rather than being a random
sample drawn from some large population. When data are collected through
time (e.g., retail transactions, stock-market transactions, patient records,
weather records), sampling also may not make sense; the time-ordering of
the observations is crucial to understanding the phenomenon generating
the data, and to treat the observations as independent when they may be
highly correlated will provide biased results.
Those who now work in data mining recognize that the central compo-
nents of data mining are — in addition to statistical theory and methods
— computing and computational efficiency, automatic data processing, dy-
namic and interactive data visualization techniques, and algorithm devel-
opment. There are a number of software packages whose primary purpose
is to help users carry out various techniques in data mining. The leading
data-mining products include the packages listed (in alphabetical order) in
Table 1.2.

1.2 Data Mining 7
TABLE 1.1.Application areas of data mining
Marketing:Predict new purchasing trends. Identify “loyal” customers. Predict
what types of customers will respond to direct mailings, telemarketing
calls, advertising campaigns, or promotions. Given customers who have
purchased product A, B, or C, identify those who are likely to purchase
product D and, in general, which products sell together (popularly called
market basket analysis).
Banking:Predict which customers will likely switch from one credit card com-
pany to another. Evaluate loan policies using customer characteristics. Pre-
dict behavioral use of automated teller machines (ATMs).
Financial Markets:Identify relationships between financial indicators. Track
changes in an investment portfolio and predict price turning points. Ana-
lyze volatility patterns in high-frequency stock transactions using volume,
price, and time of each transaction.
Insurance:Identify characteristics of buyers of new policies. Find unusual claim
patterns. Identify “risky” customers.
Healthcare:Identify successful medical treatments and procedures by examin-
ing insurance claims and billing data. Identify people “at risk” for certain
illnesses so that treatment can be started before the condition becomes
serious. Predict doctor visits from patient characteristics. Use healthcare
data to help employers choose between HMOs.
Molecular Biology:Collect, organize, and integrate the enormous quantities
of data on bioinformatics, functional genomics, proteomics, gene expression
monitoring, and microarrays. Analyze amino acid sequences and deoxyri-
bonucleic acid (DNA
biological function. Predict protein structure and identify related proteins.
Astronomy:Catalogue (as stars, galaxies, etc.) hundreds of millions of objects
in the sky using hundreds of attributes, such as position, size, shape, age,
brightness, and color. Identify patterns and relationships of objects in the
sky.
Forensic Accounting:Identify fraudulent behavior in credit card usage by
looking for transactions that do not fit a particular cardholder’s buying
habits. Identify fraud in insurance and medical claims. Identify instances
of tax evasion. Detect illegal activities that can lead to suspected money
laundering operations. Identify stock market behaviors that indicate pos-
sible insider-trading operations.
Sports:Identify in realtime which players and which designed plays are most
effective at specific points in the game and in relation to combinations of
opposing players. Identify the exact moment when intriguing play patterns
occurred. Discover game patterns hidden behind summary statistics.

8 1. Introduction and Preview
TABLE 1.2.Data mining software packages.
Company Software Package
IBM Corp. Intelligent Miner
Insightful Insightful Miner
NCR Corp. Teradata Warehouse Miner
Oracle Darwin
SAS Institute, Inc.Enterprise Miner
Silicon Graphics, Inc.MineSet
SPSS, Inc. Clementine
1.2.3 Knowledge Discovery
Data mining has been described (Fayyad, Piatetsky-Shapiro, and Smyth,
1996) as a step in a more general process known asknowledge discovery in
databases (KDD. The “knowledge” acquired by KDD has to be interesting,
non-trivial, non-obvious, previously unknown, and potentially useful.
KDD is a multistep process designed to assist those who need to search
huge data sets for “nuggets of useful information.” In KDD, assistance is
expected to be intelligent and automated, and the process itself is interac-
tive and iterative.
KDD is composed of six primary activities:
1. selecting the target data set (which data set or which variables and
cases are to be used for data mining);
2. data cleaning (removal of noise, identification of potential outliers,
imputing missing data);
3. preprocessing the data (deciding upon data transformations, tracking
time-dependent information);
4. deciding which data-mining tasks are appropriate (regression, classi-
fication, clustering, etc.);
5. analyzing the cleaned data using data-mining software (algorithms for
data reduction, dimensionality reduction, fitting models, prediction,
extracting patterns);
6. interpreting and assessing the knowledge derived from data-mining
results.
In KDD, and hence in data mining, the descriptive aspect is more important
than the predictive aspect, which forms the main goal of machine learning.

1.3 Machine Learning 9
1.3 Machine Learning
Machine learning evolved out of the subfield of computer science known
asartificial intelligence (AI. Whereas the focus of AI is to make machines
intelligent, able to think rationally like humans and solve problems, ma-
chine learning is concerned with creating computer systems and algorithms
so that machines can “learn” from previous experience. Because intelligence
cannot be attained without the ability to learn, machine learning now plays
a dominant role in AI.
1.3.1 How Does a Machine Learn?
A machine learns when it is able to accumulate experience (through
data, programs, etc.) and develop new knowledge so that its performance
on specific tasks improves over time. This idea of learning from experience
is central to the various types of problems encountered in machine learning,
especially problems involving classification (e.g., handwritten digit recogni-
tion, speech recognition, face recognition, text classification). The general
goal of each of these problems is to find a systematic way of classifying a
future example (e.g., a handwriting sample, a spoken word, a face image, a
text fragment). Classification is based upon measurements on that future
example together with knowledge obtained from alearning(ortraining)
sampleof similar examples (where the class of each example is completely
determined and known, and the number of classes is finite and known).
The need to create new methods and terminology for analyzing large
and complex data sets has led to researchers from several disciplines —
statistics, pattern recognition, neural networks, symbolic machine learning,
computational learning theory, and, of course, AI — to work together to
influence the development of machine learning.
Among the techniques that have been used to solve machine-learning
problems, the topics that are of most interest to statisticians — density
estimation, regression, and pattern recognition (including neural networks,
discriminant analysis, tree-based classifiers, random forests, bagging and
boosting, support vector machines, clustering, and dimensionality-reduction
methods) — are now collectively referred to asstatistical learningand con-
stitute many of the topics discussed in this book. Vladimir N. Vapnik, one
of the founders of statistical learning theory, relates statistics to learning
theory in the following way (Vapnik, 2000, p. x):
The problem of learning is so general that almost any question
that has been discussed in statistical science has its analog in
learning theory. Furthermore, some very important general re-
sults were first found in the framework of learning theory and
then formulated in the terms of statistics.

10 1. Introduction and Preview
The machine-learning community divides learning problems into vari-
ous categories: the two most relevant to statistics are those ofsupervised
learningandunsupervised learning.
Supervised learning:Problems in which the learning algorithm receives
a set of continuous or categorical input variables and a correct out-
put variable (which is observed or provided by an explicit “teacher”)
and tries to find a function of the input variables to approximate the
known output variable: a continuous output variable yields a regres-
sion problem, whereas a categorical output variable yields a classifi-
cation problem.
Unsupervised learning:Problems in which there is no information avail-
able (i.e., no explicit “teacher”) to define an appropriate output vari-
able; often referred to as “scientific discovery.”
The goal in unsupervised learning differs from that of supervised learn-
ing. In supervised learning, we study relationships between the input and
output variables; in unsupervised learning, we explore particular character-
istics of the input variables only, such as estimating the joint probability
density, searching out clusters, drawing proximity maps, locating outliers,
or imputing missing data.
Sometimes there might not be a “bright-line” distinction between super-
vised and unsupervised learning. For example, the dimensionality-reduction
technique of principal component analysis (PCA
variable and, thus, appears to be an unsupervised-learning method; how-
ever, as we will see, PCA can be formulated in terms of a multivariate
regression model where the input variables are also used as output vari-
ables, and so PCA can also be regarded as a supervised-learning method.
1.3.2 Prediction Accuracy
One of the most important tasks in statistics is to assess the accuracy of a
predictor (e.g., regression estimator or classifier). The measure of prediction
accuracy typically used is that ofprediction error, defined generically as
Prediction error:In a regression problem, the mean of the squared errors
of prediction, where error is the difference between a true output
value and its corresponding predicted output value; in a classification
problem, the probability of misclassifying a case.
The simplest estimate ofprediction erroris theresubstitution error,which
is computed as follows. In a regression problem, the fitted model is used
to predict each of the (known) output values from the entire data set,
and the resubstitution estimate is then the mean of the squared residuals,

1.3 Machine Learning 11
also known as theresidual mean square. In a classification problem, the
classifier predicts the (known) class of each case in the entire data set, a
correct prediction is scored as a 0 and a misclassification is scored as a 1,
and the resubstitution estimate is the proportion of misclassified cases.
Because the resubstitution estimate uses the same data as was used to
derive the predictor, the result is an overly optimistic view of prediction
accuracy. Clearly, it is important to do better.
1.3.3 Generalization
The need to improve upon the resubstitution estimator of prediction ac-
curacy led naturally to the concept ofgeneralization: we want an estimation
procedure to generalize well; that is, to make good predictions when applied
to a data setindependent of that used to fit the model. Although this is not
a new idea — it has existed in statistics for a long time (see, e.g., Mosteller
and Tukey, 1977, pp. 37–38) — the machine-learning community embraced
this particular concept (adopting the name from psychology) and made it
a central issue in the theory and applications of machine learning.
Where do we find such an independent data set? One way is to gather
fresh data. However, “when fresh gathering is not feasible, good results can
come from going to a body of data that has been kept in a locked safe
where it has rested untouched and unscanned during all the choices and
optimizations” (Mosteller and Tukey, 1977, p. 38). The data in the “locked
safe” can be viewed as holding back a portion of the current data from
the model-fitting phase and using it instead for assessment purposes. If an
independent set of data is not used, then we will overestimate the model’s
predictive accuracy.
In fact, it is now common practice — assuming the data set is large
enough — to use a random mechanism to separate the data into three
nonoverlapping and independent data sets:
a learning (or training) setL, a data set where “anything goes...in-
cluding hunches, preliminary testing, looking for patterns, trying large
numbers of different models, and eliminating outliers” (Efron, 1982,
p. 49);
a validation setV, a data set to be used for model selection and assess-
ment of competing models (usually on the basis of predictive ability);
a test setT, a data set to be used for assessing the performance of a
completely specified final model.
The key assumption here is that the three subsets of the data are each
generated by the same underlying distribution. In some instances, learning
data may be taken from historical records.

12 1. Introduction and Preview
As a simple guideline, the learning set should consist of about 50% of
the data, whereas the validation and test sets may each consist of 25%
(although these percentages are not written in stone). In some instances,
we may find it convenient to merge the validation set with the test set,
thus forming a larger test set. For example, we often see publicly available
data sets in Internet databases divided into a learning set and a test set.
1.3.4 Generalization Error
In supervised learning problems, it is important to assess how closely a
particular model (function of the inputs) fits the data (the outputs). As
before, we use prediction error as our measure of prediction accuracy.
In regression problems, there are two different types of prediction error.
For both types, we first fit a model to the learning setL. Then, we use that
fitted model to predict the output values of eitherL(given input values
fromL) or the test setT(given input values fromT). Prediction error is
the mean (computed only over the appropriate data set) of the squared-
errors of prediction (where error = true output value – predicted output
value). If we average overL, the prediction error is called theregression
learning error(equivalent to the resubstitution estimate computed only
overL), whereas if we average overT, the prediction error is called the
regression test error.
A similar strategy is used in classification problems; only the definition
of prediction error is different. We first build a classifier fromL.Next,we
use that classifier to predict the class of each data vector in eitherLorT.
For each prediction, we assign the value of 0 to a correct classification and 1
to a classification error. The prediction error is then defined as the average
of all the 0s and 1s over the appropriate data set (i.e., the proportion of
misclassified observations). If we average overL, then prediction error is
referred to as theclassification learning error(equivalent to the resubstitu-
tion estimate computed only overL), whereas averaging overTyields the
classification test error.
If the learning setLis moderately sized, we may feel that using only
a portion of the entire data set to fit the model is a waste of good data.
Alternative data-splitting methods for estimating test error are based upon
cross-validation(Stone, 1974) and thebootstrap(Efron, 1979):
V-fold cross-validation:Randomly divide the entire data set into, say,V
nonoverlapping groups of roughly equal size; remove one of the groups
and fit the model using the combined data from the otherV−1 groups
(which forms the learning set); use the omitted group as the test set,
predict its output values using the fitted model, and compute the
prediction error for the omitted group; repeat this procedureVtimes,
each time removing a different group; then, average the resultingV

1.3 Machine Learning 13
prediction errors to estimate the test error. The number of groupsV
can be any number from 2 to the sample size.
Bootstrap:Select a “bootstrap sample” from the entire data set by draw-
ing a random samplewith replacementhaving the same size as the
parent data set, so that the sample may contain repeated observa-
tions; fit a model using this bootstrap sample and compute its pre-
diction error; repeat this sampling procedure, say, 1000 times, each
time computing a prediction error; then, average all the prediction
errors to estimate the test error.
These are generic descriptions of the two procedures; specific descriptions
are given in various sections of this book. In particular, the definition of
the bootstrap is actually more complicated than that given by this descrip-
tion because it depends on what is assumed about the stochastic model
generating the data. Although both cross-validation and the bootstrap are
computationally intensive techniques, cross-validation uses the entire data
set in a more efficient manner than the division into a learning set and an
independent test set. We also caution that, in some applications, it may
not make sense to use one of these procedures.
The expected prediction error over an independent test set is calledinfi-
nite test errororgeneralization error. We estimate generalization error by
the test error. One goal ofgeneralization theoryis to choose that regression
model or classifier thatgives the smallest generalization error.
1.3.5 Overfitting
To minimize generalization error, it is tempting to find a model that will
fit the data in the learning set as accurately as possible. This is not usually
advisable because it may make the selected model too complicated. The
resulting learning error will be very small (because the fitted model has
been optimized for that data set), whereas the test error will be large (a
consequence ofoverfitting).
Overfitting:Occurs when the model is too large or complicated, or con-
tains too many parameters relative to the size of the learning set. It
usually results in a very small learning error and a large generalization
(test
One can control such temptation by following the principle known asOck-
ham’s razor, which encourages us to choose simple models while not losing
track of the need for accuracy. Simple models are generally preferred if ei-
ther the learning set is too small to derive a useful estimate of the model
or fitting a more complex model would necessitate using huge amounts of
computational resources.

14 1. Introduction and Preview
We illustrate the idea of overfitting with a simple regression example.
Using 10 equally spacedxvalues as the learning set, we generate corre-
spondingyvalues from the functiony=0.5+0.25cos(2πx)+e,where the
Gaussian noise componentehas mean zero and standard deviation 0.06.
We try to approximate the underlying unknown function (the cosinusoid)
by a polynomial inx, where the problem is to decide on the degree of the
polynomial. In the top-left panel of Figure 1.1, we give the cosinusoid and
the 10 generated points; in the top-right panel, a linear regression function
gives a poor fit to the points and shows the result ofunderfittingby using
too few parameters; in the bottom-left panel, a cubic polynomial is fitted
to the data, showing an improved approximation to the cosinusoid; and in
the bottom-right panel, by increasing the fit to a 9th-degree polynomial,
we ensure that the fitted curve passes through each point exactly. However,
the 9th-degree polynomial actually makes the fit much worse by introduc-
ing unwanted fluctuations and shows the result of overfitting by using too
many parameters.
How would such polynomial fits affect a test set obtained by using the
samexvalues but different noise values (hence, differentyvalues) in the
above cosinusoid model? In Figure 1.2, we plot the prediction errors for
both the learning set and the test set. The learning error, as expected,
decreases monotonically to zero when we fit a 9th-degree polynomial. This
behavior for the learning error is typical whenever the fitted model ranges
from the very simple to the most complex. The test error decreases to a
4thdegree polynomial and then increases, indicating that models with too
many parameters will have poor generalization properties.
Researchers have suggested several methods for reducing the effects of
overfitting. These include methods that employ some form of averaging
of predictions made by a number of different models fit to the learning
set (e.g., the “bagging” and “boosting” algorithms of Chapter 14) and
regularization (where complex models are penalized in favor of simpler
models). Bayesian arguments in favor of a related idea of “model averaging”
have also been proposed (see Hoeting, Madigan, Raftery, and Volinsky,
1999, for an excellent review of the topic).
1.4 Overview of Chapters
This book is divided into 17 chapters. Chapter 2 describes multivari-
ate data, database management systems, and data problems. Chapter 3 reviews basic vector and matrix notation, introduces random vectors and matrices and their distributions, and derives maximum likelihood estimates
for the multivariate Gaussian mean, including the James–Stein shrinkage
estimator. Chapter 4 provides the elements of nonparametric density esti-
mation. Chapters 5 reviews topics in multiple linear regression, including

1.4 Overview of Chapters 15
x
y
0.2 0.4 0.6 0.8 1.0 1.2 1.4
0.0 0.2 0.4 0.6 0.8 1.0
x
y
0.2 0.4 0.6 0.8 1.0 1.2 1.4
0.0 0.2 0.4 0.6 0.8 1.0
x
y
0.2 0.4 0.6 0.8 1.0 1.2 1.4
0.0 0.2 0.4 0.6 0.8 1.0
x
y
0.2 0.4 0.6 0.8 1.0 1.2 1.4
0.0 0.2 0.4 0.6 0.8 1.0
FIGURE 1.1.Teny-values corresponding to equally spacedx-values were
generated from the cosinusoidy=0.5+0.25cos(2πx)+e, where the noise
componente∼N(0,(0.06)
2
). Top-left panel: the true cosinusoid is shown
in black with the 10 points in blue; top-right: the red line is the ordinary
least-squares (OLS
curve is an OLS cubic polynomial fit to the points; bottom-right: the red
curve is a 9th-degree polynomial that passes through every point.
02468
Degree of Polynomial
0.0
0.1
0.2
0.3
0.4
0.5
Prediction Error
Test Set
Learning Set
FIGURE 1.2.Prediction error from the learning set (blue curve) and
test set (red curve) based upon polynomial fits to data generated from a
cosinusoid curve with noise.

16 1. Introduction and Preview
model assessment (through cross-validation and the bootstrap), biased re-
gression, shrinkage, and model selection, concepts that will be needed in
later chapters.
In Chapter 6, we discuss multivariate regression for both the fixed-Xand
random-X cases. We discuss multivariate analysis of variance and multi-
variate reduced-rank regression (RRR
a unified theory of multivariate analysis, which includes as special cases
the classical techniques of principal component analysis, canonical variate
analysis, linear discriminant analysis, factor analysis, and correspondence
analysis. In Chapter 7, we introduce the idea of (linear
duction, which includes principal component analysis, canonical variate and
correlation analysis, and projection pursuit. Chapter 8 discusses Fisher’s
linear discriminant analysis. Chapter 9 introduces recursive partitioning
and classification and regression trees. Chapter 10 discusses artificial neural
networks via analogies to neural networks in the brain, artificial intelligence,
and expert systems, as well as the related statistical techniques of projec-
tion pursuit regression and generalized additive models. Chapter 11 deals
with classification using support vector machines. Chapter 12 describes the
many algorithms for cluster analysis and unsupervised learning.
In Chapter 13, we discuss multidimensional scaling and distance geome-
try, and Chapter 14 introduces committee machines and ensemble methods,
such as bagging, boosting, and random forests. Chapter 15 discusses inde-
pendent component analysis. Chapter 16 looks at nonlinear methods for di-
mensionality reduction, especially the various flavors of nonlinear principal
component analysis, and nonlinear manifold learning. Chapter 17 describes
correspondence analysis.
Bibliographical Notes
Books on data mining include Fayyad, Piatetsky-Shapiro, Smyth, and
Uthurusamy (1996 annual KDD workshops and conferences and a KDD journal. There is a KDD section of the ACM:www.acm.org/sigkdd. Books on machine learn-
ing include Bishop (1995 (2001

2
Data and Databases
2.1 Introduction
Multivariate data consist of multiple measurements, observations, or re-
sponses obtained on a collection of selected variables. The types of variables
usually encountered often depend upon those who collect the data (thedo-
main experts), possibly together with some statistical colleagues; for it is
these people who actively decide which variables are of interest in study-
ing a particular phenomenon. In other circumstances, data are collected
automatically and routinely without a research direction in mind, using
software that records every observation or transaction made regardless of
whether it may be important or not.
Dataare raw facts, which can be numerical values (e.g., age, height,
weight), text strings (e.g., a name), curves (e.g., a longitudinal record re-
garded as a single functional entity), or two-dimensional images (e.g., pho-
tograph, map). When data sets are “small” in size, we find it convenient
to store them inspreadsheetsor asflat files(large rectangular arrays). We
can then use any statistical software package to import such data for sub-
sequent data analysis, graphics, and inference. As mentioned in Chapter 1,
massive data sets are now sprouting up everywhere. Data of such size need
to be stored and manipulated in special database systems.
A.J. Izenman,Modern Multivariate Statistical Techniques,
doi: 10.1007/978-0-387-78189-1
2, 17
cffiSpringer Science+Business Media, LLC 2008

18 2. Data and Databases
2.2 Examples
We first describe some examples of the data sets to be encountered in
this book.
2.2.1 Example: DNA Microarray Data
The DNA (deoxyribonucleic acid) microarray has been described as “one
of the great unintended consequences of the Human Genome Project”
(Baker, 2003). The main impact of this enormous scientific achievement
is to provide us with large and highly structured microarray data sets from
which we can extract valuable genetic information. In particular, we would
like to know whether “gene expression” (the process by which genetic in-
formation encoded in DNA is converted, first, into mRNA (messenger ri-
bonucleic acid), and then into protein or any of several types of RNA) is
any different for cancerous tissue as opposed to healthy tissue.
Microarray technology has enabled theexpression levelsof a huge num-
ber of genes within a specific cell culture or tissue to be monitored si-
multaneously and efficiently. This is important because differences in gene
expression determine differences in protein abundance, which, in turn, de-
termine different cell functions. Although protein abundance is difficult to
determine, molecular biologists have discovered that gene expression can
be measured indirectly through microarray experiments.
Popular types of microarray technologies include cDNA microarrays (de-
veloped at Stanford University) and high-density, synthetic, oligonucleotide
microarrays (developed by Affymetrix, Inc., under theGeneChip
Rffitrade-
mark). Both technologies use the idea of hybridizing a “target” (which is
usually either a single-stranded DNA or RNA sequence, extracted from bio-
logical tissue of interest) to a DNA “probe” (all or part of a single-stranded
DNA sequence printed as “spots” onto a two-way grid of dimples in a glass
or plastic microarray slide, where each spot corresponds to a specific gene).
The microarray slide is then exposed to a set of targets. Two biologi-
cal mRNA samples, one obtained from cancerous tissue (theexperimental
sample), the other from healthy tissue (thereference sample), are reverse-
transcribed into cDNA (complementary DNA); then, the reference cDNA
is labeled with a green fluorescent dye (e.g., Cy3) and the experimental
cDNA is labeled with a red fluorescent dye (e.g., Cy5). Fluorescence mea-
surements are taken of each dye separately at each spot on the array. High
gene expression in the tissue sample yields large quantities of hybridized
cDNA, which means a high intensity value. Low intensity values derive
from low gene expression.
The primary goal is to compare the intensity values, R and G, of the
red and green channels, respectively, at each spot on the array. The most

2.2 Examples 19
popular statistic is theintensity log-ratio, M= log(R/G) = log(R −log(G
Other such functions include theprobe value,PV= log(R−G), and the
average log-intensity,A=
1
2
(log R + log G). The logarithm in each case is
taken to base 2 because intensity values are usually integers ranging from
0to2
16
−1.
Microarray data is a matrix whose rows are genes and whose columns
are samples, although this row-column arrangement may be reversed. The
genes play the role of variables, and the samples are the observations stud-
ied under different conditions. Such “conditions” include different experi-
mental conditions (treatment vs. control samples), different tissue samples
(healthy vs. cancerous tumors), and different time points (which may in-
corporate environmental changes).
For example, Figure 2.1 displays the heatmap for the expression levels
of 92 genes obtained from a microarray study on 62 colon tissue samples,
where the entries range from negative values (green
(red).
1
The tissue samples were derived from 40 different patients: 22 pa-
tients each provided both a normal tissue sample and a tumor tissue sample,
whereas 18 patients each provided only a colon tumor sample. As a result,
we have tumor samples from 40 patients (T 1,...,T40) and normal samples
from 22 patients (Normal1,...,Normal21), and this is the way the samples
are labeled.
From the heatmap, we wish to identify expression patterns of interest in
microarray data, focusing in on which genes contribute to those patterns
across the various conditions. Multivariate statistical techniques applied to
microarray data include supervised learning methods for classification and
the unsupervised methods of cluster analysis.
2.2.2 Example: Mixtures of Polyaromatic Hydrocarbons
This example illustrates a very common problem in chemometrics. The
data (Brereton, 2003, Section 5.1.2) come from a study of polyaromatic
hydrocarbons (PAHs), which are described as follows:
2
Polyaromatic hydrocarbons (PAHs) are ubiquitous environmen-
tal contaminants, which have been linked with tumors and ef-
fects on reproduction. PAHs are formed during the burning
of coal, oil, gas, wood, tobacco, rubbish, and other organic
1
The data can be found in the filealontop.txton the book’s website. The 92 genes
are a subset of a larger set of more than 6500 genes whose expression levels were measured
on these 62 tissue samples (Alon et al, 1999).
2
This quote is taken from the August 1997 issue of theUpdatenewsletter of the
World Wildlife Fund–UK at its websitewww.wwf-uk.org/filelibrary/pdf/mu
32.pdf.

20 2. Data and Databases
T95018
T71025
T52185
R78934
M26697
D63874
M36981
M63391
T79152
X15183
Z50753
U30825
H40560
M22382
T51571
X70944
H40095
Z49269
Z49269_2
U29092
H11719
X12466
R36977
U09564
R84411
X74295
X12496
T62947
U26312
R64115
L41559
X86693
X63629
T83368
R52081
H87135
D42047
D00596
X54942
U17899
H08393
U32519
U25138
X56597
X62048
T60778
T1
T3
T5
T7
T9
T11
T13
T15
T17
T19
T21
T23
T25
T27
T29
T31
T33
T35
T37
T39
Normal1
Normal3
Normal5
Normal7
Normal9
Normal11
Normal13
Normal15
Normal17
Normal19
Normal21
-4-202
Observed Gene Expression Matrix
# Genes = 92  # cell-lines= 62
FIGURE 2.1.Gene expression heatmap of 92 genes (columns) and 62
tissue samples (rows) for the colon cancer data. The tissue samples are
divided into 40 colon cancer samples (T1–T40) and 22 normal samples
(Normal1–Normal22).
substances. They are also present in coal tars, crude oil, and
petroleum products such as creosote and asphalt. There are
some natural sources, such as forest fires and volcanoes, but
PAHs mainly arise from combustion-related or oil-related man-
made sources. A few PAHs are used by industry in medicines
and to make dyes, plastics, and pesticides.
Table 2.1 gives a list of the 10 PAHs that are used in this example.
The data were collected in the following way.
3
From the 10 PAHs listed
in Table 2.1, 50 complex mixtures of certain concentrations (in mg L) of
those PAHs were formed. From each such mixture, an electronic absorption
3
The data, which can be found in the filePAH.txton the book’s website, can also
be downloaded from the websitestatmaster.sdu.dk/courses/ST02/data/index.html.
The fifty sample observations were originally divided into two independent sets, each of
25 observations, but were combined here so that we would have more observations than
either set of data for the example.

2.2 Examples 21
TABLE 2.1.Ten polyaromatic hydrocarbon (PAH) compounds.
pyrene (Py), acenaphthene (Ace), anthracene ( Anth), acenaphthylene (Acy),
chrysene (Chry), benzanthracene ( Benz), fluoranthene (Fluora), fluorene
(Fluore), naphthalene (Nap), phenanthracene ( Phen)
spectrum (EAS
intervals intor= 27 wavelength channels from 220 nm to 350 nm. The 50
spectra are displayed in Figure 2.2. The scatterplot matrix of the 10 PAHs
is displayed in Figure 2.3. Notice that most of these scatterplots appear as
5×5 arrays of 50 points, where only half the points are visible because of
a replication feature in the experimental design.
Using the resulting digitized values of the spectra, we wish to predict the
individual concentrations of PAHs in the mixture. In chemometrics, this
type of regression problem is referred to asmultivariate inverse calibra-
tion: although the concentrations are actually the input variables and the
spectrum values are the output variables in the chemical process, the real
205 230 255 280 305 330 355
wavelength
0.0
0.2
0.4
0.6
0.8
1.0
1.2
FIGURE 2.2.Electronic absorption spectroscopy (EAS
samples of polyaromatic hydrocarbons (PAH), where the spectra are mea-
sured at 25 wavelengths within the range 220–350 nm.

22 2. Data and Databases
Py
0.00
0.05
0.10
0.15
0.20
0.00
0.05
0.10
0.15
0.20
0.1
0.6
1.1
1.6
2.1
2.6
0.1
0.3
0.5
0.7
0.9
0.0
0.2
0.4
0.6
0.8
1.0
0.00.20.40.60.8
0.000.050.100.150.20
Ace
Anth
0.010.060.110.160.210.26
0.000.050.100.150.20
Acy
Chry
0.10.20.30.40.5
0.10.61.11.62.12.6
Benz
Fluora
0.000.050.100.150.20
0.10.30.50.70.9
Fluore
Nap
0.000.050.100.150.20
0.0
0.2
0.4
0.6
0.8
0.00.20.40.60.81.0
0.01
0.06
0.11
0.16
0.21
0.26
0.1
0.2
0.3
0.4
0.5
0.00
0.05
0.10
0.15
0.20
0.00
0.05
0.10
0.15
0.20
Phen
FIGURE 2.3.Scatterplot matrix of the mixture concentrations of the
10 chemicals in Table 2.1. In each scatterplot, there are 50 points; in
most scatterplots, 25 of the points appear in a5×5array, and the other
25 are replications. In the remaining four scatterplots, there are eight
distinguishable points with different numbers of replications.
goal is to predict the mixture concentrations (which are difficult to deter-
mine) from the spectra (easy to compute), and not vice versa.
2.2.3 Example: Face Recognition
Until recently, human face recognition was primarily based upon identi-
fying individual facial features such as eyes, nose, mouth, ears, chin, head
outline, glasses, and facial hair, and then putting them together compu-
tationally to construct a face. The most used approach today (and the
one we describe here) is an innovative computerized system calledeigen-
faces, which operates directly on an image-based representation of faces
(Turk and Pentland, 1991). Applications of such work include homeland
security, video surveillance, human-computer interaction for entertainment
purposes, robotics, and “smart” cards (e.g., passports, drivers’ licences,
voter registration).
Each face, as a picture image, might be represented by a (c ×d)-matrix of
intensity values, which are usually quantized to 8-bit gray scale (0–255, with

2.2 Examples 23
FIGURE 2.4.Face images of the same individual under nine different
conditions (1=centerlight, 2=glasses, 3=happy, 4=no glasses, 5=normal,
6=sad, 7=sleepy, 8=surprised, 9=wink). From the Yale Face Database.
0 as black and 255 as white). These values are then scaled and converted to
double precision, with values in [0,1]. The values ofcandddepend upon
the degree of resolution needed. The matrix is then “vec’ed” by stacking
the columns of the matrix under one another to form acd-vector inimage
space. For example, if an image is digitized into a (256×256)-array of
pixels, that face is now a point in a 65,536-dimensional space. We can view
all possible images of one particular face as a lower-dimensional manifold
(face space) embedded within the high-dimensional image space.
There are a number of repositories of face images. The data for this
example were taken from theYale Face Database(Belhumeur, Hespanha,
and Kriegman, 1997).
4
which contains 165 frontal-face grayscale images
covering 15 individuals taken under 11 different conditions of different illu-
mination (centerlight, leftlight, rightlight, normal), expression (happy, sad,
sleepy, surprised, wink), and glasses (with and without). Each image has
4
A list of the many face databases that can be accessed on the Internet, including
theYale Face Database, can be found at the websitewww.face-rec.org/databases.

24 2. Data and Databases
size 320×243, which then gets stacked into anr-vector, wherer=77,760.
Figure 2.4 shows the images of a single individual taken under 9 of those
11 conditions. The problem is one ofdimensionality reduction: what is the
fewest number of variables necessary to identify these types of facial im-
ages?
2.3 Databases
Adatabaseis a collection of persistent data, where by “persistent” we
mean data that can be removed from the database only by an explicit request and not through an application’s side effect. The most popular format for organizing data in a database is in the form oftables(also called
data arraysordata matrices), each table having the form of a rectangular
array arranged into rows and columns, where a row represents the values of
all variables on a single multivariateobservation(response, case,orrecord),
and a column represents the values of a singlevariablefor each observation.
In this book, a typical database table havingnmultivariate observations
taken onrvariables will be represented by an (r×n)-matrix,
r×n
X=





x
11x12···x 1n
x21x22···x 2n
.
.
.
.
.
.
.
.
.
x
r1xr2···x rn





, (2.1)
say, havingrrows andncolumns. In (2.1x
ijrepresents the value in the
ith row (i=1,2,...,r)andjth column (j=1,2,...,n)ofX. Although
database tables are set up to have the form ofX
τ
, with variables as columns
and observations as rows, we will find it convenient in this book to setX
to be the transpose of the database table.
Databases exist for storing information. They are used for any of a num-
ber of different reasons, including statistical analysis, retrieving information
from text-based documents (e.g., libraries, legislative records, case dockets
in litigation proceedings), or obtaining administrative information (e.g.,
personnel, sales, financial, and customer records) needed for managing an
organization. Databases can be of any size. Even small databases can be
very useful if accessed often. Setting up a large and complex database typi-
cally involves a major financial committment on the part of an organization,
and so the database has to remain useful over a long time period. Thus, we
should be able to extend a database as additional records become available
and to correct, delete, and update records as necessary.

2.3 Databases 25
2.3.1 Data Types
Databases usually consist of mixtures of different types of variables:
Indexing:These are usually names, tags, case numbers, or serial numbers
that identify a respondent or group of respondents. Their values may
indicate the location where a particular measurement was taken, or
the month or day of the year that an observation was made.
There are two special types of indexing variables:
1. Aprimary keyis an indexing variable (or set of indexing vari-
ables) that uniquely identifies each observation in a database
(e.g., patient numbers, account numbers).
2. Aforeign keyis an indexing variable in a database where that
indexing variable is a primary key of a related database.
Binary:This is the simplest type of variable, having only two possible
responses, such as YES or NO, SUCCESS or FAILURE, MALE or
FEMALE, WHITE or NON-WHITE, FOR or AGAINST, SMOKER
or NON-SMOKER, and so on. It is usually coded 0 or 1 for the two
possible responses and is often referred to as adummyorindicator
variable.
Boolean:ABooleanvariable has the two responses TRUE or FALSE but
may also have the value UNKNOWN.
Nominal:Thischaracter-stringdata type is a more general version of a
binary variable and has a fixed number of possible responses that
cannot be usefully ordered. These responses are typically coded al-
phanumerically, and they usually represent disjoint classifications or
categories set up by the investigator. Examples include the geograph-
ical location where data on other variables are collected, brand prefer-
ence in a consumer survey, political party affiliation, and ethnic-racial
identification of respondent.
Ordinal:The possible responses for this character-string data type are
linearly ordered. An example is “excellent, good, fair, poor, bad, aw-
ful” (or “strongly disagree” to “strongly agree”). Another example
is bond ratings for debt issues, recorded as AA+, AA, AA-, A+, A,
A-, B+, B, and B-. Such responses may be assigned scores or rank-
ings. They are often coded on a “ranking scale” of 1–5 (or 1–10). The
main problem with these ranking scales is the implicit assumption of
equidistance of the assigned scores. Brand preferences can sometimes
be regarded as ordered.

Random documents with unrelated
content Scribd suggests to you:

Rouva Garth istui yksinään tuvassa sairaan poikansa luona ja jos
joku olisi voinut nähdä hänet siellä yksinäisyydessä ja hylätyssä
tilassaan, ehkä hänestä tämä nainen, joka muista tavallisesti tuntui
kovalta kuin pii, nyt olisi näyttänyt pehminneen, surussaan. Kun
kuumehoureet lakkasivat ja Garth palasi tajuihinsa, vaikka hänellä oli
vieläkin kuumetta, valitti hänen äitinsä heidän hylättyä tilaansa.
"Kukaan ei tule katsomaan meitä, Joe, ei kukaan. Siitä nähdään,
millaisia naapurit oikeastaan ovat, poikaseni. He antaisivat mielellään
meidän kuolla, meidän molempien; he antaisivat meidän kuolla
tänne yksinäisyyteen eikä kukaan tulisi meitä katsomaan."
"Yksinäisyyteenkö, äiti? Sanoitko yksinäisyyteen?" kysyi seppä.
"Emme ole enää yksinämme, äiti. Joku on tullut meitä katsomaan."
Rouva Garth katsoi hämmästyneenä ympärilleen kääntyen puoleksi
istuimellaan.
"Äiti", sanoi seppä, "etkö milloinkaan rukoile?"
"Hiljaa, poikaseni, hiljaa", sanoi rouva Garth nyyhkyttäen.
"Etkö milloinkaan rukoile, äiti?" toisti seppä kuumeisin silmin
katkonaisella äänellä.
"Hiljaa, Joe, hiljaa!"
"Äiti, olemme viettäneet melko huonoa elämää, sinä ja minä,
mutta ehkä
Jumala sentään voisi antaa meille anteeksi."
"Tuki nyt suusi, poikaseni, kuuletko!" Rouva Garth rupesi
pöyhimään vuodevaatteita käärien ne poikansa ympärille.

Poika käänsi kokonaan kasvonsa häneen päin ja heidän katseensa
yhtyivät.
"Älä katso minuun noin", sanoi äiti koettaen karttaa hänen
katsettaan. "Mikä sinulle nyt on tullut, Joe, koska näytät tuollaiselta
ja puhut niin kummallisesti?"
"Mikäkö minun on, äiti? Sanonko sen sinulle? Kuolema lähestyy
minua, äiti; kuolema, eikä mikään muu."
"Älä sano niin, Joe-poikaseni."
Vanha nainen hautasi kasvonsa esiliinaansa ja nyyhkytti.
Garth katseli häntä kyyneleenkään ilmestymättä hänen avoimiin
silmiinsä.
"Äiti", sanoi miesraukka jälleen heikolla katkonaisella äänellään,
"äiti, etkö milloinkaan rukoile?"
Rouva Garth paljasti päänsä. Hänen ryppyiset kasvonsa olivat
aivan märät, hän heilutteli ruumistaan ja vaikeroi.
"Kyllä, poikaseni, muistan rukoilleeni ollessani pienen pieni tyttö.
Minulla oli punaiset posket silloin ja oma vanha äitini suuteli minua
usein siihen aikaan. Niin, se on totta. Menimme kirkkoon sunnuntai-
aamuisin, kun kaikki kellot soivat. Niin, muistan sen, poikaseni,
mutta siitä on niin pitkälti aikaa."
Päivä oli pilvinen ja synkkä. Tuuli kiihtyi hämärissä ja joskus
kuulosti sen surullinen humina kiertävän rakennusta. Jokikin, nyt
tulviva ja kohiseva, joka virtasi läheisen sillan alitse, yhtyi siihen
valittavalla äänellään ikuisella matkallaan kaukaiseen valtamereen.

Mutta sepän tuvassa kiiruhti toinen kulkija vielä nopeammasti vielä
kaukaisempaa merta kohti. Ilta pimeni ja Garth heittelehti
vuoteellaan. Hänen äitinsä heilutteli ruumistaan hänen vieressään.
Muuten oli kaikki hiljaista.
Sitten kuului tieltä askelia ja oveen koputettiin. Seppä koetti
kohottaa päätään ja kuunnella. Rouva Garthkin lakkasi liikuttamasta
ruumistaan ja vaikeroimasta.
"Kukahan siellä mahtaneekaan olla?" kuiskasi seppä.
"Anna heidän olla siellä missä he ovat, keitä he sitten
lienevätkään", mumisi hänen äitinsä liikkumatta paikaltaan.
Mutta oveen koputettiin jälleen.
"Ei, äiti, ei; nyt on jo niin myöhäinen, että —"
Hän ei ehtinyt sanoa enempää, kun salpa kohosi ja Rotha Stagg
tuli tupaan.
"Tulin tänne auttamaan teitä hoitamisessa, jos vain sallitte", sanoi
hän sairaalle.
Garth katsoi häneen hetkisen vakavasti. Kaikki hänen kasvojensa
lihakset värähtelivät. Hänen kasvonsa ilmaisivat häpeää, pelkoa,
kauhua ja kaikenlaisia muita tunteita, mutta eivät iloa eivätkä
kiitollisuutta. Sitten hän koetti kääntää heikon ruumiinsa poispäin,
mutta ei jaksanut. Päänsä hän kuitenkin onnistui kääntämään
seinään päin.
"Minusta tuntuu sopivammalta, että ihmiset odottaisivat, kunnes
heitä pyydetään", mumisi rouva Garth katsoen lattiaan.

Rotha riisui yltään huivit, joihin hän oli kietoutunut kylmän vuoksi,
heittäen ne tuolin selustalle. Sitten hän kohensi tulta saaden sen
palamaan kirkkaasti, sillä huoneessa ei ollut muuta valoa. Korupeite,
joka sairaan heittelemisestä oli siirtynyt syrjään, levitettiin uudestaan
sairaan jaloille. Kumartuen vuoteen yli kohotti hän hellästi sairaan
pään käsivarrelleen suoristaessaan hänen pielustaan. Mutta seppä ei
katsonut kertaakaan häneen.
Rouva Garth heilutteli vielä ruumistaan istuessaan lavitsallaan.
"Ihmisten pitäisi odottaa, kunnes heitä kutsutaan", mumisi hän
jälleen, mutta hänen sanansa hukkuivat tukahdutettuun
nyyhkytykseen.
Rotha sytytti kynttilän, jonka hän löysi jostakin läheisyydestä, meni
viereiseen keittiöön, otti sen nurkkakaapista ruukullisen
kaurasuurimoita, palasi takan ääreen ja haki esille pienen padan.
Parin minuutin kuluttua kiehua porisi jo jotakin hiilloksella.
Rouva Garth katseli hänen liikkeitään hyvin tarkkaavaisesti.
Hetkisen kuluttua palasi tyttö jälleen sairaan viereen kulho
kädessään.
"Syökää vähän tätä, herra Garth", sanoi hän. "Suunne on
varmaankin aivan kuiva."
"Kuinka sen tiedätte?" mumisi seppä kohottaen vihdoinkin
katsettaan.
Rotha ei vastannut, painoi vain kylmällä kädellään sepän polttavaa
otsaa. Mutta seppä käski häntä viittauksella ottamaan pois kätensä
ja Rotha totteli.

"Se voi olla vaarallista — se voi olla hyvin vaarallista teille, tyttö",
sanoi hän kuiskaten, hengähtäen joka sanan välissä.
Rotha hymyili, laski kätensä jälleen otsalle ja siveli pois kostean
tukan hänen märältä ohimoltaan.
Rouva Garth nousi istuimeltaan vuoteen vierestä ja horjui takan
ääreen.
Siellä istuutui hän matalalle jakkaralle peittäen esiliinallaan päänsä.
Kohottaen jälleen seppää pielusten varasta työnsi Rotha
lusikallisen kauralientä hänen polttavien huuliensa väliin. Seppä oli
lastakin taipuvaisempi nyt ja salli Rothan noudattaa tahtoaan.
Katsottuaan Rothaan surullisesti hetkisen sanoi hän kääntäen
silmänsä muualle:
"Teillä on tarpeeksi omiakin huolia, Rotha, teidän tarvitsematta
tulla tänne ottamaan osaa meidän — minun ja äidin vaivoihin."
"Niin onkin", vastasi Rotha ja hänen iloiset kasvonsa synkistyivät.
"Ajavatko he hänet maanpakoon?" kysyi seppä hengittäen
kiivaasti. "Äiti sanoo niin. Tuomitaanko hänet maanpakoon?"
"Kyllä ehkä, mutta johonkin toiseen parempaan maahan", sanoi
Rotha taivuttaen päätään.
Garth katsoi kysyvästi häntä kasvoihin. Hänen äitinsä liikahteli
jakkarallaan.
"Miten niin, miten niin?" kysyi seppä hypistellen hermostuneesti
peitettään.

"Miksi kiusaat häntä, tyttö?" sanoi rouva Garth kääntyen heihin
päin.
"Makaa sinä vain, poikani, hiljaa paikoillasi."
"Äiti", sanoi Garth taivuttaen päätään taaksepäin, mutta
siirtämättä hetkeksikään päättäväistä katsettaan Rothan kasvoista,
"mitä hän tarkoittaa?"
"Hiljaa, Joe."
"Mitä hän tarkoittaa, äiti?"
"Hiljaa. Ei pidä milloinkaan välittää sellaisista ihmisistä, jotka
pyytämättä sekaantuvat toisten asioihin."
Rouva Garth puhui äreästi, nousi jakkaraltaan ja asettui Rothan ja
vuoteen väliin.
Garthin avoimet silmät olivat vieläkin kuin kiinniliimatut Rothan
kasvoihin.
"Viis siitä, vaikka häntä ei ole pyydettykään", sano: hän; "mutta
mitä hän tarkoittaa, äiti? Millaista valhetta hän on tullut kertomaan
meille?"
"En mitään valhetta, herra Garth", sanoi Rotha kyyneleet silmissä.
"Ralph ja isä on tuomittu kuolemaan ja he ovat viattomat."
"Ole vaiti ja mene tiehesi", mumisi rouva Garth työntäen tytön
syrjään kyynärpäällään.
Seppä tuijotti häneen ja veti kovasti henkeä keuhkoihinsa.
"Se on valhetta, äiti; sano hänelle, että se on valhetta."

"Jumala tietää sen olevan totta", huudahti Rotha kiihkeästi.
"Sanokaa, että minä uskoin sen", sanoi Garth kohottautuen
vaikeasti kyynärpäänsä varaan ja tuijottaen kauhistuneena Rothaan.
"Sanokaa minun uskoneen, että ne houkkiot ovat tuominneet heidät
kuolemaan rikoksesta, jota he eivät milloinkaan ole tehneet — eivät
milloinkaan; sanokaa minun uskoneen sen — mutta se on valhetta
eikä mitään muuta. Tyttö, tyttö, kuinka voitte tulla valhe huulillanne
kuolevan miehen luokse? Miten julma te olettekaan! Ettekö
ollenkaan sääli kuolevaa miesraukkaa?"
Kyyneleet virtasivat Rothan poskille. Rouva Garth istuutui jälleen
jakkaralleen ja heilutteli ruumistaan sinne tänne vaikeroiden.
Seppä katsoi toisesta toiseen hien helmeillessä suurina pisaroina
hänen otsallaan.
Sitten hän huusi hirveästi. Hänen kasvonsa olivat kauheasti
vääntyneet.
"Se on siis totta!" huusi hän kaatuen takaisin vuoteelleen, jossa
hän kiemurteli kovissa tuskissa.
Seppä makasi koko yön polttavassa kuumeessa ja houraili
hirveästi.
Tuuli vinkui tuvan nurkissa ja toisen kanssavaeltajan ääni, sillan
alitse virtaavan joen, rikkoi hiljaisuuden silloin kun sairas oli
rauhallisempi ja kun ei tuulikaan ulvonut.
Nyt ei ollut tulta ainoassakaan kynttilässä, mutta takassa palavat
turpeet valaisivat kirkkaasti huoneen. Rouva Garth istui sen ääressä
nostamatta katsettaan tuskin kertaakaan.

Hänen poikansa huusi hänelle alituisesti pienen lapsen heikolla
äänellä. Silloin värisytti vanhaa naista, hän kumartui itkien tulta kohti
ja veteli haikuja pienestä mustasta piipustaan.
Seppä kiemurteli tuntikausia vuoteellaan niin hirveissä tuskissa,
ettei niitä voida kuvaillakaan. Hän näytti houriossaan muistavan
pilkkaavat sanansa ja se vain lisäsi hänen sieluntuskiaan.
Alaston ihmissielu seisoi siinä vastakkain kuoleman kanssa
taistellen sillä aikaa jonkun näkymättömän vihollisen kanssa. Siinä
eivät auttaneet enää minkäänlaiset verukkeet.
Voi tätä kauheata synkkää yötä, jolloin tuulen ulvonta ja virtaavan
joen toivoton kohina sekaantuivat kurjan, hylätyn ja toivottoman
ihmissielun alituisesti toistuviin huutoihin! Olivatko sen mustat siivet
pimittäneet ikuisiksi ajoiksi maailman?
Ei. Päivä alkoi vihdoinkin sarastaa. Heikko valojuova hiipi hiljaa
huoneeseen pienestä ikkunasta, jossa ei ollut verhoja.
Silloin nousi Garth istualleen vuoteessaan.
"Antakaa minulle paperia — paperia ja kynä pian, no pian nyt!"
huusi hän.
"Mitä haluaisitte kirjoittaa, Joe?" kysyi Rotha.
"Haluan kirjoittaa hänelle — Ralphille. Ralph Raylle", sanoi hän
aivan muuttuneella äänellä.
Rotha riensi keittiön kirstun luo avaten sen. Muutamassa
sivuosastossa oli kyniä ja paperiakin. Hän palasi laskien ne sairaan
eteen.

Mutta seppä oli jälleen menettänyt tajuntansa.
Rotha katsoi häntä kasvoihin. Sepän silmät eivät näyttäneet
näkevän mitään.
"Paperia ja kynä!" huusi hän jälleen vielä kiihkeämmästi.
Rotha pisti kynän hänen käteensä ja työnsi paperin hänen
eteensä.
"Mitä tähän on kirjoitettu?" huusi seppä viitaten valkoiseen
paperiin.
"Siihenhän on kirjoitettu jotakin punaisella."
"Mihin?"
"Tähän, joka paikkaan."
Kynä putosi hänen voimattomista sormistaan.
"Voidaanko ajatella kauheampaa kuin että he haluavat vangita
kuolevan miehen!" sanoi hän. "Tuskin voisitte ajatella, että heillä on
siihen sydäntä, noilla ihmisillä. Niin, tuskin voisitte ajatella sitä, vai
mitä?" sanoi hän kiinnittäen lasimaisen katseensa Rothan kasvoihin.
"Ehkä he eivät tiedä sitä", Rotha vastasi lohduttavasti koettaen
painaa sepän takaisin pielukselle.
"Se on totta", mumisi seppä; "ehkä he eivät tiedäkään, kuinka
sairas olen."
Samalla huomasi hän äitinsä muodottoman vartalon takan
ääressä. Tarttuen Rothan käsivarteen toisella kädellään viittasi hän
äitiinsä toisella ja sanoi melko voimakkaasti:

"Olen päässyt perille hänen juonistaan, niin, olen päässyt niistä
perille."
Sitten hän nauroi, kunnes Rothasta tuntui, että veri hyytyi
suonissa.
Kun kirkas auringonvalo virtasi pieneen huoneeseen, oli Garth
vaipunut syvään uneen.

XLVIII.
"SAMMU, SAMMU, LYHYT KYNTTILÄ!"
Kun kello löi kahdeksan, heitti Rotha huivit hartioilleen ja kiiruhti
tielle.
Kääntyessään Shoulthwaiten kujalle tapasi hän Willy Rayn. "Tulin
sinua vastaan", sanoi Willy lähestyessään.
"Älä tule lähemmäksi", sanoi Rotha viitaten torjuvasti kädellään.
"Tiedät missä olen ollut. Pysähdy siihen, olet jo tarpeeksi lähellä."
"Joutavia, Rotha!" sanoi Willy tullen hänen luokseen ja laskien
kätensä hänen käsivarrelleen. Kosketus ilmaisi luottamusta.
"Huomenna on määräpäivä", lisäsi Willy muuttuneella äänellä.
"Lähden
Carlisleen puolenpäivän tienoissa, siis neljän tunnin kuluttua."
"Etkö voisi siirtää matkaasi vielä neljäksi tunniksi?" kysyi Rotha.
"Voin, jos haluat, mutta miksi?"

"En tiedä, tarkoitan, etten voi sanoa, mutta odota neljään asti,
rukoilen sinua."
Tyttö puhui hyvin vakavasti.
"No, minä odotan", sanoi Willy hetkisen kuluttua.
"Ja lupaat kohdata minut sillalla pajan vieressä?" sanoi Rotha.
Willy nyökäytti myöntävästi päätään.
"Juuri neljän aikaan siis", sanoi hän.
"Tulin vain pyytämään tätä sinulta. Nyt pitää minun palata
takaisin."
"Rotha, sananen vielä. Mitä sinulla on tekemistä noiden Garthien
kanssa? Koskevatko toimesi jotenkin isääsi ja Ralphia?"
"Sanon sen sinulle sillalla", vastasi Rotha siirtyen sivulle.
"Kaikki ihmiset kummastelevat, että menet sinne", sanoi Willy.
"Minulla on siihen pätevämmät syyt kuin kukaan osaa arvatakaan",
vastasi Rotha.
"Ja lujempi usko ja jalompi sydän", lisäsi Willy tunteellisesti
kääntäen pois päänsä.
Garth nukkui vielä Rothan palatessa tupaan. Talviauringon vaaleat
säteet tunkeutuivat heikosti pienestä ikkunasta huoneeseen. Ne
sattuivat vuoteeseen ja valaisivat nukkuvan sairaan sinertävät
silmäluomet ja värittömät huulet.

Tuli oli melkein sammunut. Vain muudan hiiltynyt oksa ja kostea
turvepalanen savusivat vielä takan harmaassa tuhkassa.
Rothan tullessa tupaan nousi rouva Garth tuoliltaan, jolla hän oli
istunut koko yön. Hänen kasvoissaan oli kummallinen ilme. Pitkien
tuntien kuluessa oli hän mielessään hautonut vaikeasti ratkaistavaa
arvoitusta, jota hän ei kyennyt selittämään, ja hänen kasvojensa
ilmeestä voitiin nähdä, kuinka se saattoi hänet ymmälle. Vetäen
tytön sivulle hän sanoi käheästi kuiskaten:
"Sano minulle, luuletko pojan puhuvan totta?"
"Isästä ja Ralphistako?" kysyi Rotha.
"Ei vaan hänestä itsestään. Luuletko hänen kuolevan?"
Rotha taivutti päänsä.
"Sano minulle, luuletko niin?"
Rotha ei vieläkään vastannut. Rouva Garth katsoi tutkivasti häntä
kasvoihin ja kuin vastaukseksi lausumattomaan vastaukseen hän
kuiskasi kiihkeästi:
"Se ei ole totta. Hän työskentelee jo alasimensa ääressä
huomenna. Miksi olet tullut tänne kalpeine kasvoinesi? Itketkö sinä?
Miksi, sano se minulle?"
Ja vanha nainen tarttui tyttöä olkapäihin pudistaen häntä kovasti.
Rotha ei vastannut. Rouva Garthin kasvojen hämmentynyt ilme
kävi nyt yhä selvemmäksi, mutta kääntyessään syrjään hän mumisi
jälleen hyvin päättäväisesti:

"Hän työskentelee alasimensa ääressä jo huomenna, aivan
varmasti."
Seppä heräsi tyynenä kuin lapsi. Kun hän katsoi Rothaan,
pehmenivät hänen riutuneet kasvonsa jonkinlaisesta hymyn
tapaisesta. Sitten ne synkistyivät jälleen ja kerran vielä käänsi hän
kasvonsa seinään päin.
Ja nyt alkoivat tunnit Rothan mielestä kulua hirmuista vauhtia.
Jokainen hetki niistä oli niin kallisarvoinen hänelle kuin hänen oma
sydänverensä. Kuinka mitättömän vähän tunteja olikaan enää
huomiseen! Asiaa, mitä varten hän oikeastaan oli tullut tänne, ei oltu
vieläkään toimitettu. Synkkä toivottomuuden tunne lamautti hänen
mielensä.
Rotha hoiti sairasta huolellisesti ja hellästi, ja kun sairas joskus
vaipui levottomaan uneen, istui Rotha liikkumattomana ristissä käsin
katsoen ikkunasta tielle. Kaikki oli hiljaista, synkkää, kylmää ja
väsyttävää. Tuuli oli tyyntynyt melkein kokonaan eikä jokikaan
kohissut enää niin kovasti. Laakson toisella laidalla kaivoi joku nainen
perunoita pellosta. Muita inhimillisiä olentoja ei ollut näkyvissä.
Siten kuluivat tunnit. Kerran heräsi Garth näyttäen levottomalta ja
katsellen tarkkaavaisesti ympärilleen. Hänen äitinsä istui tavallisella
paikallaan nähtävästi nukuksissa. Seppä tarttui Rothan hameeseen ja
viittasi häntä tulemaan lähemmäksi. Rotha totteli heikon toivon
syttyessä hänen rinnassaan. Mutta juuri silloin rouva Garth liikahti
tuolissaan kääntäen kasvonsa heihin päin. Seppä veti takaisin
kätensä ja painoi puoleksi kohotetun päänsä alas.
Rouva Garth nousi puolenpäivän tienoissa ja poistui huoneesta.
Hänen poikansa näytti nukkuvan, mutta hän pitikin tarkasti silmällä

jokaista liikettä. Hän tarttui jälleen Rothan hameeseen ja yritti
puhua, mutta rouva Garth palasikin hetkisen kuluttua eikä mitään
ehditty sanoa.
Rothan rohkeus lannistui. Tuntui aivan siltä kuin hän tuntikausia
olisi ryöminyt jotakin toivonsädettä kohti, joka pakeni yhä
kauemmaksi.
Alkoi vähitellen hämärtää eikä vieläkään oltu saatu aikaan mitään.
Sitten kello löi neljä ja Rotha kietoi kerran vielä huivin ympärilleen
kävellen sillalle.
Willy oli siellä satuloitu hevonen rinnallaan.
"Näytät väsyneeltä ja masentuneelta, Rotha", sanoi hän.
"Voitko siirtää matkaasi vielä neljä tuntia?" kysyi Rotha.
"Kahdeksaanko asti? Silloin saan mukautua pitkään ja kylmään
öiseen ratsastukseen", vastasi Willy.
"Niin kyllä, mutta sinä voit viipyä kahdeksaan, voithan?"
"Tiedät matkani tarkoituksen. Jumala tietää, etten matkusta sinne
ollakseni läsnä viime kohtauksessa heti auringonnousun jälkeen."
"Haluat tavata häntä vielä viime kerran. Niin, mutta odota kello
kahdeksaan. En pyydä tätä turhan vuoksi, Willy. En millään muotoa
tällaisena vakavana hetkenä."
"No, minä odotan."
Hän luki selvästi tytön surullisista kasvoista tämän tarkoituksen.
He erosivat.

Kun Rotha palasi sairaan huoneeseen, oli sytytetty kynttilä ja
asetettu vuoteen viereiselle pöydälle. Rouva Garth istui vielä
kumarruksissa takan ääressä. Seppä oli hereillään. Kun hän kohotti
katseensa tytön kasvoihin, näki Rotha niissä saman tarkkaavaisen ja
levottoman ilmeen kuin ennenkin.
"Luenko teille jotakin, herra Garth?" kysyi hän ottaen samalla
suuren kirjan katonrajasta hyllyltä. Raamattuhan se oli, tomuinen
ruosteisine hakasineen eikä siihen nähtävästi oltu koskettu
vuosikausiin.
"Rotha", sanoi seppä, "lukekaa minulle synneistä, jotka olivat
veripunaiset, mutta jotka muuttuivat lumivalkoisiksi."
Tyttö haki sen kohdan. Hän luki ääneen täyteläisellä pehmeällä
äänellään, joka oli kuin tuulen huminaa korkeassa kaislikossa. Sanat
olisivat ehkä voineet lohduttaa jotakin toista miestä ja tytön ääni olisi
ehkä vaikuttanut kuin viileä käsi polttavalla otsalla, mutta eivät sanat
eikä ääni suoneet Garthille lohdutusta. Hänen mielensä tuntui olevan
niin levoton kuin myrskyn myllertämä meri.
Vihdoin ojensi hän heikon kätensä koskettaen tyttöä käsivarteen.
"Olen tehnyt erään veripunaisen synnin", sanoi hän, mutta
ennenkuin hän ehti sanoa enempää, nousi rouva Garth ja kääntyi
häneen päin luoden häneen varoittavan silmäyksen.
Oli ilmeistä, että seppä, ellei rouva Garth olisi ollut läsnä, olisi
tunnustanut kaiken sen, mitä Rotha ennen kaikkea muuta halusi
tietää.

Sitten Rotha jatkoi lukemistaan. Hän luki tuhlaajapojasta ja
hänestä, joka ei halunnut tuomita syntistä naista. Hetki oli juhlallinen
ja hirveä. Tytön kuvaamattoman syvä ääni, joka silloin tällöin, hiljeni
vienoksi valitukseksi ja sitten jälleen kohosi läpitunkevaksi huudoksi,
tunkeutui sanojen kanssa kuin nuoli kuolevan miehen sydämeen.
Hän ei kuitenkaan saanut rauhaa. Hänen sielunsa pohjalla vallitsi
jäätävä kylmyys eikä mikään tuli levittänyt sinne lämpöään. Hänen
kasvonsa näyttivät levottoman vakavilta, kun hän erään väliajan
kuluessa sanoi:
"En voi saada rauhaa mielelleni, Rotha, ennenkuin kerron teille
jotakin, mikä painaa kuin rautapaino sydäntäni."
"Vaikene, poika, ja nuku! Olet varmasti aivan terve huomenna",
sanoi rouva Garth äreästi murahtaen.
"Äiti, äiti", huusi Garth surkean pyytävästi ja moittivasti, "milloin
huomaatkaan, kuinka sairas olen?"
"Hiljaa, poika; parantumisesi edistyy nopeasti. Saat olla aivan
varma siitä, että huomenna jälleen seisot jo alasimesi ääressä."
"Niinkö, äiti", vastasi seppä kohottautuen vaivalloisesti ja katsoa
tuijottaen äitiinsä uhmaavasti; "niin, äiti, mutta vain iankaikkisen
tulen ääressä, jos saan kuolla tämä hirveä synti omallatunnollani."
Huolimatta itsepetoksestaan oli naisen sielukin kauan taistellut
omaa salaista tuskaansa vastaan, ja kun hän nyt kuuli pojan sanat,
tasoittuivat hänen kasvojensa tuimat rypyt ja hän käänsi pois päänsä
vielä kerran.

Rotha tunsi hetken vihdoinkin koittaneen. Hänen täytyi puhua nyt
tahi ei milloinkaan. Ainoa toivo kahdelle viattomalle miehelle, joiden
oli kuoltava uuden päivän koittaessa, sisältyi tähän hetkeen.
"Herra Garth", aloitti hän epäröiden, "jos jokin synti painaa
raskaasti omaatuntoanne, on parasta, että tunnustatte sen Jumalalle
ja heittäydytte taivaallisen isänne armoille."
Ja kooten voimiaan hän jatkoi: "Ja jos se on jokin synkkä
salaisuus, joka koskee muitakin kuin teitä — jos muut saavat kärsiä
tahi jo kärsivät senvuoksi — jos asian laita on niin, pyydän teitä niin
totta kuin luotatte jumalalliseen armoon tunnustamaan sen nyt,
ennenkuin se on liian myöhäistä — vapauttakaa raskautettu
sydämenne siitä — älkää antako sen hautautua sinne, että se tulisi
julki vasta viimeisellä tuomiolla, jolloin jokainen inhimillinen teko,
olipa se sitten kuinka salainen tahansa, paljastetaan Herralle, että
palkka siitä maksettaisiin iankaikkisesta iankaikkiseen."
Rotha oli noussut seisoalleen. Nojautuen vuoteen yli painoi hän
toisella kädellään kuvaamattoman tuskallisesti rintaansa ja tarttui
toisella suonenvedontapaisesti sepän käteen.
"Ah, rukoilen teitä", jatkoi hän, "tunnustamaan sen, mikä painaa
sydäntänne, itsenne ja muiden vuoksi. Älkää tuhlatko kalliita hetkiä.
Tunnustakaa totuus vihdoinkin, lopultakin! Antakaa sitten Jumalan
tehdä itsellenne mitä hän haluaa. Älkää viekö tätä syntiä kanssanne
viimeiselle tuomiolle. Siunattu, tuhat kertaa siunattu, on katuvan
sydämen tunnustus. Jumala kuulee sen kyllä."
Garth katsoi tytön innoittuneihin kasvoihin.

"En voi nähdä tietäni selvästi", sanoi hän. "Olen kuin ihminen, joka
hapuilee eteenpäin Legberthwaiten tunnelin keskikohdalla. Valo
takanani himmenee yhä enemmän enkä vieläkään näe valon
pilkahdustakaan edestäni. En ole vielä ehtinyt synkimpään
pimeyteen, en ollenkaan."
"Vieras koputtaa sydämenne oveen, herra Garth. Ettekö halua
avata sitä hänelle?" Sitten muuttaen ääntään Rotha lisäsi:
"Huomenna päivän koittaessa kuolee kaksi miestä Carlislessa — isäni
ja Ralph Ray — ja he ovat viattomat."
"Niin, se on totta", sanoi seppä vihdoinkin muserrettuna.
Jo koettaen vielä kerran kohottautua kyynärpäänsä varaan huusi
hän:
"Äiti, kerro hänelle, että minä sen tein eikä Ralph. Kerro heille
kaikille, että minä yksin olen syyllinen. Ilmoita heille, että minun oli
pakko tehdä se niin totta kuin Jumala on tuomarini."
Vanha nainen ponnahti seisoalleen ja kumartuen lähemmäksi
poikaansa hän kuiskasi:
"Sinä hullu! Mitä sinä nyt sanoitkaan?"
"Äiti, rakas äiti, äiti", huusi seppä, "ajattele mitä teet, ajattele
minut seisomassa, kuten minun pian pitää seisoa — hyvin pian —
Jumalan kasvojen edessä tämä kauhea rikos omallatunnollani! Anna
minun vapautua siitä ikuisiksi ajoiksi. Älä koetakaan houkutella
minua salaamaan sitä. Rotha, rukoilkaa häntä, rukoilkaa häntä, ettei
hän antaisi minun mennä Jumalan kasvojen eteen näin suurissa
omantunnontuskissa, tällainen veripunainen synti tunnollani!"

Garth hengitti läähättäen. Hetki oli hirveä. Rotha laskeutui
polvilleen. Hän ei ollut tottunut rukoilemaan, mutta nyt virtasivat
sanat hänen huuliltaan:
"Rakas Isä taivaassa", rukoili hän, "pehmitä kaikkien meidän
sydämemme tänä juhlallisena hetkenä. Anna meidän ajatella
kuolemattomia sielujamme. Älä salli meidän luopua iankaikkisesta
autuudestamme tämän lyhyen elämän haihtuvien ilojen vuoksi. Isä,
sinä tutkit kaikkien sydämet. Mikään salaisuus ei ole niin salainen,
mikään teko ei ole niin hyvin piilotettu ihmisten silmältä, ettet sinä
sitä näkisi ja voisi koskettaa siihen tulisormellasi. Auta meitäkin
tunnustamaan syntimme sinulle. Jos olemme rikkoneet suuresti,
anna meille laupeudessasi anteeksi ja suo meille rauha
kuvaamattomassa hyvyydessäsi. Lähetä jokin pyhä enkelisi
luoksemme nyt lohduttamaan meitä."
Ja Jumalan enkeli liiteli todellakin heidän luokseen tällä hetkellä
pieneen tupaan autioiden kukkuloiden väliin.
Rotha nousi kääntyen Garthiin päin.
"Kuoleman varjon lähestyessä", sanoi hän, "vannotan teitä
ilmaisemaan minulle, kuinka ja milloin teitte sen rikoksen, josta isä ja
Ralph on tuomittu kuolemaan huomenna?"
Rouva Garth oli palannut kerran vielä jakkaralleen. Sepän voimat
alkoivat heiketä. Hänen mielenliikutuksensa oli melkein uuvuttanut
hänet. Hänen silmänsä olivat nyt täynnä kyyneliä ja kun hän puhui
heikosti kuiskaten, kuultiin tukahdutettu nyyhkytys.
"Hän oli isäni", sanoi hän. "Jumala antakoon minulle anteeksi —
Wilson oli isäni — ja hän jätti meidät kuolemaan nälkään, äitini ja

minut — ja kun hän palasi tänne luoksemme, luulimme Ralph Rayn
tuoneen hänet tänne, että hän saisi ryöstää meiltä senkin vähän,
minkä omistimme."
"Jumala antakoon minullekin anteeksi", sanoi rouva Garth, "mutta
siinä erehdyimme."
"Erehdyimmekö?" kysyi seppä.
"Niin, se selveni kuulustelussa", mumisi hänen äitinsä.
Garth näytti joutuvan uuden kiivaan mielenliikutuksen valtaan.
Rotha kohotti kulhollisen kauralientä hänen huulilleen.
"Niin, niin, mutta kuinka se tapahtui — kuinka?"
"Hän ei kuollut tielle, jonne Ralph — Angus — kumpi sitten lienee
ollutkaan, hänet kaasi, vaan nousi hetkisen kuluttua ja laahusti
tupaamme — hän sanoi Rayn pukanneen hänet kumoon, jolloin hän
sanoi loukkautuneensa — siinä kaikki, mitä hän sanoi. Hän tahtoi
tulla luoksemme lepäämään, mutta minä paiskasin oven kiinni hänen
nenänsä edessä ja silloin hän kaatui. Sitten hän nousi huutaen
jotakin — se oli jotakin minua koskevaa — hän sanoi minua äpäräksi,
niin hän juuri sanoi. Silloin tuntui aivan siltä kuin jokin käsi takanani
olisi tyrkännyt minua eteenpäin. Avasin oven ja löin häntä. En
tiennyt, että minulla oli vasara kädessäni, mutta minulla oli. Hän
kuoli heti."
"Entä sitten?"
"Ei mitään? — niin — myöhemmin samana yönä kannoin hänet
samaan paikkaan, missä luulin häntä ensin lyödyn — siinä kaikki."

Garthin vähäiset voimat olivat nyt melkein lopussa.
"Tahtoisitteko kirjoittaa nimenne paperiin, jossa tämä kaikki on
kerrottu?" kysyi Rotha kumartuen hänen ylitseen.
"Kyllä, jos siitä vain on jotakin hyötyä."
"Se voi pelastaa isän ja Ralphin hengen. Mutta äitinne pitää
todistaa se oikeaksi."
"Hän tekee sen kyllä minun vuokseni", sanoi Garth heikosti.
"Mitään muuta en enää häneltä pyydäkään. Hänen pitää itsensä
matkustaa sinne todistamaan."
"Kyllä, kyllä", nyyhkytti murtunut nainen huojutellen ruumistaan.
Rotha otti kynän ja paperia ja kirjoitti käsialalla, josta voitiin
nähdä, kuinka järkytetty hän oli:
"Täten tunnustan minä, Joseph Garth, ollen lähellä kuolemaani,
mutta kuitenkin tietäen täydellisesti tekoni luonteen, murhanneeni
miehen, jota nimitettiin James Wilsoniksi ja jonka kuolemasta
Simeon Stagg ja Ralph Ray on nyt tuomittu kuolemaan."
"Jaksatteko nyt kirjoittaa tämän alle, Joe?" kysyi Rotha yhtä
lempeästi kuin kiihkeästi.
Garth nyökäytti päätään myöntävästi. Hänet nostettiin istuvaan
asentoon. Rotha levitti paperin hänen eteensä ja sitten kannatti hän
selän takaa käsillään.
Seppä otti kynän voimattomaan käteensä koettaen kirjoittaa. Voi,
millaisia tuskia tämä ponnistus aiheuttikaan! Voi kuinka jokainen

pieni kynänveto tuntui tytön sydämessä kuin omantunnonpisto! Nimi
saatiin vihdoinkin kirjoitetuksi, vaikkakin surkealla tavalla. Kuoleva
mies laskettiin jälleen pieluksille.
Samassa sai hänen mielensä rauhan.
Kello löi kahdeksan.
Rotha kiiruhti tuvasta tielle ja sitten sillalle. Kuu oli juuri noussut
synkän pilviröykkiön takaa. Oli pistävän kylmä.
Willy odotti hevosineen sovitulla paikalla.
"Kuinka järkytetty oletkaan, Rotha; sinähän vapiset kuin
haavanlehti", sanoi hän. "Ja mihin olet jättänyt huivisi?"
"Katsohan tätä paperia", sanoi Rotha. "Näet tuskin lukea sitä
täällä, mutta se on tunnustus. Se sisältää, että Joe Garth-raukka
tekikin sen murhan, josta isä ja Ralph on tuomittu kuolemaan päivän
koitteessa."
"Vihdoinkin! Jumalalle kiitos!" huudahti Willy.
"Ota se — pistä se poveesi — talleta se hyvin, jos kuolematon
sielusi on sinulle rakas — ratsasta Carlisleen niin nopeasti kuin
hevosesi voi sinut kuljettaa ja näytä se heti sheriffille."
"Onko se allekirjoitettu?"
"On."
"Ja todistettu myös?"

"Todistaja tulee sinne itse — muutamien tuntien kuluttua — vain
muutamien tuntien — ja hän hakee sinut käsiinsä sieltä."
"Rotha, Jumala itse pani sinut tekemään tämän, ja hän on suonut
sinulle enemmän voimia kuin väkevimmälle miehelle."
"Kuinka lyhyessä ajassa voidaan nopeimmin matkustaa Carlisleen
yöllä ja kärryillä?" kysyi tyttö kiihkeästi.
"Ehkä viidessä tunnissa, jos tien jokainen kohta on tuttu."
"Ennenkuin lähdet, ratsasta senvuoksi Armbothiin ja pyydä herra
Jacksonia tulemaan rattaineen tähän sillalle puolenyön tienoissa. Älä
anna hänen kieltäytyä, jos hän vain ajattelee sielunsa autuutta. Ja
nyt hyvästi jälleen ja Jumala suokoon sinulle nopean matkan!"
Willyllä oli takki käsivarrellaan. Hän aikoi heittää sen Rothan
paljaille olkapäille.
"Ei, ei", sanoi Rotha, "olet itse sen tarpeessa. Minun pitää palata
heti takaisin."
Ja hän oli poissa melkein ennenkuin Willy huomasikaan.
Willy aikoi juuri lähteä jatkamaan matkaansa, kun hän kuuli
askelia takaansa. Pappi Nicholas Stevenshän sieltä tuli lyhty
kädessään, valaisten sillä tietään kävellessään kotiinsa
Smeathwaitestä jostakin syntymäpäiväjuhlasta. Hänen lähestyessään
Willy meni häntä vastaan.
"Pysähtykää", huusi pappi, "eikö nainen, josta juuri erositte, ollut
tuon Simeon Staggin tytär?"

"Juuri sama", vastasi Willy.
"Ja hän tuli ruton saastuttaman sepän talosta?"
"Hän on siellä nytkin", sanoi Willy. "Luulin teidän haluavan jakaa
uskonnon lohdutusta kuolevalle miehelle — Garth on
kuolemaisillaan."
"Syrjään — menkää pois — älkää koskeko minuun — päästäkää
minut ohitsenne", kuiskasi pappi kauhuissaan ja vetäytyi etemmäksi
takista, jota Willy kantoi käsivarrellaan.
Rotha pääsi tupaan jälleen melkein ennenkuin kukaan oli häntä
kaivannutkaan.
Joe nukahti silloin tällöin. Hänen äitinsä huokaili ja vaikeroi
vuorotellen. Hänen ryppyiset kasvonsa, joiden kova ilme oli nyt
pehmennyt, tarjosivat toivottoman näyn. Kun Rotha tuli hänen
viereensä, kuiskasi hän:
"Poika oli väärässä, mutta en uskaltanut sanoa hänelle sitä. Tuo
mies ei ollut Joen isä, vaikka hän olikin mieheni, ikävä kyllä."
Sitten nousten ja katsoen hermostuneesti poikaansa otti hän
pöydältä veitsen, hiipi vuoteen viereen, viilsi pienen reiän
patjanpäällykseen ja kaivoi sieltä esille likaisen ja ryppyisen paperin.
"Kuulehan, tyttö, otin tämän mieheni arkusta silloin kun hän asui
teidän luonanne Fornsidessä."
Se oli ote Joen syntymätodistuksesta ja siitä nähtiin, että hän oli
jonkun tuntemattoman miehen poika.

"Tiesin sen olevan hänen hallussaan. Hänen tapanaan oli aina
uhata, että hän hankkii sen. Hän aikoi käyttää sitä johonkin ilkeään
tarkoitukseen tavalla tahi toisella."
Rouva Garth puhui kuiskaamalla, mutta hänen äänensä häiritsi
kuitenkin pojan levotonta unta. Garthin voimat vähenivät nopeasti,
mutta hän oli levollisemman näköinen, kun hän jälleen avasi
silmänsä.
"Luulen Jumalan antaneen minulle anteeksi suuren rikokseni",
sanoi hän tyynesti, "laupiaan vapahtajamme tähden, joka ei tahtonut
tuomita syntistä vaimoakaan."
Sitten alkoi hän hiljaa hyräillä kveekarien virttä:
    "Veripunaiset vaikk' syntis oisi,
    hän valkoisiks' kuin lumi muuttaa ne."
Oli sanomattoman liikuttavaa kuunnella hänen heikon katkonaisen
äänensä ponnistavan näin viimeisiä voimiaan.
"Veisatkaa minulle, Rotha", sanoi hän keskeyttäen huoahtaakseen.
"Kyllä, Joe. Mitä minä veisaan?"
"Veisatkaa 'Oo Herra Jumalani'", vastasi seppä.
Ja kovemmin kuin virran kohina ja kiihtyvän tuulen hiljainen
humina kuultiin tytön suloisen juhlallisen äänen laulavan hellästi ja
kyynelten tukahduttamana seuraavan vanhan virren:
"Oo Herra Jumalani, särkynyt sydän vain on nyt osanain;
kuria mulle suo, että siitä nähdä saan rakkautesi armiaan."

"Niin, niin", toisti Garth, "särkynyt sydän vain on nyt osanain."
Veisaajan ääni värähteli kovasti, kun hän jatkoi:
"Oo Herra Jumalani, vahvista mua viel', ennenkuin lepään
siell' syvällä haudassain; armahda, oo Luoja suuri,
sieluparkaani nyt juuri."
"Niin, sieluparkaani", mumisi seppä.
Rotha oli keskeyttänyt ja kätkenyt kasvonsa käsiinsä.
"Siinä on vielä yksi värssy, Rotha; siinä on vielä yksi värssy."
Mutta Rotha ei voinut laulaa enempää. Silloin veisasi kuoleva mies
itse heikolla äänellään huohottaen:
"Oo Herra Jumalani, väsynyt ma on, loukkaunut kivikkoon;
säästä kuriltasi, kannan syntini ma sulle, rauha suo sa
kiusatulle."
Hänen silmänsä näyttivät hyvin kirkkailta. Ja varmasti oli hän
saavuttanut voiton vihdoinkin. Hän oli vapautunut syntitaakastaan
ainiaaksi.
"Rauha suo sa kiusatulle", mumisi hän jälleen, ja kieli, joka lausui
tämän rukouksen, vaikeni ikuisiksi ajoiksi.
Rotha tarttui hänen käteensä. Hänen valtimonsa löi yhä
kiivaammin. Hänen kuolemansa oli kuin lampun sammuminen —
liekki pieneni pienenemistään, leimahti vielä kerran ja sitten —
Kuolema, tuo laupias sovittaja — kuolema, ainoa oikea tuomari —
kuolema, vääryyttä kärsineiden kostaja, — kuolema oli saapunut.

Rouva Garthin suru oli hillitön. Tämä jäykkä nainen oli niin heikko
kuin pieni lapsi. Mutta alussa ei hän tahtonut uskoa aistiensa
todistusta. Kumartuen vuoteen yli hän nosti puolittain ruumiin
syliinsä.
"Ah, hän on kuollut, poikani on kuollut!" huusi hän. "Sano minulle,
ettei hän ole kuollut, vaikka hän lepääkin niin hiljaa."
Rotha veti hänet sivulle, ja kumartuen alemmaksi hän suuteli
kuolleen kylmiä, riutuneita ja kalpeita huulia.
Puoliyön tienoissa saapuivat katetut vaunut pajan vieressä
sijaitsevan tuvan edustalle. John Jackson istui ajajan istuimella.
Rotha ja rouva Garth nousivat vaunuihin. Sitten ne vierivät pois.
Kun he olivat kulkeneet sillan yli ja vaunujen piti kääntyä tien
mutkassa, joka piilottaisi tumman tuvan heidän näkyvistään,
käänsivät molemmat naiset päänsä sinnepäin ja ajattelivat ikävöiden
häntä, jonka he olivat jättäneet sinne. Sitten he purskahtivat
molemmat itkuun.

XLIX.
RAUHAA, RAUHAA JA LEPOA.
Carlislessa lähestyi loppu lähestymistään. Koko sen päivän, jolloin
Wythburnin seppä taisteli viime taisteluaan, istuivat ne molemmat
miehet, joiden seuraavana aamuna piti kuolla hänen rikoksensa
vuoksi, yhdessä kopissaan vankitornissa.
Ralph oli yhtä tyyni kuin ennenkin ja vielä ystävällisempi.
Sovituksen hetki oli käsillä. Lunnaat maksettaisiin pian.
Lieventääkseen yhden, ei vaan monen ihmisen kovaa kohtaloa oli
hän tullut tänne kuolemaan ja nyt oli kuolema oven takana.
Masentuneena ja heikkona, liidunvalkoisena ja tuijottavin katsein
jatkoi Sim väitteitään, ettei Jumala salli heidän kuolla nyt eikä tässä
paikassa.
"Jos hän sallii sen tapahtua, niin silloin on valhetta, mitä meille on
opetettu, että Jumala suojelee kaikkia luotuja olentoja."
"Mitä sanottekaan, vanha ystäväni?" vastasi Ralph. "Kuolemahan
saavuttaa vihdoin jokaisen. Viikatemies koputtaa kaikkien oveen. Jos

se vain saavuttaisi toisen siellä ja toisen täällä, niin silloin se
todellakin olisi hirveätä."
"Mutta kuoleminen ennen määräaikaansa tuntuu kamalalta", väitti
Sim.
"Ennen määräaikaansako — mitä määräaikaa?" kysyi Ralph.
"Tänään tahi huomenna — kuka voi sanoa, mikä on teidän aikanne,
mikä minun?"
"Niin, mutta kuolla nyt tällä tavoin", sanoi Sim huojuttaen
ruumistaan istuessaan.
"Mutta eikö ole totta, että pikainen kuolema on suurin mahdollinen
onni?"
"Entä häpeä — siitä johtuva häpeä?" mumisi Sim.
"Se ei liikuta meitä ollenkaan", sanoi Ralph. "Vain rikollinen voi
tuntea häpeällisen kuoleman aiheuttaman häpeän. Ei, ei, kuolema
on parhain ystävämme. Ja kuitenkin, vanha ystäväni, kadun jo
puolittain päätöstäni. Piilotin tuon kohtalokkaan
vangitsemismääräyksen, joka on ollut pätevin todistus meitä
vastaan, vain siinä toivossa, että se jonakin päivänä voisi auttaa
teitä. Teidän vuoksenne ja ainoastaan siksi toivon Jumalan nimessä,
että voisin ilmaista, kuinka ja mistä sain sen käsiini."
"Ei, ei, ei!" huusi Sim jälleen hyvin päättäväisesti. "Olen oikea
syyllinen kaikissa tapauksissa eikä ole muuta kuin oikein, että minun
pitää kuolla. Mutta että sinunkin pitää kuolla, sinun, joka olet yhtä
viaton kuin vastasyntynyt lapsi — Jumala ei salli milloinkaan sellaisen

vääryyden tapahtua, sanon sen sinulle. Jumala ei tule sallimaan sitä
ikinä, ei mitenkään!"
Samalla kantautui heidän korviinsa kirkosta urkujen säveleet. Siellä
toimitettiin juuri iltajumalanpalvelusta. He voivat kuulla kuoron
laulunkin heikosti, hiljaa ja epäselvästi paksujen muurien läpi
ruohoisen pihan takaa. Juhlalliset säveleet liitelivät heidän luokseen
koppiin kuin virsien säveleet kirkon pitkää sivulaitaa pitkin niiden
korviin, jotka seisovat paljaan taivaan alla sen porttien edustalla,
syvinä, rikkaina, puhtaina, täyteläisinä ja juhlallisina. Oli kuin he
olisivat saaneet viestin ikuisesta rauhasta.
Molemmat miehet sulkivat silmänsä ja kuuntelivat.
Siinä maailmassa, jolle he olivat kääntäneet selkänsä, taistelivat ja
sotivat ihmiset, ihmiset, joiden mieltä intohimot raatelevat. Mutta
siinä maailmassa, jonne heidän katseensa oli suunnattu, ei kuulunut
minkäänlaisia kiiruhtavia hätäisiä askelia, siellä ei kenenkään mieltä
kuluttanut intohimojen tuli eikä siellä kukaan surrut pettyneinä
toiveitaan. Siellä vallitsi ikuinen rauha.
Vanginvartija koputti oveen. Joku vieras oli tullut tapaamaan
Ralphia Hän oli hankkinut alisheriffin luvan saada puhutella Ralphia
puoli tuntia kahden kesken.
Sim nousi aikoen seurata vanginvartijaa. "Ei", sanoi Ralph viitaten
häntä palaamaan takaisin; "aika on jo niin vähissä, ettei meillä pidä
olla enää mitään salaisuuksia välillämme. Hänen täytyy jäädä tänne",
lisäsi hän kääntyen vartijan puoleen.
Robbie Anderson tuli huoneeseen hetkistä myöhemmin. Hän oli
syvästi liikutettu.

"Olin sairas ja tajutonna kuulustelun kestäessä", sanoi hän.
Sitten hän kertoi tuloksettoman hakemisensa kaikki vaiheet.
"Todistukseni olisi ehkä voinut pelastaa teidät", sanoi hän.
"Onkohan se jo liian myöhäistä?"
"On", vastasi Ralph.
"Luullakseni voisin ilmaista, mistä sait vangitsemismääräyksen."
"Robbie, muista valaasi, ettet milloinkaan puhu siitä asiasta enää."
Kuullessaan puhuttavan vangitsemismääräyksestä oli Sim hiipinyt
innokkaana heidän luokseen. Ralph huomasi hänen vieläkin toivovan
pelastusta. Tulisiko tämä kurja heikkous masentamaan hänen
mieltään viimeiseen asti?
"Robbie, jos milloinkaan olet ollut toverini ja nuoruudenystäväni,
kätke tämä asia ikuisiksi ajoiksi mieleesi."
Voimatta vastata taivutti nuori laaksolainen päätään.
"Mitä Simiin tulee, olen äärettömästi suruissani. Mutta minä itse,
mitä varten nyt enää eläisin? En mitään. Koetin pelastaa talon
äidilleni ja veljelleni. Kuinka äitini jaksaa?"
"Hieman parempi, olen kuullut."
"Äitiraukka! Entä Rotha, onko hän —"
"Rotha voi hyvin."

"Jumalalle kiitos! Ehkä sitten kun näistä surullisista tapauksista on
kulunut pitkälti aikaa ja ne ovat muuttuneet hämäräksi muistoksi —
niin ehkä hän sitten löytää onnensa veljeni rakkaudesta."
"Willynkö?" kysyi Robbie hämmästyneen näköisenä.
Kaikki vaikenivat hetkiseksi.
"Hän on ollut kuin enkeli", sanoi Robbie lämpimästi.
"Enemmän — hän on ollut nainen; Jumala siunatkoon ja
suojelkoon häntä!" sanoi Ralph.
Robbie katsoi Ralphia kasvoihin kyyneleet silmissään.
Sim istui paikoillaan vaikeroiden.
"Pieni Rotie-kultaseni!" mumisi hän. "Pieni orpo Rotie-raukkani!"
Hän ajatteli tyttärensä lapsuudenpäiviä. Rotha oli pieni lapsi hänen
muistissaan.
"Robbie", sanoi Ralph, "tulomme jälkeen tänne on minulle
tapahtunut jotakin kummallista. Luulen sitä todellisuudeksi enkä
kiihoittuneen mielikuvitukseni aiheuttamaksi harhakuvitelmaksi."
"Mitä sitten, Ralph?" kysyi Robbie.
"Ensi yönä ollessamme suljettuina tähän paikkaan tuntui minusta
maatessani pimeässä aivan valveillani, että joku aukaisi oven.
Käänsin päätäni luullen tulijaa vartijaksi. Mutta katsoessani ovelle
näinkin Rothan. Suloinen hymy kirkasti hänen rakkaita kasvojaan. Ne
ilmaisivat sekä toivoa että iloa. Viime yönä heräsin jälleen Simin
itkuun, tuohon kummalliseen, sydäntäsärkevään, kyynelettömään

itkuun, mikä jähmetyttää kuuntelijan veren. Silloin makasin
valveillani tunnin. Jälleen tuntui minusta kuin joku olisi avannut
oven. Katsahdin sinnepäin odottaen Rothaa. Ja hän siellä olikin.
Luulen hänen hengessä lähtevän luoksemme tuomaan meille rauhan
ja toivon sanomaa — toivon sanomaa siitä paremmasta maailmasta,
jonka pian saavutamme."
Vartija koputti. Robbien puolituntinen oli kulunut.
"Kuinka lyhyiltä nämä viime hetket tuntuvatkaan!" sanoi Ralph. "Ja
kuitenkin iankaikkisuus viime hetkiä tuntuisi lyhyeltä. Hyvästi,
ystäväni. Jumala siunatkoon sinua!"
Laaksolaiset puristivat toistensa kättä katsoen syrjään.
Robbie poistui itkien.
Samalla alkoi jälleen kuulua näkymättömän kuoron laulua
kappelista. Urut päästelivät pilleistään kimeitä huilunääniä, jotka
kohosivat korkealle kuin leivo korkeammalle ja korkeammalle
raikkaassa aamuilmassa. Laulussa puhuttiin enkelistä, joka palaa
taivaaseen. Sitten seurasivat jonkun juhlallisemman virren
loppusoinnut.
Rauhaa, rauhaa! Ja lepoa! Ja rauhaa!

L.
SEURAAVANA AAMUNA.
Seuraavana aamuna auringon noustessa oli kirvesmiesten vasarain
kalke lakannut kuulumasta torilta ja heidän lyhtynsä, jotka valaisivat
huonosti koukuissaan kuin tulet sumuisen meren takaa,
sammutettiin toinen toisensa jälkeen. Mustaan verhottuna kohosi se
hirveä teline, jonka he olivat rakentaneet yöllä, vahtirakennuksen
kulmatornien välissä.
Kaupungin asukkaat olivat jo heränneet ja ihmisiä juoksi
hätiköiden sinne tänne. Paljon heitä meni taloihin, joiden julkipuolet
olivat torille päin. He tahtoivat välttämättä hankkia itselleen edulliset
paikat, joista he voivat katsella tämänaamuista näytelmää.
Päivä valkeni hitaasti. Oli pakkasaamu. Seitsemän aikaan oli
ilmassa ohutta utua, joka leijaili sinne tänne kuin huntu. Se varjosti
talojen julkipuolia, pehmensi niiden jyrkkiä piirteitä ja näytti joskus
siirtävän ne kauemmaksi. Aurinko nousi lempeänä ja kalpeana
muutaman pilviröykkiön takaa kuin syksyinen kuu.

Welcome to our website – the perfect destination for book lovers and
knowledge seekers. We believe that every book holds a new world,
offering opportunities for learning, discovery, and personal growth.
That’s why we are dedicated to bringing you a diverse collection of
books, ranging from classic literature and specialized publications to
self-development guides and children's books.
More than just a book-buying platform, we strive to be a bridge
connecting you with timeless cultural and intellectual values. With an
elegant, user-friendly interface and a smart search system, you can
quickly find the books that best suit your interests. Additionally,
our special promotions and home delivery services help you save time
and fully enjoy the joy of reading.
Join us on a journey of knowledge exploration, passion nurturing, and
personal growth every day!
ebookbell.com