Câu 2.
Sử dụng bảng Kết quả 1 để trả lời các câu hỏi sau đây.
a. Viết hàm hồi quy tuyến tính mẫu. Phát biểu ý nghĩa kết quả ước lượng của hệ số hồi quy riêng
của biến độc lập X2.
b. Nêu ý nghĩa của hệ số xác định. Với mức ý nghĩa 5%, kiểm định sự phù hợp của mô hình.
c. Trong mô hình đang xét, phải chăng cả biến độc lập X4 và X5 đều thực sự giải thích cho sự
biến động của biến phụ thuộc Y. Trả lời với mức ý nghĩa 5%.
d. Trong trường hợp X5 tăng 3 đơn vị còn các biến độc lập X2, X3, X4 không thay đổi, với độ
tin cậy 90%, hãy tìm khoảng tin cậy tối đa của mức tăng bình quân của Y.
Kết quả 1.
Dependent Variable: Y
Method: Least Squares
Sample: 1 24
Variable Coefficient Std. Error t-Statistic Prob.
C -1319.601 452.5664 -2.915817
X2 Beta 2 452.5664 2.943179
X3 Beta 3 0.007380 6.042098
X4 Beta 4 0.007380 3.925105
X5 258.2447 0.007380
R-squared Mean dependent var 3398.509
Adjusted R-squared S.D. dependent var 1335.724
S.E. of regression 475.2968 Akaike info criterion 15.34881
Sum squared resid Schwarz criterion 15.59424
Log likelihood -179.1857 Hannan-Quinn criter. 15.41392
F-statistic Durbin-Watson stat 1.188927
Tính các hệ số beta I : Coefficient = Std. Error * t-Statistic
Tính các đại lượng đo mức giải thích của mô hình
+ Số quan sát n = 24,
+ Số biến độc lập ( tính thêm hằng C) : k=5,
+ bậc tự do df= n − k = 24 − 5 = 19.
+ S.E. of regressi on = 475.2968 (đã cho).
..
SSR
SE
nk
S.E. of regression: là sai số chuẩn của mô hình hồi quy → phản ánh độ chính xác dự báo:
Ước lượng độ lệch chuẩn của sai số ngẫu nhiên trong mô hình hồi quy. Nó cho biết trung bình
dự đoán của mô hình lệch so với giá trị quan sát thật sự bao nhiêu đơn vị: Nếu S.E. nhỏ → các
dự đoán
Y
,gần với Y thật → mô hình dự báo tốt hơn. S.E.=475.2968S nghĩa là dự báo của mô
hình lệch trung bình khoảng 475.3 đơn vị so với thực tế.)
2
(Y):
i i
SRR Y
là tổng bình phương phần dư (Sum of Squared Residuals)
+ Tính
Sum of Squared Residuals
(SSR) từ S.E. và df:
2 2
.. 475,2968.194292233,914SSRSEdf
+Mean dependent var :
1
1
n
i
i
Y Y
n
(
Giá trị trung bình của biến phụ thuộc Y
)
+S.D. dependent var
: độ lệch chuẩn (Standard Deviation) của biến phụ thuộc Y:
2
(Y)
.D.
1
i i
Y
S VarY
n
(
chỉ là thống kê mô tả của Y, không phụ thuộc mô hình.
)
+
tổng bình phương tổng thể
SST = (n−1) × Var(Y) = (24−1) × (1,335.724
2
) = 41,035,647.896
+ R-squared =
2
1
SSR
R
SST
≈ 0.8954023 (≈ 0.8954).
R
2
≈ 0.8954 nghĩa là khoảng 89.54% biến động của Y trong mẫu được giải thích bởi các
biến X2, X3, X4, X5 theo mô hình này.
+ Adjusted R-squared ≈ 0.8733817 (≈ 0.8734).
2 2
1
1(1R)
n
R
nk
Hệ số xác định hiệu chỉnh: thường được ký hiệu là
2
R
. Nó hiệu chỉnh R
2
để xét
đến số lượng biến độc lập và số lượng quan sát, tránh tình trạng R
2
luôn tăng khi thêm
biến mới vào mô hình, kể cả khi biến đó không thực sự có ý nghĩa.
+giúp ta so sánh mô hình với số biến khác nhau, mô hình nào có
2
R
cao hơn sẽ tốt
hơn.
Cụ thể:
2
241
1(10,8954) 0,8734
245
R
0.8734: nghĩa là sau khi điều chỉnh số biến, mô hình vẫn giải thích được 87.34%
biến thiên của Y.
Chỉ số
Viết
tắt
Mục đích chính
Cách so sánh
mô hình
Ghi chú
Akaike Information
Criterion
AIC
Cân bằng độ
phù hợp và độ
phức tạp
AIC nhỏ hơn →
mô hình tốt hơn
Phạt nhẹ cho số lượng
biến, hay dùng khi kích
thước mẫu nhỏ.
Schwarz Criterion /
Bayesian Information
Criterion
SC/BIC
Chọn mô hình
tối ưu với mẫu
lớn
BIC nhỏ hơn →
mô hình tốt hơn
Phạt nặng hơn AIC, tránh
mô hình quá phức tạp.
Hannan-Quinn Criterion HQC
Trung gian giữa
AIC và BIC
HQC nhỏ hơn
→ mô hình tốt
hơn
Thường ít dùng hơn,
nhưng cũng để chọn mô
hình.
Durbin-Watson
Statistic
DW
Kiểm định tự
tương quan
phần dư
DW ≈ 2 →
không tự
tương quan
DW < 2 → tự tương
quan dương,
DW > 2 → tự tương
quan âm.
Mô hình có tự tương quan không?
Vì d= 1.188927 < 2 ⇒ Có tự tương quan dương. Nghĩa là các giá trị của dữ liệu
hay lặp lại giống nhau từ lần này sang lần khác.(ví dụ: nghĩa là giá cổ phiếu hôm nay có
xu hướng giống hôm qua: tăng thì tăng tiếp, giảm thì giảm tiếp.)
a. Hàm hồi quy mẫu (thay các hệ số đã tính)
Y=−1319.601+1331.9839X2+0.04459068X3+0.02896727X4+258.2447X5.
Diễn giải hệ số của X2:Hệ số beta2=1331.9839 cho biết: giữ các biến khác (X3, X4, X5) không
đổi, khi X2 tăng thêm 1 đơn vị thì giá trị trung bình của Y tăng khoảng 1331.984 đơn vị. Đây là
ý nghĩa kinh tế/giá trị trung bình của hệ số hồi quy riêng.
b. Kiểm định sự phù hợp của mô hình (mức ý nghĩa 5%)
Tính F thống kê:
2
2
(nk)R (245)0,8954
40,66
(51)(10,8954)(k1)(1R)
F
Bậc tự do: (k-1, n−k) = (4, 19). Giá trị tới hạn F{0.05}{4,19} ≈ 2.87 (bảng Fisher).
Vì F ≈ 40.66 ≫ 2.87, nên p-value rất nhỏ (p ≪ 0.05).
Kết luận: bác bỏ H
0
: tất cả các hệ số bằng 0. Mô hình phù hợp ở mức ý nghĩa 5%.
c. Ta dùng kiểm định F cho giả thuyết:
H0: β3=β4=0 (X
4
và X
5
không có tác dụng gì)
H1: β3≠0 hoặc β4≠0 (ít nhất một biến có tác dụng)
Nếu H
0
đúng → Cả X
4
và X
5
đều vô nghĩa → bỏ đi cũng được.
Nếu H
0
sai → Ít nhất một trong hai biến X
4
, X
5
thực sự giúp giải thích Y →
giữ lại.
Công thức kiểm định F (
Ftestnhómbiến
)
Ta tính:
(RSS RSS)/q
q,
reduce full
bang
full
F F nk
RSS
nk
Trong đó:
RSS
r
: tổng bình phương phần dư của mô hình rút gọn (bỏ X
4
, X
5
)
RSS
u
: tổng bình phương phần dư của mô hình đầy đủ
q: số biến kiểm định (ở đây q = 2 vì có X
4
, X
5
)
n: số quan sát
k: số tham số trong mô hình đầy đủ (k kể cả hệ số chặn)
So sánh:
Nếu F > F
bảng
với mức ý nghĩa 5% → bác bỏ H
0
→ X4 và X5 thực sự có ý nghĩa.
Nếu F≤ F
bảng
→ chấp nhận H0 → chúng không có ý nghĩa.
(Giống như thử bỏ X
4
, X
5
ra ngoài, xem mô hình dự đoán Y có tệ hơn hẳn không.
Nếu bỏ đi mà mô hình dự đoán kém hẳn → Chúng có ý nghĩa (giúp dự đoán).
Nếu bỏ đi mà mô hình vẫn tốt như cũ → Chúng không có ý nghĩa (thừa).
Giải
c. n=24, k=5;
S.E. of regression = 475.2968
Mô hình đầy đủ: có X2, X3, X4, X5 → RSS
full
Mô hình rút gọn: bỏ X4, X5 → RSS
reduce
2 2
RSS(S.E.). 475,2968.2454292233,914
u
nk
Vì R-squared = 1 − RSS/SST, nếu ta bỏ X4, X5, R-squared giảm → RSS tăng.
Giả sử khi bỏ X4, X5 thì R-squared giảm còn 0.80 →
RSS
r
=(1−0.8)×SST
Mà SST = RSS
full
/(1−R² full) SST=4293297.44/(1−0.8954)≈41034714.051
Vậy: RSS
r
=0.2×41034714.051=8206948.210
Vậy |
F|=10,94 > F
bảng
(2,19,5%)=3,52, bác bỏ H
0
.
Ở mức ý nghĩa 5%, ít nhất một trong hai biến X4 hoặc X5 có ảnh hưởng đến Y, tức là
X4, X5 thực sự giúp giải thích sự biến động của Y
Kết luận với số liệu tính:
R² giảm từ 0.8954 → 0.80 khi bỏ X4, X5 → mô hình mất đi phần biến động quan
trọng.
F test nhóm = 10.94 > 3.52 → ít nhất một trong hai biến X4 hoặc X5 có ảnh hưởng.
d. Trong trường hợp X5 tăng 3 đơn vị còn các biến độc lập X2, X3, X4 không thay đổi,
với độ tin cậy 90%, hãy tìm khoảng tin cậy tối đa của mức tăng bình quân của Y.
Mức tăng trung bình ước lượng
5 5
; 3; 258,2447
774,7341
Y X X
Y
Sai số chuẩn của
Y
5 5 5
() .(); ()0,00738
()3.0,007380,02214
SEY XSE SE
SEY
’
Khoảng tin cậy 90%;
/2,
.SE(); df19;t0,05;191,729(Student)
df
CI Yt Y
774,73411,729.0,02214774,73410,038CI
Khoảng tin cậy rất hẹp → SE cực nhỏ → X5 gần như quyết định Y
Với 90% độ tin cậy, mức tăng trung bình của Y khi X5 tăng 3 đơn vị là ≈ 774.73 ± 0.038
BÀI TẬP BIẾN GIẢ:
VD1:
(đây chính là bài tập về biến giả (dummy variable) trong hồi quy.
Lý do phải đưa biến giả Z vào mô hình là vì trong dữ liệu có yếu tố định tính – ở đây là khu
vực bán hàng (nông thôn hay thành phố).
Nếu không đưa biến giả:
Mô hình chỉ xem xét chi phí quảng cáo (X) → ảnh hưởng đến doanh số Y.
Sự khác biệt giữa hai khu vực sẽ không được phản ánh, nên kết quả có thể bị thiên lệch
hoặc thiếu thông tin quan trọng.
Cụ thể:
Biến Z được định nghĩa:
o
Z=0: khu vực bán ở nông thôn Z=1: khu vực bán ở thành phố
Trong mô hình: Y^=42,88+3,1769X −1,67Z
X: có thể là chi phí quảng cáo
Z: biến giả (dummy) để xem khu vực bán ảnh hưởng thế nào đến doanh số
Ý nghĩa:
Hệ số của Z cho biết sự khác biệt về doanh số giữa hai khu vực khi các yếu tố khác giữ
nguyên.
Nếu β=−1,67→ doanh số trung bình ở thành phố thấp hơn nông thôn 1,67 đơn vị (với
cùng chi phí quảng cáo).
Đáp số:
a)
b) C =t{7;0,0025}=2,365; beta i \in [beta i –Cse{betai}; beta i +Cse{beta i} ];
beta1 \in [33,7156; 52,0443];
beta2 \in [1,5627; 4,791];
beta3 \in [-6,9155; 3,5755];
c) Mô hình phù hợp; F=10,84442>C{0.05}(2,7)=4,74
VD2:
MỤC ĐÍCH VÀ KẾT QUẢ CỦA CÁC KIỂM ĐỊNH
VD1:
Khi chạy White test, EViews thường cho 2 p-value:
1. p(F-statistic): dựa trên F-test.
2. p(Obs*R-squared): dựa trên kiểm định LM (Lagrange Multiplier).
Kết luận:
Nếu cả hai p-value > 0.05 → Không bác bỏ H0H_0H0 → Không có heteroskedasticity.
Nếu cả hai p-value < 0.05 → Bác bỏ H0H_0H0 → Có heteroskedasticity.
Nếu chỉ 1 p-value < 0.05 →
o
Thông thường Obs*R² được xem là kiểm định chính (theo LM test).
o
Nếu Obs*R² < 0.05 mà F-statistic > 0.05 → Vẫn kết luận có heteroskedasticity.
o
Trường hợp ngược lại (Obs*R² > 0.05 mà F-statistic < 0.05) → Một số tài liệu
vẫn kết luận heteroskedasticity nhưng nên xem xét lại mô hình hoặc thử thêm
kiểm định khác (Breusch–Pagan, Glejser...).
MẹonhớnhanhtrongEViews
Quan sát Obs*R² trước, vì đây là kiểm định phổ biến hơn.
Nếu Obs*R² < 0.05 → Mô hình có phương sai thay đổi.
Nếu cả hai > 0.05 → Mô hình ổn, không cần lo.
Vd2: (KIỂM ĐỊNH BG)
4. kiểm định glejser dùng để phát hiện hiện tượng phương sai thay đổi trong mô hình hồi
quy tuyến tính.
giả thuyết h0: phương sai không thay đổi (homoskedasticity).
giả thuyết h1: phương sai thay đổi (heteroskedasticity).
cách làm:
b1: chạy mô hình hồi quy gốc y = β0 + β1x + u.
b2: lấy trị tuyệt đối phần dư |u|.
b3: hồi quy |u| theo x hoặc biến đổi của x (1/x, √x…).
b4: kiểm định hệ số α1 = 0 trong mô hình mới.
nếu p-value > α: không bác bỏ h0, phương sai không thay đổi.
nếu p-value < α: bác bỏ h0, có phương sai thay đổi.
Kết quả kiểm định Glejser:
p_value=0.7272>α=0.
Không bác bỏ giả thuyết H0:M=0H_0: M = 0H0:M=0
Kết luận:
→ Không có bằng chứng về phương sai thay đổi (phương sai là đồng nhất).