1. Hoàng Sĩ Thính
Học viện Nông nghiệp Việt Nam
Email: sithinhdf@gmail.com
Facebook: Jamesunimelb@yahoo.com
Điện thoại: 0942293689
CHUYÊN GIA TƯ VẤN TỰ DO VỀ SỬ DỤNG SPSS, THIẾT KẾ NGHIÊN CỨU, THIẾT KẾ CÔNG
CỤ THU THẬP (PHIẾU ĐIỀU TRA), XỬ LÝ VÀ PHÂN TÍCH SỐ LIỆU KINH TẾ XÃ HỘI
Phần 4 – Kỹ thuật thống kê phân tích mối quan hệ
giữa các biến
11 – Phân tích tương quan (Correlation)
2. 1. Ôn lại khái quát về Correlation
• Correlation để làm gì???
Dựa vào đặc điểm số liệu, có 2 dạng Correlation:
• Pearson’s Correlation: được thiết kế cho biến liên tục (interval và ratio),
hoặc cho cặp biến bao gồm một biến liên tục và một biến dichotomous
(???)
• Pearman Rho (hay Pearman Rank Order Correlation): được sử dụng
cho các số liệu dạng ranking (ordinal), và các số liệu không thỏa mãn
giả định của thống kê Pearson’s Correlation
SPSS sẽ giúp tính cả hai dạng Correlation trên ở các cấp độ khác nhau:
• Tương quan chỉ có hai biến (bivariate correlation, hay tương quan không
thứ bậc – zero order correlation)
• Tương quan từng phần (Partial Correlation): bạn còn nhớ gì nào???
Có rất nhiều những yếu tố cần quan tâm khi sử dụng hệ số tương quan:
Ảnh hưởng của phi tuyến (non-linear), outliers, restriction of range,
correlation versus causality and statistical versus practical significance.
3. 2. Quy trình sử dụng kỹ thuật Correlation
Hãy mở file Survey5ED ra
Câu hỏi nghiên cứu: “có mối quan hệ giữa mức độ tự kiểm soát và mức độ áp
lực trong cuộc sống? Có phải mức độ tự kiểm soát bản thân cao thường cảm
thấy ít áp lực hơn?”
Bạn cần phải có:
• Hai biến: cả hai biến đều liên tục, hoặc một biến liên tục, một biến dạng
dichotomous (two values)
Kỹ thuật sẽ giúp gì?:
Chỉ ra mối liên hệ giữa hai biến (cả độ mạnh và chiều hướng)
Những giả định nào cần quan tâm?: Xem lại Phần 4 – Khái quát
Thống kê phi tham số có thể thay thế: Spearman’s Rank Order Correlation
(Rho)
Tiếp theo: bạn sẽ chạy các phân tích chuẩn bị cho Correlation
4. Chạy Scatter plot. Để làm gì???
• Kiểm tra các giả định về Non-linear, về homoscedasticity
• Cho bạn biết căn bản về mối quan hệ giữa hai biến
Các bước thực hiện để chạy Scatter plot:
1. Graph/ Legacy Dialogs/ Simple Scatter/ Define
2. Đưa biến thứ nhất vào hộp Y-Axis. Thông thường, đó là phiến phụ
thuộc (vd: total perceived stress)
3. Chọn và đưa biến thứ hai vào hộp X-Axis. Thông thường, đó là biến
độc lập (vd: total PCOISS)
4. Trong hộp Label Cases by, hãy chọ ID. Tại sao??? (outliers can be
identified)
5. Continue/ Ok hoặc Paste để ghi lại Syntax Editor
Bạn sẽ có một biểu đồ như ở Slide sau:
2. Quy trình sử dụng kỹ thuật Correlation (tiếp)
Các phân tích chuẩn bị cho Correlation - Hãy mở file Survey3ED ra
5.
6. Bạn nhận thức kết quả từ Scatter Plot ra sao???
Bước 1: nhận thức về Outliers
1. Các giá trị quá thấp, quá cao so với xu hướng chính
2. Cần kiểm tra tại sao có outliers???
3. Chỉ ra cases có outliers:
– Double click vào biểu đồ, vào Elements/ Data Label Model
– Đưa con trỏ chuột đến các cases là outliers, click vào đó bạn sẽ biết tên của cases
Bước 2: Kiểm tra phân bố của số liệu
1. Số liệu quả tỏa quá rộng không? Nếu có, correlation sẽ thấp
2. Tất cả các điểm có tập trung như một điếu thuốc không? Nếu có, nó ngụ ý một mối tương quan chặt
chẽ
3. Một đường thẳng hay một đường cong sẽ đại diện cho các điểm trên biểu đồ? Chú ý, nếu là đường
thẳng thì việc sử dụng tương quan Pearson mới hợp lý.
4. Hình dáng của các đám đông (các điểm tụ tập thế nào) có được đều đặn ở cả hai đầu không? Nếu
không, số liệu có thể vi phạm giả định về homoncedascity
Bước 3: Nhận thức về chiều hướng mối quan hệ giữa hai biến
Sau khi bạn đã chắc chắn rằng có một mối quan hệ linear giữa hai biến, và các điểm quan hệ tạo thành
hình một điếu thuốc, bạn đã thực sự sẵn sàng cho việc tính hệ số tương quan Pearson hoặc Pearman
Trước khi chạy, hãy chắc chắn bạn vào Edit/ Options/ No scientific notation for small numbers in tables
7. 1. Analyze/ Correlate/ Bivariate
2. Chọn các biến (2 biến) cần phân tích đưa vào hộp
Variables (vd: biến total perceived stress và total
PCOISS)
3. Trong phần Correlation Coefficients chọn Pearson
hoặc Pearman Rho (tùy vào hướng đi của bạn)
4. Options/ Missing Values/ Exclude Cases Pairwise; Có
thể chọn thêm mean, standard deviation (nếu muốn)
5. Continue/ Ok, hoặc Paste để ghi lại Syntax Editor
2. Quy trình sử dụng kỹ thuật Correlation (tiếp)
Chạy Correlation (hoặc là Pearson r hoặc Pearman Rho)
Hãy mở file Survey3ED ra
8.
9. 3. Nhận thức kết quả Correlation như thế nào???
Bước 1: Kiểm tra thông tin về mẫu
• Số N (số mẫu): có đúng hay không?
• Có quá nhiều số liệu missing không? Tại sao lại như vậy? Bạn đã chọn Exclude
cases pairwise trong khi phân tích không? (có liên quan gì đến N???)
Bước 2: Kiểm tra xu hướng mối quan hệ giữa hai biến: positive or negative? Hãy
chú ý đến các items trong các biến (nếu có), liệu chúng có đang bị “tiêu cực” trong
cách đặt câu hỏi (ở phiếu điều tra) không? Nhớ rằng điều này sẽ ảnh hưởng
nghiêm trọng đến chiều hướng mối quan hệ giữa 2 biến.
Bước 3: Kiểm tra độ mạnh của mối quan hệ
• Các giá trị đặc biệt của r (hoặc rho): -1, 0, 1???
• Quan hệ thế nào được gọi là mạnh??? Học giả Cohen (1988, pp. 79-81) cho
rằng:
– Small: r = 0.10 đến 0.29
– Medium: r = 0.30 đến 0.49
– Large: r = 0.50 đến 1.00
10. Bước 4: Tính ra hệ số xác định mối quan hệ (coefficient of
determination)
• Hệ số này cho biết mức độ biến động chung xu thế của cả hai biến
(shared variance). Vẽ hình để giải thích!!!
• Tính như thế nào? Lấy bình phương hệ số r hoặc rho. Giải thích!!!
Mô tả ví dụ trong slide trước!!!
Bước 5: Đánh giá về độ tin cậy (significant level)
• Độ tin cậy cho biết về khả năng tin cậy được đối với hệ số r hoặc
rho
• Độ tin cậy phụ thuộc nhiều vào mẫu, mẫu càng lớn độ tin cậy càng
cao
• One-tailed hoặc Two-tailed:
3. Nhận thức kết quả Correlation như thế nào??? (tiếp)
11. 4. Báo cáo kết quả chạy tương quan như thế nào???
12. 4. Báo cáo kết quả chạy tương quan như thế nào??? (tiếp)
13. 5. Tính hệ số tương quan giữa các nhóm biến
(Obtaining correlation coefficient between groups of variables)
• Cách thức tìm ra hệ số tương quan giữa các nhóm biến cũng có thể được thực hiện
như đối với hai biến (bằng cách đưa tất cả các biến vào hộp Variables), nhưng SPSS
sẽ tạo ra một ma trận correlation rất phức tạp
• Ví dụ: bạn chỉ muốn tính hệ số correlation giữa các biến thuộc hai nhóm gồm
Control measures (bao gồm biến Mastery, và PCOISS) và nhóm different measures
(bao gồm positive effect, negative effect, và life satisfaction), chứ không phải tính ra
hệ số correlation cho tất cả các biến ở hai nhóm này (rất nhiều). Syntax Editor sẽ
giúp bạn làm việc này
Các bước thực hiện như sau:
1. Analyze/ Correlate/ Bivariate
2. Chuyển tất cả các biến bạn muốn tính hệ số correlation vào hộp Variables. Chú ý
chuyển hết biến của nhóm 1 (tposaff, tnegaff, tlifesat) rồi đến nhóm 2 (tpcoiss,
tmast)
3. Suy nghĩ này: Trong phần output mà mình sẽ có, thông tin sẽ được mô tả theo
kiểu các biến nhóm 1 sẽ được liệt kê theo dòng, các biến thuộc nhóm 2 sẽ được
liệt kê theo cột của một bảng. Do đó, bạn nên chú ý nhập biến ở nhóm có nhiều
biến hơn trước rồi đến biến ở nhóm còn lại.
4. Nhấn vào Paste, bạn sẽ thấy xuất hiện Syntax Editor
14. Sau bước 4 bạn sẽ thấy xuất hiện cửa sổ như sau:
5. Hãy để con trỏ chuột vào giữa hai nhóm biến trong cửa sổ trên (tposaff,
tnegaff, tlifesat, và tpcoiss, tmast) rồi gõ chữ “with” như sau:
5. Tính hệ số tương quan giữa các nhóm biến
(Obtaining correlation coefficient between groups of variables)
Các bước thực hiện như sau (tiếp):
15. Tôi đố bạn biết bước 5 ở trên là để làm gì???
6. Để tính ra các hệ số correlation như mục tiêu bạn muốn (trước bước 1), bạn
hãy bôi đen (highlight) từ chữ CORELATION đến hết dấu chấm (.) trong Syntax
Editor mà bạn vừa hoàn thành ở bước 5
7. Ấn vào nút hình tam giác trên Syntax Editor (hoặc vào Menu/Run)
5. Tính hệ số tương quan giữa các nhóm biến
(Obtaining correlation coefficient between groups of variables)
Các bước thực hiện như sau (tiếp):
16. 5. (tiếp) Kết quả như sau:
Nhìn trực diện, kết quả ở bảng này có thể dùng để so sánh một cách dễ dàng về
độ mạnh trong tương quan giữa các biến kiểm soát (Total PCOISS và Total
Mastery) và các biến hiệu chỉnh (total positive effect, total negative affect, và
total life satisfaction)
17. 6. So sánh hệ số tương quan giữa hai nhóm
Đôi khi vì mục đích nào đó bạn cần so sánh độ mạnh trong tương quan giữa các
biến của hai nhóm khác nhau. Vd: bạn muốn so sánh quan hệ giữa tổng mức độ
lạc quan (Total optimisms) và tổng ảnh hưởng tiêu cực (Total negative affect) giữa
hai nhóm nam (males) và nữ (females)
Các bước thực hiện sẽ như sau:
Bước 1: Chia mẫu điều tra thành hai nhóm (split the sample)
1. Hãy chắc chắn bạn đang ở cửa sổ Data Editor
2. Data/ Split File
3. Nhấn Compare Group
4. Chuyển biến mà bạn muốn phân nhóm (vd: sex) vào hộp Group based on/
Ok
Đến đây, số liệu của bạn đã được chia thành hai nhóm dựa trên tiêu thức sex. Và
cũng từ đây, tất cả các phân tích sẽ được thực hiện riêng rẽ cho hai nhóm này.
18. Bước 2: chạy Correlation
Bạn sẽ thao tác bình thường như đã trình bày trong phần chạy ra hệ số tương quan. Bạn thử xem nào???
Và đây là kết quả:
6. So sánh hệ số tương quan giữa hai nhóm
Các bước thực hiện sẽ như sau: (tiếp)
Chú ý: Nếu từ các phân tích sau bạn không muốn so sánh giữa hai nhóm male và female
nữa, hãy tắt chức năng Split File đi là được. Cách làm như sau:
Trên cửa sổ Data Editor, vào Data/ Split File/ Analyze all cases, do not create groups/ Ok
19. Bạn hãy xem lại bảng ở slide trước. Bạn sẽ thấy:
• Hệ số tương quan giữa Total optimism và Total negative affect của nhóm
male là: r = -.22
• Trong khi đó, ở nhóm female thì r = -.39
Bạn có kết luận gì???
Liệu chúng có đủ khác nhau đến mức statistical significant? Để trả lời câu hỏi
đó, “Tôi” (chứ không phải SPSS) sẽ giúp bạn test sự khác biệt giữa hai hệ số này
(nhớ nhé, cái này khác với kiểm định ý nghĩa của từng hệ số r trong bảng ở slide
trước!!!)
• Kiểm định sự khác biệt giữa r của hai nhóm (male và female) nghĩa là đánh
giá khả năng (xác xuất) của sự kiện rằng sự khác biệt giữa hệ số tương quan
(giữa total optimism và total negative affect) của hai nhóm này (male và
female) có thể xảy ra bởi lý do sai số mẫu (sample error), trong khi trên thực
tế không hề có sự khác biệt này.
• Nội dung này được trình bày trong một vài slide tiếp theo:
6. So sánh hệ số tương quan giữa hai nhóm
Nhận thức kết quả ra sao???
20. 7. Kiểm định thống kê sự khác biệt giữa các hệ số tương quan
Rất tiếc SPSS không có chức năng này!!! Do đó, ta phải làm bằng công nghệ
thủ công.
Nó hơi phức tạp, nhưng đại khái trải qua các bước gồm:
• bước 1 – chuyển giá trị r sang giá trị z;
• bước 2 – tính giá trị zobs;;
• bước 3 – sử dụng giá trị zobs cùng với một số luật thống kê để kết luận về ý
nghĩa của sự khác biệt giữa hai giá trị r của hai nhóm cần nghiên cứu.
Ta sẽ làm dần từng bước ở slide sau
Các giả định trước khi thực hiện:
• Các r của mỗi nhóm có được từ các mẫu ngẫu nhiên (random samples)
• Các cases (người trả lời) trong mỗi nhóm là độc lập (không phải là điều tra
lặp)
• Giá trị các biến quan sát của mỗi nhóm phải có phân phối chuẩn
• Mỗi nhóm cần có ít nhất 20 cases (phiếu điều tra)
21. Bước 1: Chuyển giá trị r của mỗi nhóm thành giá trị z. Vì sao???
• Từ kết quả tính tương quan, hãy tìm ra giá trị r và N cho mỗi nhóm
• Sau đó hãy dùng bảng ở slide phía sau để tìm ra giá trị z cho mỗi
nhóm như sau:
7. Kiểm định thống kê sự khác biệt giữa các hệ số tương quan
Các bước thực hiện:
22.
23. • Bước 2: Tính giá trị zobs theo công thức sau:
• Bước 3: Kết luận về ý nghĩa thống kê về sự khác biệt giữa hai giá trị
r của hai nhóm theo hướng dẫn sau:
• Bạn kết luận gì về sự khác biệt giữa hai giá trị r cho nhóm male và
female trên?
7. Kiểm định thống kê sự khác biệt giữa các hệ số tương quan
Các bước thực hiện:
24. Bài tập thực hành - Health
Bạn hãy mở file sleep3ED ra
1. Hãy kiểm tra độ mạnh trong tương quan giữa các biến
Sleepiness and Associated Sensation Scale (totSAS) và biến
Epworth Sleepiness Scale (ess)
2. Hãy sử dụng chức năng Syntax Editor để kiểm tra tương quan
giữa biến Epworth Sleepiness Scale (ess) và các thành phần
tạo nên biến Sleepiness and Associated Sensations Scale
(bao gồm fatigue, lethargy, tired, sleepy, energy)
25. Tham khảo
CÁC KIẾN THỨC TRONG SLIDES ĐƯỢC KHAI
THÁC TỪ NGUỒN www.openup.co.uk/spss