Giáo trình Thống kê sinh học (Phần 2) - Bùi Tấn Anh
Chương 4. KIỂM ĐỊNH GIẢ THUYẾT
I. CHUYỂN DẠNG DỮ LIỆU (TRANSFORMATIONS OF DATA)
Trong các thí nghiệm sinh học, không phải lúc nào ta cũng thu thập được các
dữ liệu có phân bố chuẩn. Nếu các dữ liệu thu được không có phân bố chuẩn thì
trước khi xử lý và phân tích, các dữ liệu này cần phải được chuyển dạng. Bộ dữ liệu
sau khi chuyển dạng sẽ có phân bố chuẩn, phương sai bền vững hơn nhưng bản chất
không đổi. Sau khi xử lý thống kê và thu được kết quả từ bộ dữ liệu mới, các kết
quả cần phải được chuyển dạng ngược trở lại theo thang đo ban đầu.
Có nhiều phương pháp khác nhau để chuyển dạng dữ liệu. Trong giáo trình
này ta chỉ tập trung vào hai phương pháp chuyển dạng căn bậc hai (square root) và
chuyển dạng theo hàm logarit.
Các thí dụ dưới đây sẽ cho ta thấy làm cách nào để chọn được cách chuyển
dạng tối ưu nhất.
Thí dụ 1. Số lượng tế bào máu quan sát được trong 400 ô của buồng đếm hồng cầu
(hematocytometer) (Fisher, 1990).
Dữ liệu
Số tế bào máu: 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 10 11 12 |
Tần số: 0 20 43 53 86 70 54 37 18 10 | 5 | 2 | 2 |
(1) Nhập dữ liệu vào Minitab
Cách 1. Dùng các lệnh từ thanh Menu
Calc > Make Patterned Data > Arbitrary Set of Numbers ...
Store patterned data in: C1
Arbitrary set of numbers: 1 (số tế bào máu)
Numbers of times to list each value: 20 (tần số)
Number of times to list the sequence: 1
Lặp lại
Calc > Make Patterned Data > Arbitrary Set of Numbers ...
Store patterned data in: C2
Arbitrary set of numbers: 2 (số tế bào máu)
Numbers of times to list each value: 43 (tần số)
Number of times to list the sequence: 1
Tiến hành tương tự với các giá trị còn lại từ 3 đến 12.
Kết quả ta có được 400 giá trị quan sát được lưu trong 12 cột từ C1 đến C12.
Nhập toàn bộ các dữ liệu trong 12 cột vào 1 cột (C13).
Đặt tên cột này là Count
Data > Stack >/Column...
Stack the following columns: C1 – C12
Store stacked data in:
Column of current worksheet: C13 OK
Data > Display data...
File đính kèm:
- giao_trinh_thong_ke_sinh_hoc_phan_2_bui_tan_anh.pdf
Nội dung text: Giáo trình Thống kê sinh học (Phần 2) - Bùi Tấn Anh
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Thí dụ 2: Giả sử rằng thời gian mang thai quan sát được ở giống bò mới là 305 ngày. Ta có thể kết luận gì? Cách giải: Bây giờ ta cần tính xác suất của m> 305 ngày hoặc m 305) 265 285 305 285 = PZZ or 10 10 = P (Z 2) = 2 * P(Z < - 2) = 2 * 0.0228 = 0.0456 0.0228 0.0228 265 305 Đây là một xác suất nhỏ (1/20) vì vậy chúng ta bác bỏ giả thuyết trung bình tổng thể là m = 285 ngày và ta có thể kết luận rằng trung bình tổng thể lớn hơn có ý nghĩa so với 285 ngày. Khi phải lựa chọn giữa hai giả thuyết H0 và H1, ta có thể phạm một trong hai loại sai lầm: (1) Bác bỏ H0 khi thực ra H0 là đúng sai lầm loại I (2) Chấp nhận H0 khi thực ra H0 là sai sai lầm loại II Có 4 khả năng có thể xảy ra thể hiện trong bảng dưới đây: Kết luận Chấp nhận H Bác bỏ H Thực tế 0 0 H0 đúng Kết luận đúng Sai lầm loại I H0 sai Sai lầm loại II Kết luận đúng III. KIỂM ĐỊNH 1 MẪU (KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH) 1. Kiểm định Z Thí dụ 1: Tiếp tục với thí dụ về thời gian mang thai của bò (có phân bố chuẩn, trung bình là 285 ngày, độ lệch chuẩn là 10 ngày), nghĩa là x ~ N(285, 102). Ở một giống bò mới người ta ghi nhận được thời gian mang thai của 6 con bò: 307 293 293 283 294 297 65
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Giả sử rằng độ lệch chuẩn trong trường hợp này cũng là 10 ngày. Như vậy có bằng chứng nào cho thấy trung bình thời gian mang thai của giống bò mới là khác với 285 ngày? Cách giải: Giả định = 10 ngày dùng z-test Giả thuyết không: H0 : m = 285 ngày Giả thuyết đối: H1 : m 285 ngày với m = trung bình thời gian mang thai của giống bò mới x = (307+293+293+283+294+297)/6 = 294.5 ngày Kiểm định: ()()x m x m z 2 / n se() x Trong thí dụ trên 294.5 285 z 2.33 102 / 6 Nếu giả thuyết H0 là đúng thì z = 2.33 là một quan sát từ một phân bố chuẩn tắc (standard normal distribution). Chúng ta tính xác suất để: P P( x 275.5 or x 294.5) = PZZ( 2.33 or 2.33) = 2*PZ ( 2.33) = 2*0.010 0.020 0.01 0.01 - 2.33 2.33 Nếu H0 là đúng, chỉ có 2% cơ hội để nhận được giá trị này của x . Do đó chúng ta bác bỏ giả thuyết H0. Kết luận: Thời gian mang thai của giống bò mới có giá trị trung bình lớn hơn có ý nghĩa so với 285 ngày. Tổng quát: P 0.05 (lớn hơn 1/20) chấp nhận H0 66
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Khi H0 được chấp nhận cũng chưa có nghĩa là H0 hoàn toàn đúng; cỡ mẫu có thể quá nhỏ nên không thể phát hiện sự sai khác. Ngay cả khi H0 bị bác bỏ, vẫn có khả năng xảy ra sai lầm. Nếu ta chọn giá trị 5% như trên thì ta vẫn có 5% sai lầm khi H0 đúng. Thí dụ 2: Thử nghiệm thuốc gây mê trên chó. Người ta muốn kiểm tra xem mức độ epinephrine huyết thanh trong máu sau khi dùng phương pháp gây mê mới có thay đổi hay không so với khi dùng phương pháp gây mê trước đây. Phương pháp gây mê trước đây đã cho kết quả là mức trung bình = 0.4 ng.ml-1 và độ lệch chuẩn là 0.2 ng.ml-1. Các bước tiến hành Bước 1. Nhập liệu Đặt tên cột C1 là ‘Hormone’. Nhập dữ liệu vào cột này: 0.64 0.74 0.48 0.66 0.34 0.70 Bước 2. Mô tả dữ liệu Stat > Basic Statistics > Descriptive Statistics /Variable ‘Hormone’ Descriptive Statistics: Hormone Variable N Mean SE Mean StDev Minimum Median Maximum Hormone 6 0.5933 0.0623 0.1527 0.3400 0.6500 0.7400 Bước 3. Kiểm tra tính phân bố chuẩn Graph > Boxplot /Simple 0.3 0.4 0.5 0.6 0.7 0.8 Hormone Do mẫu quá nhỏ nên khó kiểm tra. Chỉ xác định được là không có số liệu lạ (outlier). Bước 4. Kiểm định Stat > Basic Statistics > 1-sample Z / Samples in Columns: Hormone Standard deviation: 0.2 Test mean: 0.4 67
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - One-Sample Z: Hormone Test of mu = 0.4 vs not = 0.4 The assumed standard deviation = 0.2 Variable N Mean StDev SE Mean Hormone 6 0.593333 0.152665 0.081650 Variable 95% CI Z P Hormone (0.433303, 0.753364) 2.37 0.018 Giả thuyết không và giả thuyết đối được viết bởi Minitab là: Test of mu = 0.4 vs not = 0.4 Chúng ta sẽ viết lại như sau: -1 Giả thuyết không: H0 : m = 0.4 ng.ml -1 Giả thuyết đối : H1 : m ≠ 0.4 ng.ml Trong đó m = trung bình mức epinephrine huyết thanh trong máu sau khi dùng phương pháp gây mê mới. Bước 5. Kết luận Mức epinephrine huyết thanh trong máu tăng có ý nghĩa sau khi dùng phương pháp gây mê mới 2. Kiểm định t Thí dụ 1. Cũng dùng thí dụ 1 trong phần kiểm định Z nhưng bây giờ ta giả định rằng sự biến thiên của thời gian mang thai của giống bò mới rất khác so với giống cũ. Kết quả phân tích sẽ thay đổi như thế nào? Cách giải Không thể giả định = 10 ngày dùng t-test Giả thuyết không: H0 : m = 285 ngày Giả thuyết đối: H1 : m 285 ngày x = 294.5 ngày và s = 7.74 ngày Kiểm định ()()x m x m t độ tự do: df = n – 1 s2 / n se Trong thí dụ trên: 294.5 285 9.5 t 3.01 df = 6 – 1 = 5 (7.74)2 / 6 3.16 nếu giả thuyết H0 là đúng thì t = 3.01 thuộc phân bố t với độ tự do = 5. 68
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 0.4 z 0.3 0.2 0.1 t 0.0 -5.0 -2.5 0.0 2.5 5.0 7.5 Phân bố t có đuôi rộng hơn phân bố chuẩn. Phân bố này được dùng khi độ lệch chuẩn được ước lượng từ mẫu. Cỡ mẫu càng lớn thì ước lượng càng chính xác vì độ tự do tăng lên, t phân bố chuẩn. Giá trị P của t-test là: P = P( x 275.5 or x 294.5) = PT(5 3.01 or T 5 3.01) = 2*PT (5 3.01) = 2*0.0015 = 0.03 Kết luận: Vì P Basic Statistics > 1-sample t / Samples in Columns: Hormone Test mean: 0.4 One-Sample T: Hormone Test of mu = 0.4 vs not = 0.4 Variable N Mean StDev SE Mean Hormone 6 0.593333 0.152665 0.062325 Variable 95% CI T P Hormone (0.433121, 0.753546) 3.10 0.027 3. Khoảng tin cậy của trung bình tổng thể (m) Kiểm định giả thuyết cho ta biết dữ liệu phù hợp hay không phù hợp với một giá trị trung bình xác định mCâu hỏi tiếp theo là khoảng giá trị nào của m phù hợp với trung bình mẫu x ? 69
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Công thức tính khoảng tin cậy 95% (95% CI = 95% confidence interval) Thời gian mang thai của bò được dùng làm thí dụ minh hoạ. Nhắc lại chúng có phân bố chuẩn N(285, 102). Sáu giá trị quan sát (n = 6) thu được trên một giống bò mới, giá trị trung bình mẫu là x = 294.5 ngày. Trường hợp 1. Nếu ta gỉả sử phương sai mẫu không khác so với phương sai tổng thể, ta sẽ có = 10 ngày và xác định khoảng tin cậy cho kiểm định z. x z( /2) * 2 / n x z (0.025) * se ( /2) (0.025) Trong đó z = z = 1.96 là 2.5% đuôi bên phải của phân bố chuẩn tắc. Trong thí dụ trên 95% CI 294.5 1.96* 102 / 6 294.5 8.00 (286.5, 302.5) Như vậy ta có thể tin đến 95% rằng trung bình thời gian mang thai của giống bò mới nằm đâu đó trong khoảng 286.5 đến 302.5 ngày, mặc dù ước lượng là 294.5 ngày. Trường hợp 2. Nếu ta không thể giả sử rằngphương sai mẫu không đổi so với phương sai tổng thể, ta sẽ phải ước lượng bằng độ lệch chuẩn mẫu s và dùng khoảng tin cậy cho kiểm định t. ( /2) 2 (0.025) x tdf*/* s n x t n 1 se /2 (0.025) Trong đó tdf t n 1 là đuôi bên phải của phân bố t với độ tự do df = n – 1. Trong thí dụ trên: độ lệch chuẩn mẫu là s = 7.74 ngày (0.025) với df = n – 1 = 5 thì t5 = 2.57 95% CI 294.5 2.57* 7.742 / 6 294.5 8.1 (286.4, 302.6) Như vậy một lần nữa ta có thể tin đến 95% rằng trung bình thời gian mang thai của giống bò mới nằm đâu đó trong khoảng 286.4 đến 302.6 ngày. Lưu ý: - khoảng tin cậy trong kiểm định t thường lớn hơn trong kiểm định z. - ta cũng có thể tính khoảng tin cậy 99% và 99.9%. - Khi dùng Minitab để kiểm định z hoặc t, kết quả xuất bao gồm cả 95% CI. IV. KIỂM ĐỊNH 2 MẪU (SO SÁNH TRUNG BÌNH HAI MẪU) Trong các thí nghiệm sinh học nói chung, khi có từ hai nhân tố hoặc hai nhóm mẫu trở lên thì sau khi xác định được giá trị trung bình và kiểm tra được độ tin cậy của chúng, người ta cần phải khẳng định sự sai khác của tất cả các nhân tố thông qua các phương pháp kiểm tra thống kê sinh học. Mục đích nhằm khẳng định giữa các số trung bình mẫu đó có sự sai khác nhau hay không và nếu có thì sự sai khác đó có ý nghĩa thống kê ở mức độ bao nhiêu. 70
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 1. Hai mẫu độc lập, phương sai bằng nhau Thí dụ: So sánh trọng lượng của hai giống bò. Giống 1 khảo sát 12 con, giống 2 khảo sát 15 con. Kế quả ghi nhận được như trong bảng 4.1 Bảng 4.1. Trọng lượng (kg) của hai giống bò (Peter, 2001) Giống thứ nhất: 187.6 180.3 198.6 190.7 196.3 203.8 190.2 201.0 194.7 221.1 186.7 203.1 Giống thứ hai: 148.1 146.2 152.8 135.3 151.2 146.3 163.5 146.6 162.4 140.2 159.4 181.8 165.1 165.0 141.6 Dữ liệu thống kê mô tả cho thấy: Giống 1 Giống 2 Trung bình mẫu (kg) 196.2 153.7 Độ lệch chuẩn mẫu (kg) 10.62 12.3 Liệu có sự sai khác về trọng lượng giữa hai giống bò nầy hay không? Số liệu thu thập được có dạng: x, x , x , , x nhóm mẫu 1 11 12 13 1n1 x, x , x , , x 21 22 23 2n2 nhóm mẫu 2 trong trường hợp trên n1 = 12 và n2 = 15 Các số liệu có thể được mô hình hóa dưới dạng: [ Dữ liệu quan sát ] = [ Trung bình mẫu ] + [ Sai số ngẫu nhiên ] xij = mi + ij i = 1, 2 (nhóm mẫu) j = 1, 2, , ni (số lần lặp lại của mỗi mẫu) Ở thí dụ trên: m1 = trung bình trọng lượng của bò (kg) thuộc Giống 1 m2 = trung bình trọng lượng của bò (kg) thuộc Giống 2 Trong trường hợp này người ta thường dùng phương pháp kiểm tra t gộp để so sánh hai trung bình mẫu. Phương pháp này đòi hỏi bộ số liệu thu được từ quần thể phải thỏa các yêu cầu: (1) Phương sai hai mẫu phải hoàn toàn độc lập, không ràng buộc lẫn nhau. 2 (2) Dữ liệu có phân bố chuẩn, xij ~N(m, ), cở mẫu nhỏ (n < 30) (3) Phương sai của hai nhóm mẫu và tổng thể phải bằng hoặc gần bằng nhau. Có thể so sánh hai phương sai mẫu bằng hai cách: Cách 1: Dựa vào chênh lệch giữa hai độ lệch chuẩn độ lệch chuẩn lớn nhất <1.5 độ lệch chuẩn nhỏ nhất 71
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - trong thí dụ trên: s2/s1 = 12.3/10.62 = 1.16 cho thấy phương sai của hai mẫu gần bằng nhau. Cách 2: Tiến hành kiểm tra F (F test) Stat > Basic Statistic >/ 2 Variances Tuỳ chọn: Samples in one column Samples in different column Sumarized Data OK Kết quả: Test for Equal Variances F-Test 1 Test Statistic 0.74 P-Value 0.631 2 6 8 10 12 14 16 18 20 22 Vì P > 0.05 nên có thể xem như phương sai của hai mẫu bằng nhau. Giả định trên về sự phân bố của hai mẫu được thể hiện trong đồ thị dưới đây: hai phân bố chỉ khác nhau về vị trí (do trung bình mẫu qui định), còn lại đều giống hệt nhau. X m1 m2 Giả thiết: H0 : m1 = m2 H1 : m1 m2 72
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Công thức tính t : x x x x t 1 2 1 2 2 1 1 se s p () n1 n 2 2 2 (n1 1) s 1 ( n2 1) s 2 trong đó s p sp là độ lệch chuẩn gộp (p = pool) n1 n 2 2 df ( n1 1) ( n 2 1) n 1 n 2 2 df = độ tự do (degree of freedom) Như vậy trong thí dụ về trọng lượng bò nêu trên: x1 x 2 196.2 153.7 42.5 kg 11*(10.62)2 14*(12.30) 2 s2 134.33 kg p 25 sp 134.33 11.59 kg Cần lưu ý rằng sp phải luôn luôn nằm trong khoảng giữa s1 và s2 10.62 kg <sp<12.30 kg. Sai số chuẩn (se) cho sự khác biệt của hai trung bình là: 1 1 se 134.33 4.489 kg 12 15 x x 42.5 Do đó: t 1 2 9.46 với độ tự do df = 12+15 – 2 =25 se 4.489 Nếu giả thuyết H0 (nghĩa là m1 = m2) là đúng thì t = 9.46 thuộc phân bố t với độ tự do =25. Giá trị P cho kiểm định t là: P P( x1 x 2 42.5 or x 1 x 2 42.5) = PTT(25 9.46 or 25 9.46) = 2 x PT (25 9.46) = 2 x 0.0000 = 0.0000 Nhận xét: Kết quả cho thấy P (hai đuôi) < 0.05 giả thiết H0 bị bác bỏ sự sai khác của hai trung bình mẫu là có ý nghĩa về mặt thống kê với độ tin cậy 95% giống thứ nhất có trọng lượng lớn hơn giống thứ hai. Khoảng tin cậy (Confidence Interval) cho sự sai khác giữa hai trung bình mẫu. Ước lượng tốt nhất cho hai trung bình tổng thể m1 và m2 là hai trung bình mẫu x1 và x2 . Do đó ước lượng tốt nhất cho sự khác biệt m1 - m2 là x1 x 2 , gọi là ước lượng điểm (point estimate). 73
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Trong thí dụ trên hiệu giữa hai trung bình mẫu là x1 x 2 42.5 kg cho thấy nếu tính trung bình thì giống 1 nặng hơn giống 2 là 42.5 kg. Khoảng tin cậy 95% (95% confidence interval = CI) được xác định như sau: 1 1 x x t( /2) s 2 x x t (0.025) se 1 2df 1 2 n1 n 2 2 n1 n 2 trong đó t(0.025) là đuôi bên phải (2.5%) của phân bố t với độ tự do là n + n – 2. n1 n 2 2 1 2 1 1 vì n1 + n2 -2 = 25, t 2 = 2.06 và se = 134.33* ( ) = 4.489 kg nên: 12 15 95% CI = 42.5 kg 2.06 x 4.498 = (33.2 , 51.7) kg Như vậy có đến 95% cơ hội đúng khi cho rằng sự khác biệt giữa hai trung bình mẫu nằm trong khoảng từ 33.2 kg đến 51.7 kg. Cách tính bằng Minitab: Worksheet: Cattle weights Bước 1. Kiểm tra sự giống nhau giữa hai độ lệch chuẩn Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: Group A, Group B Variable N Mean StDev Minimum Q1 Median Q3 Maximum Group A 12 196.18 10.62 180.30 188.25 195.50 202.57 221.10 Group B 15 153.70 12.30 135.30 146.20 151.20 163.50 181.80 Độ lệch chuẩn của hai mẫu tương đối giống nhau => có thể giả định 1 = 2 Như vậy có thể dùng phương pháp kiểm tra t gộp. Bước 2. Kiểm tra sự phân bố chuẩn Graph > Boxplot / Multiple Y’s/Simple Group A Group B 140 150 160 170 180 190 200 210 220 230 Trọng lượng (kg) Đồ thị cho thấy cả hai nhóm mẫu A và B đều có phân bố chuẩn. 74
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Bước 3. Kiểm định t gộp (pooled t-test) Stat > Basic Statistics > 2-Sample t / Sample in different columns Assume equal variances Two-Sample T-Test and CI: Group A, Group B Two-sample T for Group A vs Group B N Mean StDev SE Mean Group A 12 196.2 10.6 3.1 Group B 15 153.7 12.3 3.2 Difference = mu (Group A) - mu (Group B) Estimate for difference: 42.4750 95% CI for difference: (33.2301, 51.7199) T-Test of difference = 0(vs not =):T-Value = 9.46 P-Value = 0.000 DF = 25 Both use Pooled StDev = 11.5901 Bước 4. Nhận xét và kết luận (giống như trên) 2. Hai mẫu độc lập, phương sai không bằng nhau Trong trường hợp hai mẫu có phương sai không bằng nhau (tỉ lệ giữa hai độ lệch chuẩn > 1.5 hoặc giá trị P của F-test 1.50 nên không thể dùng phương pháp kiểm tra t gộp. Giả thiết: H0 : m1 = m2 H1 : m1 m2 75
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Phương pháp tính Cách 1. Dùng phương pháp kiểm định t Satterthwaite a. Dùng các hàm để tính : x x t tính (t Stat) t 1 2 2 2 (//)s1 n1 s 2 n2 2 (/)(/)s2 n s2 n độ tự do df 1 1 2 2 (làm tròn) (/)s2 n 2 (/)s2 n 2 1 1 2 2 n1 1 n2 1 2 2 khoảng tin cậy x1 x 2 t / 2.(/)(/) s 1 n1 s 2 n2 b. Dùng Minitab : Bước 1. Nhập liệu Nhập dữ liệu vào bảng tính. Cột C1 chứa dữ liệu, tên nhãn là %Change, cột C2 chứa nhóm, tên nhãn là Species. Data Display Row %Change Species Row %Change Species 1 2.31 Toad 8 0.85 Frog 2 25.23 Toad 9 2.90 Frog 3 28.37 Toad 10 2.47 Frog 4 14.16 Toad 11 17.72 Frog 5 28.39 Toad 12 3.82 Frog 6 27.94 Toad 13 2.86 Frog 7 17.68 Toad 14 13.71 Frog 15 7.38 Frog Bước 2. Mô tả dữ liệu Stat > Basic Statistics > Display Descriptive Statistics / Variables: %Change By Variable: Species Descriptive Statistics: %Change Variable Species N Mean SE Mean StDev Minimum %Change Frog 8 6.46 2.16 6.10 0.850 Toad 7 20.58 3.72 9.84 2.31 Variable Species Q1 Median Q3 Maximum %Change Frog 2.57 3.36 12.13 17.72 Toad 14.16 25.23 28.37 28.39 Graph > Boxplot / One Y/With Groups Graph Variables: %Change Categorical variables for grouping: Species 76
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Boxplot of %Change Frog Species Toad 0 5 10 15 20 25 30 %Change Hai nhóm có độ lệch chuẩn rất khác nhau (Ếch: 6.10 vs Cóc: 9.84) vì vậy không thể dùng phương pháp kiểm định t gộp. Boxplot cũng cho thấy phương sai không bằng nhau. Do đó ta phải dùng kiểm định t Satterthwaite. Bước 3. Kiểm định Stat > Basic Statistics > 2-sample t /Samples in one column Samples: ‘%Change’ Subscripts: Species Assume equal variances: không check kiểm định Satterthwaite Two-Sample T-Test and CI: %Change, Species Two-sample T for %Change Species N Mean StDev SE Mean Frog 8 6.46 6.10 2.2 Toad 7 20.58 9.84 3.7 Difference = mu (Frog) - mu (Toad) Estimate for difference: -14.1191 95% CI for difference: (-23.8430, -4.3952) T-Test of difference = 0 (vs not =): T-Value = -3.28 P-Value = 0.009 DF = 9 Bước 4. Nhận xét & Kết luận Qua kết quả phân tích ta thấy P = 0.009 < 0.05 chứng tỏ cóc thu nhận nhiều nước hơn ếch. 77
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Cách 2. Chuyển dạng số liệu (chuyển dạng log) Bước 1. Đặt nhãn cho cột C3 là ‘log cha’. Chuyển toàn bộ số liệu trong cột C1 sang log cơ số e. Calc > Calculator / Store result in variable: ‘log cha’ Functions: Natural log Expression: LOGE( ‘%Change’ ) Row log cha Species Row log cha Species 1 0.83725 Toad 8 -0.16252 Frog 2 3.22803 Toad 9 1.06471 Frog 3 3.34533 Toad 10 0.90422 Frog 4 2.65042 Toad 11 2.87469 Frog 5 3.34604 Toad 12 1.34025 Frog 6 3.33006 Toad 13 1.05082 Frog 7 2.87243 Toad 14 2.61813 Frog 15 1.99877 Frog Bước 2. Mô tả dữ liệu Stat > Basic Statistics > Display Descriptive Statistics / Variables: log cha By Variable: Species Descriptive Statistics: log cha Variable Species N Mean SE Mean StDev Minimum log cha Frog 8 1.461 0.351 0.994 -0.163 Toad 7 2.801 0.343 0.907 0.837 Variable Species Q1 Median Q3 Maximum log cha Frog 0.941 1.202 2.463 2.875 Toad 2.650 3.228 3.345 3.346 Phương sai hai mẫu đã xấp xỉ nhau có thể dùng phương pháp kiểm định t gộp. Graph > Boxplot / One Y/With Groups Graph Variables: log cha Categorical variables for grouping: Species 78
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Boxplot of log cha vs Species 3.5 3.0 2.5 2.0 1.5 log cha log 1.0 0.5 0.0 Frog Toad Species Bước 3. Kiểm định t gộp. Stat > Basic Statistics > 2-sample t /Samples in one column Samples: ‘log cha’ Subscripts: Species Assume equal variances: check Two-Sample T-Test and CI: log cha, Species Two-sample T for log cha Species N Mean StDev SE Mean Frog 8 1.461 0.994 0.35 Toad 7 2.801 0.907 0.34 Difference = mu (Frog) - mu (Toad) Estimate for difference: -1.34023 95% CI for difference: (-2.40782, -0.27264) T-Test of difference = 0 (vs not =): T-Value = -2.71 P-Value = 0.018 DF = 13 Both use Pooled StDev = 0.9548 Bước 4. Nhận xét & Kết luận Cũng giống như trên, cóc thu nhận nhiều nước hơn ếch (P = 0.018). Ở thang log sự khác biệt là 2.80 - 1.46 = 1.34. Chuyển dạng ngược lại (chọn Calc > Calculator .> Function Exponentiate) e1.34 = 3.81, nghĩa là trung bình cóc tăng trọng gấp 3.81 lần so với ếch. 79