Giáo trình Thống kê sinh học (Phần 1) - Bùi Tấn Anh
CHƯƠNG 1. GIỚI THIỆU VỀ THỐNG KÊ SINH HỌC
I. MỘT SỐ KHÁI NIỆM
1. Thống kê (Statistics)
Thuật ngữ này có thể được hiểu theo hai nghĩa:
Thứ nhất: thống kê là các số liệu được thu thập để phản ánh các hiện tượng
kinh tế - xã hội, tự nhiên, kỹ thuật.
Thứ hai: thống kê là hệ thống các phương pháp được sử dụng để mô tả các
hiện tượng kinh tế - xã hội, tự nhiên, kỹ thuật.
Nói một cách tổng quát thống kê là hệ thống các phương pháp dùng để thu
thập, xử lý và phân tích các con số (mặt lượng) của các hiện tượng để tìm hiểu bản
chất và tính qui luật vốn có của chúng (mặt chất) trong điều kiện thời gian và không
gian cụ thể.
Thống kê thường được chia thành hai lãnh vực:
- Thống kê mô tả (Descriptive Statistics): bao gồm các phương pháp thu thập
số liệu, mô tả và trình bày số liệu, tính toán các đặc trưng đo lường.
- Thống kê suy diễn (Inferential Statistics): bao gồm các phương pháp như
ước lượng, kiểm định, phân tích mối liên hệ, dự đoán... trên cơ sở các thông tin thu
thập từ mẫu.
2. Thống kê sinh học (Biometry)
Theo nghĩa hẹp, biometry bắt nguồn từ tiếng Hy Lạp bios = sự sống và metron
= đo đạc nên có người gọi đây là sinh trắc (biological measurement). Theo nghĩa
rộng thì thống kê sinh học là khoa học về sự ứng dụng các phương pháp thống kê để
giải quyết các vấn đề của sinh học vì vậy biometry cũng còn được gọi là biological
statistics hoặc đơn giản là biostatistics. Các phương pháp thống kê bao gồm các
bước (1) bố trí thí nghiệm, (2) thu thập dữ liệu, (3) trình bày và tóm tắt dữ liệu, (4)
từ các dữ liệu mẫu suy rộng ra tổng thể.
Trong giáo trình này chúng ta sẽ tập trung vào hai lãnh vực có liên quan mật
thiết với thống kê sinh học. Đó là bố trí thí nghiệm (experimental design) và phân
tích thống kê (statistical analysis).
I. MỘT SỐ KHÁI NIỆM
1. Thống kê (Statistics)
Thuật ngữ này có thể được hiểu theo hai nghĩa:
Thứ nhất: thống kê là các số liệu được thu thập để phản ánh các hiện tượng
kinh tế - xã hội, tự nhiên, kỹ thuật.
Thứ hai: thống kê là hệ thống các phương pháp được sử dụng để mô tả các
hiện tượng kinh tế - xã hội, tự nhiên, kỹ thuật.
Nói một cách tổng quát thống kê là hệ thống các phương pháp dùng để thu
thập, xử lý và phân tích các con số (mặt lượng) của các hiện tượng để tìm hiểu bản
chất và tính qui luật vốn có của chúng (mặt chất) trong điều kiện thời gian và không
gian cụ thể.
Thống kê thường được chia thành hai lãnh vực:
- Thống kê mô tả (Descriptive Statistics): bao gồm các phương pháp thu thập
số liệu, mô tả và trình bày số liệu, tính toán các đặc trưng đo lường.
- Thống kê suy diễn (Inferential Statistics): bao gồm các phương pháp như
ước lượng, kiểm định, phân tích mối liên hệ, dự đoán... trên cơ sở các thông tin thu
thập từ mẫu.
2. Thống kê sinh học (Biometry)
Theo nghĩa hẹp, biometry bắt nguồn từ tiếng Hy Lạp bios = sự sống và metron
= đo đạc nên có người gọi đây là sinh trắc (biological measurement). Theo nghĩa
rộng thì thống kê sinh học là khoa học về sự ứng dụng các phương pháp thống kê để
giải quyết các vấn đề của sinh học vì vậy biometry cũng còn được gọi là biological
statistics hoặc đơn giản là biostatistics. Các phương pháp thống kê bao gồm các
bước (1) bố trí thí nghiệm, (2) thu thập dữ liệu, (3) trình bày và tóm tắt dữ liệu, (4)
từ các dữ liệu mẫu suy rộng ra tổng thể.
Trong giáo trình này chúng ta sẽ tập trung vào hai lãnh vực có liên quan mật
thiết với thống kê sinh học. Đó là bố trí thí nghiệm (experimental design) và phân
tích thống kê (statistical analysis).
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Thống kê sinh học (Phần 1) - Bùi Tấn Anh", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
- giao_trinh_thong_ke_sinh_hoc_phan_1_bui_tan_anh.pdf
Nội dung text: Giáo trình Thống kê sinh học (Phần 1) - Bùi Tấn Anh
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 1426 0 70 1 1 19.04 1.25 150 764 1 63 2 2 28.731 0.9 122 5668 0 74 1 1 29.024 1.227 116 1653 1 63 1 1 28.399 1.1 105 1254 1 73 1 1 26.545 1.3 144 2312 0 78 2 1 22.503 2.682 104 2705 1 66 1 2 28.762 0.9 150 4181 0 44 2 2 26.37 1.148 124 3641 0 64 1 1 21.228 0.9 130 2439 1 49 1 1 15.204 1.307 140 3640 0 79 1 1 18.957 2.239 150 6646 0 61 1 1 27.718 1.659 128 787 0 58 2 2 27.369 0.909 100 5407 1 50 1 2 24.176 1 130 5001 1 70 1 1 19.044 1.2 110 4375 0 61 1 1 32.079 1.273 128 4326 0 65 1 1 29.34 1.2 170 Trong bảng 2.1, các dữ liệu gốc được nhập vào worksheet của chương trình thống kê Minitab (hoặc của Excel). Bảng gồm 8 cột ứng với 8 biến: ID: mã số của bệnh nhân Treatment group: nhóm nghiệm thức (lô thí nghiệm) 0 = placebo; 1 = digoxin (placebo là một chất vô hại được dùng như thuốc – trong trường hợp này 0 được xem là lô đối chứng; 1 là lô thí nghiệm). Age: tuổi được tính bằng năm Race: sắc tộc 1 = da trắng; 2 = da màu. Sex: giới tính 1 = nam; 2 = nữ BMI (Body Mass Index): chỉ số thể trọng = trọng lượng (kg)/chiều cao (m2) SCr (Serum Creatinine): Creatinine huyết thanh(mg/dL) SBP (Systolic Blood Pressure): Huyết áp tối đa (mmHg) 1. Bảng tần số một chiều (one-way frequency table) Trình bày kết quả quan sát từng mức độ của mỗi biến. Thí dụ bảng 2.2 trình bày giới tính của 40 bệnh nhân từ dữ liệu gốc đã được nhập trong bảng 2.1. Từ bảng 2.2 ta dễ dàng nhận thấy có ¾ bệnh nhân là nam giới. Bảng 2.2 Tần số giới tính của 40 bệnh nhân trong DIG40 Giới tính Số bệnh nhân Tỉ lệ % Nam 30 75.0 Nữ 10 25.0 Tổng 40 100.0 Các biến được dùng trong bảng tần số có thể là biến định tính hoặc biến định lượng. Khi trình bày biến liên tục, các giá trị của chúng thường được nhóm lại theo loại. Thí dụ tuổi thường được xếp loại thành nhóm 10 năm. Bảng 2.3 trình bày tần số của nhóm tuổi ở 40 bệnh nhân trong bảng 2.1. 8
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Bảng 2.3. Tần số độ tuổi của 40 bệnh nhân trong DIG40 Độ tuổi Số bệnh nhân Tỉ lệ % Dưới 40 3 7.5 40 – 49 6 15.0 50 – 59 8 20.0 60 – 69 11 27.5 70 – 79 12 30.0 Tổng 40 100.0 Có hơn phân nửa số bệnh nhân ở độ tuổi từ 60 trở lên. Cần lưu ý là tỉ lệ % có thể được làm tròn nhưng phải bảo đảm tổng là 100%. Đồng thời tiêu đề của bảng cũng phải cung cấp đủ thông tin cho người đọc hiểu được bảng. 2. Bảng tần số hai chiều (Two-way frequency table) Thường được sử dụng nhiều hơn vì chúng chỉ ra được mối liên hệ giữa các biến. Bảng 2.4 trình bày mối liên hệ giữa giới tính và chỉ số thể trọng (BMI), trong đó BMI đã được chia thành 4 nhóm: ốm (BMI < 18.5), bình thường (18.5 BMI < 25), mập (25 BMI < 30), và béo phì (BMI 30). Bảng 2.4. Chỉ số thể trọng (BMI) và giới tính của 40 bệnh nhân trong DIG40 BMI Giới tính Tổng Nam Nữ < 18.5 (ốm) 1 (3.3%) 0 (0.0%) 1 (2.5%) 18.5 – 24.9 (bình thường) 10 (33.3%) 2 (20.0%) 12 (30.0%) 25.0 – 29.9 (mập) 14 (46.7%) 6 (60.0% 20 (50.0%) 30.0 (béo phì) 5 (16.7%) 2 (20.0%) 7 (17.5%) Tổng 30 10 40 Có nhiều cách để trình bày dữ liệu dạng bảng biểu. Trong các bảng 2.2, 2.3, 2.4 chúng ta trình bày cả số lượng và tỉ lệ % Bảng 2.5 trình bày các đặc điểm của 200 bệnh nhân trong bộ dữ liệu gốc DIG200. Bảng 2.5 Các đặc điểm cơ bản của 200 bệnh nhân trong DIG200 Các đặc điểm Tỉ lệ % (n = 200) Giới tính Nam 73 Nữ 27 Sắc tộc Da trắng 86.5 Da màu 13.5 Tuổi Dưới 40 3.5 40 – 49 11.5 50 – 59 25 60 – 69 33 70 trở lên 26 Chỉ số thể trọng Ốm (<18.5) 1.5 Bình thường (18.5 – 24.9) 37.5 Mập (25 – 29.9) 42.5 Béo phì ( 30) 18.5 9
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Ngoài tần số, các dữ liệu khác cũng có thể trình bày dưới dạng bảng. Thí dụ bảng 2.6 trình bày chi phí y tế tính bằng % GDP của 3 nước Hoa Kỳ, Canada và Anh trong thời gian từ 1960 đến 2000. Bảng 2.6 Chi phí y tế (%GDP) trong giai đoạn từ 1960 đến 2000 Năm Canada UK USA 1960 5.4 3.9 5.1 1965 5.6 4.1 6.0 1970 7.0 4.5 7.0 1975 7.0 5.5 8.4 1980 7.1 5.6 8.8 1985 8.0 6.0 10.6 1990 9.0 6.0 12.0 1995 9.2 7.0 13.4 2000 9.2 7.3 13.3 II. MÔ TẢ & TRÌNH BÀY DỮ LIỆU BẰNG BIỂU ĐỒ Chương trình Minitab có thể được dùng để mô tả dữ liệu bằng nhiều dạng biểu đồ khác nhau, bao gồm: - Một chiều: histograms, boxplots, dotplots - Hai chiều: scatter plots, matrix plots - Ba chiều: contour plots, surface plots. Trong giáo trình này chúng ta làm quen với một số dạng biểu đồ thường được dùng để mô tả các dữ liệu và cách sử dụng chúng cho phù hợp tuỳ theo mục đích. 1. Pie chart (biểu đồ hình quạt = biểu đồ hình tròn): Thường được dùng để so sánh các giá trị dữ liệu dưới dạng tỉ lệ %. Dữ liệu của bảng 2.3 được trình bày dưới dạng biểu đồ Pie (Hình 2.1) 7.50% 30% 15% <40 40-49 50-59 60-69 70-79 20% 27.50% Hình 2.1 Biểu đồ Pie dạng 2D 10
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 2. Time Series Plot Thường dùng để biểu diễn sự thay đổi của các dữ liệu theo thời gian. Thí dụ: Theo dõi nồng độ của Hg trong 20 năm ở hai vị trí khác nhau của Địa Trung hải. Ở mỗi vị trí, 45 mẫu của loài P. oceanica được thu thập ở độ sâu 10m và mang về phòng thí nghiệm để xác định nồng độ Hg. Nồng độ Hg trung bình (ng/ g trọng lượng khô) của các mẫu ở mỗi vị trí được ghi nhận theo từng năm như trong bảng sau: Nồng độ thuỷ ngân Year Site 1 Site 2 Year Site 1 Site 2 1992 14.80 70.20 1982 21.50 147.80 1991 12.90 160.50 1981 18.20 197.70 1990 18.00 102.80 1980 25.80 262.10 1989 8.70 100.30 1979 11.00 123.30 1988 18.30 103.10 1978 16.50 363.90 1987 10.30 129.00 1977 28.10 329.40 1986 19.30 156.20 1976 50.50 542.60 1985 12.70 117.60 1975 60.10 369.90 1984 15.20 170.60 1974 96.70 705.10 1983 24.60 139.60 1973 100.40 462.00 Dùng dữ liệu trong bảng trên để xây dựng biểu đồ line bằng chương trình Minitab, kết quả như hình 2.2 Graph > Time Series Plot Multiple > OK Nhập các tùy chọn: Series: ‘Site 1’‘Site 2’ Time/Scale > Time Scale: Calendar Year Start Values: One set for each value Year 19 73 Data increment: 1 > OK Data view > Data display > symbol connect line Mặc nhiên khi đưa cả hai ‘site’ vào cùng một biểu đồ, Minitab sẽ chỉ dùng một giá trị để làm thang đo của trục Y. Trong trường hợp hai ‘site’ có giá trị khác biệt nhiều (chẳng hạn trong trường hợp trên là từ 8.7 – 100.4 ở ‘site 1’ và 70.2 – 462 ở ‘site 2’) thì sẽ rất khó để thấy được biến đổi nồng độ ở ‘site 1’. Trong trường hợp này việc thiết lập thêm một thang đo thứ hai cho trục Y là rất cần thiết. Hình 2.3 là kết quả sau khi thiết lập thêm thang đo thứ hai cho trục Y. Click chuột phải lên trục Y, chọn Edit Y scale (Ctrl + T) > Secondary OK 11
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 700 600 500 400 300 200 100 Nồng độ thủy ngân (ng/g trọng lượng khô) độ thủy (ng/g trọng ngân lượng Nồng 0 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991 Năm Hình 2.2. Time Series Plot của Site 1 và Site 2 với 1 trục Y 700 100 600 80 500 60 400 Site 2 Site 1 Site 300 40 200 20 100 0 0 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991 Năm Hình 2.3. Time Series Plot của Site 1 và Site 2 với 2 trục Y 3. Line Graph Thường dùng để so sánh dữ liệu của hai hoặc nhiều nhóm. Thí dụ: Dùng dữ liệu trong bảng 2.6 để xây dựng biểu đồ line bằng chương trình Minitab, kết quả như hình 2.4 12
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Graph > Line Plots >/With symbol > Series in Rows or Columns Graph vaiables: ‘Canada’ ‘UK’ ‘USA’ (C2-C4) Label column (optional): Year (C1) Series Arrangemnet: Each column forms a series Line Plot of Canada, UK, USA Variable 13 Canada UK 12 USA 11 10 9 8 % G D P D G % 7 6 5 4 1960 1965 1970 1975 1980 1985 1990 1995 2000 Year Hình 2.4 Biểu đồ Line 4. Bar Chart Để so sánh các giá trị của các chuỗi dữ liệu người ta có thể dùng các biểu đồ Bar Chart hoặc Area Graph. Thí dụ 1. Ở Mỹ, số người tham gia tổ chức bảo vệ sức khoẻ (HMOs = Health Maintenace Organization) là 9.1 triệu trong năm 1980, 33.0 triệu năm 1990 và 80.9 triệu năm 2000. Thông tin này được trình bày trong hình 2.5 bằng biểu đồ Bar. Graph > Bar Chart Bars Represent: Values from a Table Simple (two-way table) > OK Nhập các tùy chọn Graph variable: HMO Categorical variable: Year Labels > Data labels Use labels from column: HMO 13
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - 90 80.9 80 70 60 50 40 33.0 30 Số người tham gia (triệu) gia tham người Số 20 9.1 10 0 1980 1990 2000 Năm Hình 2.5 Biểu đồ Bar về số người tham gia HMOs theo năm Biểu đồ Bar có thể dùng trình bày các dữ liệu phức tạp hơn, chẳng hạn các dữ liệu trong các bảng 2 chiều hoặc 3 chiều. Thí dụ 2. Bảng 2.7 trình bày tỉ lệ người mắc bệnh tiểu đường theo 5 độ tuổi. Dữ liệu này được trình bày bằng biểu đồ Bar như trong hình 2.6. Bảng 2.7 Tỉ lệ người mắc bệnh tiểu đường theo 5 độ tuổi Độ tuổi Tỉ lệ % Bar Chart Bars Represent: Values from a Table One column of values > Simple > OK Nhập các tùy chọn Graph variable: % Diabetes Categorical variable: Age Scale > Axes and Ticks > Transpose value and category scales Labels > Data labels Use labels from column: % Diabetes 14
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 70; cột C3 là ba mức độ béo phì được mã hóa bằng a, b, c. 15
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Các dữ liệu trong bảng được trình bày dưới dạng biểu đồ segmented bar theo tần số (Hình 2.7) hoặc theo tỉ lệ % (Hình 2.8). Data > Code > Numeric to Text / Code data from column: C2 Age Store coded data in columns: C2 Original values: New: 1 70 OK Data > Code > Text to Text / Code data from column: C3 OW Store coded data in columns: C3 Original values: New: a Bình thường b Mập c Béo phì OK Graph > Bar Chart Bars Represent: Values from a Table One column of values > Stack > OK Nhập các tùy chọn Graph variable: Number Categorical variable: Age OW Trong trường hợp trình bày dạng biểu đồ segmented bar theo tỉ lệ % cần khai báo thêm các tùy chọn: Chart Option > Percent and Accumulate Show Y as Percent Take percent and/or Accumulate within categories at level 1 (outermost) 16
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - 70 Mứ c độ béo phì Bình thư ờng Mập 60 Béo phì 50 40 30 Số bệnh nhân Số bệnh 20 10 0 Dưới 50 50-59 60-69 70 trở lên Nhóm tuổi Hình 2.7. Biểu đồ Segmented Bar (theo tần số) Mứ c độ béo phì 100 Bình thư ờng Mập Béo phì 80 60 40 Số bệnh nhân Số bệnh 20 0 Dưới 50 50-59 60-69 70 trở lên Nhóm tuổi Hình 2.8 Biểu đồ Segmented Bar (theo tỉ lệ %) 5. Interval Plot Dùng để biểu diễn giá trị trung bình cùng với khoảng tin cậy hoặc sai số. Biểu đồ này vừa minh họa cho các số đo trung tâm, vừa cho thấy biến động của dữ liệu. 17
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Thí dụ: Nhằm khảo sát sự tăng trưởng của trùng Enchytraeid, người ta thu mẫu ở 3 địa điểm khác nhau và đem nuôi trong môi trường có nồng độ là 0, 200, 400, và 800 mg Zn/kg. Số đốt thân được đếm 2 ngày/lần trong một tháng. Kết quả được lưu trong worksheet Enchytraeid. MTW. Từ kết quả này, người ta ghi nhận được biểu đồ như trong hình 2.9. Graph > Interval Plot >/ Multiple Y’s > With Group Graph Variables: 0 200 400 800 (C2-C5) Categorical for grouping: site (C1) Data View > Data display Interval Bar OK Theo mặc nhiên, Minitab sẽ hiển thị interval ở dạng 95% confident interval. Ta có thể chọn hiển thị là error bar bằng cách: Ctrl + T > Option > Type of Interval: Standard error Absolute Growth Rate 0.4 site poll sm sw 0.3 0.2 No of Segment/Day No 0.1 0.0 0 200 400 800 Hình 2. 9. Interval Plot 6. Histogram Biểu đồ này tương tự biểu đồ Bar nhưng chỉ dùng cho các biến được phân lớp. Biểu đồ cung cấp cho chúng ta hình ảnh về sự phân bố của dữ liệu. Các giá trị của biến được nhóm thành từng lớp (còn gọi là bin) thường có độ rộng bằng nhau. Số biến trong mỗi lớp được chỉ bởi độ cao của cột. Trước khi thiết lập biểu đồ, các dữ liệu phải được sắp xếp lại trong bảng tần số 1 chiều. Các dữ liệu trong bảng 2.9 được dùng để thiết lập biểu đồ Histogram. 18
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Bảng 2.9 Tần số huyết áp tối đa (mmHg) của 199 bệnh nhân Giá Tần Giá Tần Giá Tần Giá Tần Giá Tần Giá Tần trị số trị số trị số trị số trị số trị số 85 1 105 1 116 8 128 3 138 1 150 12 90 5 106 2 118 5 130 23 139 2 152 3 95 2 108 2 120 25 131 1 140 26 155 1 96 1 110 16 122 4 132 2 142 1 160 3 100 14 112 1 124 4 134 1 144 3 162 1 102 1 114 5 125 3 135 2 145 1 165 1 104 2 115 2 126 1 136 1 148 1 170 5 Trước khi vẽ biểu đồ, ta phải trả lời được các câu hỏi sau: (1) Cần phải chia dữ liệu thành bao nhiêu lớp? (2) Độ rộng (khoảng) của mỗi lớp là bao nhiêu? Như vậy ta phải tính toán số lớp và độ rộng của mỗi lớp để xây dựng bảng phân bố tần số (bảng 2.10). (1) Số lượng khoảng có liên quan đến số lượng biến. Nói chung có thể chia thành từ 5 – 15 khoảng. Cở mẫu càng nhỏ thì số lượng khoảng càng ít. Một phương pháp được đề nghị bởi Sturges và Scott (1979) là dùng log2 n+1 để tính số khoảng (trong đó n là số lượng biến quan sát được). Trong bảng 2.9 có 199 biến, ta cần tìm giá trị của log2 199 + 1. Giá trị này là 8.64, có thể làm tròn là 9, nghĩa là có thể dùng 9 khoảng để xây dựng biểu đồ. (2) Tính độ rộng của mỗi lớp (class interval) = (Xmax – Xmin)/ (log2 n + 1) Vì (170 – 85)/8.64 = 85/8.64 = 9.84, làm tròn thành 10mmHg. Bảng 2.10 Phân bố tần số huyết áp tối đa của các dữ liệu trong bảng 2.9 Lớp Khoảng lớp Tần số Tần suất Tần suất lích luỹ Tần số tích luỹ (Bin) (Class Width) (Frequency) (Relative (Cumulative (Cumulative Frequency) Relative Frequency) Frequency) 1 85 – 95 6 3.02 3.02 6 2 95 -105 20 10.05 13.07 26 3 105 – 115 27 13.57 26.63 53 4 115 – 125 48 24.12 50.75 101 5 125 – 135 34 17.09 67.84 135 6 135 – 145 36 18.09 85.93 171 7 145 – 155 17 8.54 94.47 188 8 155 – 165 5 2.51 96.98 193 9 165 – 175 6 3.02 100.00 199 Tổng 199 100.00 Cần lưu ý là 85 – 95 bao gồm tất cả các giá trị từ 85 – 95 nhưng không bao gồm 95 nghĩa là 85 y <95. Hình 2.10 là biểu đồ histogram được vẻ bằng chương trình Minitab từ dữ liệu của bảng 2.10. 19
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Mở worksheet: DIG200.xls Graph > Histogram > Simple > OK Graph variables: C25 sysbp Labels > Data labels > Use y-value labels > OK Bấm chuột phải trên trục X của biểu đồ, chọn Edit X Scale (hoặc Ctrl+T) Scale > Scale Range: Minimum: 85 Maximum: 175 Binning > Interval Definition Number of intervals: 9 ếốđ 50 48 40 36 34 30 27 Tần số Tần 20 20 17 10 6 6 5 0 85 95 105 115 125 135 145 155 165 175 Huyết áp tối đa (mmHg) Hình 2.10 Biểu đồ histogram về huyết áp tối đa của 199 bệnh nhân Có thể dùng biểu đồ histogram để so sánh hai nhóm dữ liệu. Thí dụ dùng bộ dữ liệu DIG200 ta xây dựng hai biểu đồ histogram để so sánh sự phân bố huyết áp tối đa của hai nhóm tuổi dưới 60 và trên 60. Hình 2.11 trình bày hai biểu đồ của hai nhóm này. Cần lưu ý là ta sử dụng tần số tương đối (tần suất) thay vì tần số do dữ liệu của hai nhóm này khác nhau (cỡ mẫu khác nhau).: chỉ có 81 bệnh nhân dưới 60 tuổi trong khi có tới 118 bệnh nhân trên 60 tuổi. Worksheet: DIG200.xls Graph > Histogram > Simple > OK Graph variables: C25 sysbp Scale > Y-Scale Type > Density Labels > Data labels > Use y-value labels > OK Data option > Specify which rows to include > Row that match Condition age OK > OK 20
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Lặp lại tương tự với Condition Age > 60 Tuổi dưới 60 0.035 0.3333 0.030 0.025 0.020 0.1852 0.1481 0.015 0.1111 Tần số đối tương Tần 0.010 0.0864 0.0741 0.005 0.0247 0.0247 0.0123 0.000 85 95 105 115 125 135 145 155 165 175 Huyết áp tối đa (mmHg) Tuổi trên 60 0.020 0.1780 0.1864 0.1780 0.1695 0.015 0.010 0.0932 0.0932 Tần số tương đối số đối tương Tần 0.005 0.0339 0.0339 0.0339 0.000 85 95 105 115 125 135 145 155 165 175 Huyết áp tối đa (mmHg) Hình 2.11 Biểu đồ histogram về phân bố huyết áp tối đa theo nhóm tuổi 7. Stem-and-Leaf Plots Biểu đồ này tương tự histogram, chỉ khác ở chỗ chúng trình bày giá trị dữ liệu thay vì dùng các thanh (cột). Biểu đồ stem-and-leaf thường chỉ dùng cho các nhóm dữ liệu nhỏ. Thí dụ xây dựng biểu đồ huyết áp tối đa đo được của 40 bệnh nhân trong bộ dữ liệu DIG40, ta được kết quả như sau: 21
- BÙI TẤN ANH Simpo PDF Merge and Split Unregistered Version - Graph > Stem-and-Leaf Stat > EDA > Stem-and-Leaf 4 10 0045 9 11 05666 16 12 0002488 (8) 13 00000048 16 14 000000044 7 15 00002 2 16 2 17 00 Chương trình minitab hiển thị biểu đồ trong Session window. Nội dung hiển thị gồm 3 cột. Cột thứ nhất nằm bên trái hiển thị số đếm tích luỹ (Cumulative Count) phía trên và phía dưới của số trung vị (số trung vị được đặt trong ngoặc đơn). Cột thứ hai ở giữa là thân (stem) và cột thứ ba bên phải chứa các lá (leaves). Thí dụ trong hàng thứ nhất chúng ta thân là 10 và các lá là 0, 0, 4, và 5. Vì đơn vị của thân là 10 và của lá là 1 nên bốn số này sẽ là 100, 100, 104, và 105. Hàng thứ hai có thân là 11 và 5 lá là 0, 5, 6, 6, 6 nên các giá trị của nó là 110, 115, 116, 116, và 116. Lưu ý số đầu tiên trong hàng thứ hai là 9 chính là số đếm tích luỹ của hai hàng đầu (4 + 5). hàng thứ ba có 7 giá trị nên số đếm tích luỹ của hàng này là 16 (9 + 7). Số trung vị ở hàng thứ tư và giá trị của nó là 130. 8. Dotplot (biểu đồ điểm) Một dotplot trình bày sự phân bố của một biến liên tục. Hình 2.12 dưới đây là dotplot giúp chúng ta so sánh sự phân bố của biến liên tục là huyết áp tối đa qua một biến định tính là tuổi được chia thành hai nhóm: dưới 60 và trên 60 tuổi (DIG 40). Tương tự stem-and-leaf plot, dotplot được dùng cho các nhóm dữ liệu nhỏ. Worksheet DIG40.xls Data > Copy > Columns to Columns Copy from columns: C8 sbp Store Copied Data in Columns: In current worksheet, in columns C9 Subset the Data > Specify which rows to include > Row that match Condition age > 60 Data > Copy > Columns to Columns Copy from columns: C8 sbp Store Copied Data in Columns: In current worksheet, in columns C10 Subset the Data > Specify which rows to include > Row that match Condition age Dotplot > Multiple’s Y/Simple > OK Graph variables: C9 C10 22
- THỐNG KÊ SINH HỌC Simpo PDF Merge and Split Unregistered Version - Tuổi trên 60 Tuổi dưới 60 100 110 120 130 140 150 160 170 Huyết áp tối đa (mmHg) Hình 2.12 Dotplot về huyết áp tối đa theo nhóm tuổi 9. Scatterplots Scatterplot là biểu đồ hai chiều (two- dimension) được sử dụng rất phổ biến để trình bày mối quan hệ giữa hai nhóm dữ liệu thu được trong thí nghiệm. Đặc biệt chúng được dùng rất hiệu quả với các biến liên tục. Hình 2.13 là biểu đồ scatter dùng khảo sát tương quan giữa mức creatinine trong huyết thanh với huyết áp tối đa của 40 bệnh nhân (DIG40). Trong biểu đồ mỗi vòng tròn tượng trưng cho một giá trị creatinine huyết thanh và huyết áp tối đa của một bệnh nhân. Chẳng hạn, vòng tròn trên cùng phía tay trái của biểu đồ chỉ bệnh nhân thứ hai (ID = 2312) với creatinine huyết thanh là 2.682 mg/dL và huyết áp tối đa là 104 mmHg. Có nhiều khả năng là giá trị của cả hai biến đều giống nhau ở một số bệnh nhân. Khảo sát cẩn thận các dữ liệu trong bảng 2.1 (DIG40) cho thấy có 3 bệnh nhân (ID = 4787, 1954, 2439) đều có creatinine là 1.307 mg/dL và huyết áp tối đa là 140 mmHg. Chúng được biểu diễn bằng các vòng tròn chồng lên nhau thành một. 2.75 2.50 2.25 2.00 1.75 1.50 1.25 creatinine huyếtcreatinine thanh (mg/dL) 1.00 100 110 120 130 140 150 160 170 Huyết áp tối đa (mmHg) Hình 2.13 Scatter Plots Scatter Plots có hiệu quả nhất đối với cỡ mẫu nhỏ hoặc trung bình. Khi có nhiều biến như trong bộ dữ liệu DIG40, một ma trận (matrix) của scatter plot có thể được sử dụng (hình 2.14). Từ ma trận này ta có thể thấy được giữa tuổi và mức creatinine huyết thanh hơi có mối tương quan dương, giữa creatinine huyết thanh và chỉ số thể trọng hơi có mối tương quan âm, còn lại giữa các biến khác không thấy rõ mối tương quan. 23