Tổng quan các lỗi thống kê thường gặp trong giai đoạn thiết kế nghiên cứu và phân tích số liệu

Ứng dụng thống kê có ảnh hưởng lớn đến thiết kế nghiên cứu, phân tích và Báo cáo kết quả nghiên cứu, do đó có ảnh hưởng lớn đến giá trị khoa học của các công trình nghiên cứu đặc biệt khi các công trình này được công bố rộng rãi qua các Báo cáo hay bài báo. Các lỗi thống kê thường gặp trong giai đoạn thiết kế nghiên cứu thường liên quan đến số lượng đối tượng tham gia nghiên cứu như số lượng tham gia, số lượng bỏ cuộc, cách tính cỡ mẫu, cách chọn mẫu, cách chọn nhóm so sánh, nhóm đối chứng.

Trong giai đoạn phân tích số liệu các lỗi thống kê thường gặp là áp dụng phương pháp thống kê không phù hợp, chọn sai trắc nghiệm thống kê, áp dụng trắc nghiệm thống kê mà không quan tâm đến các giả định đi kèm. Nắm được các lỗi thống kê có thể gặp trong từng giai đoạn nghiên cứu sẽ giúp các nhà nghiên cứu tránh được các sai sót về thống kê từ đó nâng cao chất lượng của các nghiên cứu y học

pdf 10 trang Bích Huyền 02/04/2025 140
Bạn đang xem tài liệu "Tổng quan các lỗi thống kê thường gặp trong giai đoạn thiết kế nghiên cứu và phân tích số liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdftong_quan_cac_loi_thong_ke_thuong_gap_trong_giai_doan_thiet.pdf

Nội dung text: Tổng quan các lỗi thống kê thường gặp trong giai đoạn thiết kế nghiên cứu và phân tích số liệu

  1. TẠP CHÍ NGHIÊN CỨU Y HỌC TỔNG QUAN CÁC LỖI THỐNG KÊ THƯỜNG GẶP TRONG GIAI ĐOẠN THIẾT KẾ NGHIÊN CỨU VÀ PHÂN TÍCH SỐ LIỆU Hoàng Thị Hải Vân Viện Đào tạo Y học dự phòng và Y tế công cộng, Trường Đại học Y Hà Nội Ứng dụng thống kê có ảnh hưởng lớn đến thiết kế nghiên cứu, phân tích và báo cáo kết quả nghiên cứu, do đó có ảnh hưởng lớn đến giá trị khoa học của các công trình nghiên cứu đặc biệt khi các công trình này được công bố rộng rãi qua các báo cáo hay bài báo. Các lỗi thống kê thường gặp trong giai đoạn thiết kế nghiên cứu thường liên quan đến số lượng đối tượng tham gia nghiên cứu như số lượng tham gia, số lượng bỏ cuộc, cách tính cỡ mẫu, cách chọn mẫu, cách chọn nhóm so sánh, nhóm đối chứng. Trong giai đoạn phân tích số liệu các lỗi thống kê thường gặp là áp dụng phương pháp thống kê không phù hợp, chọn sai trắc nghiệm thống kê, áp dụng trắc nghiệm thống kê mà không quan tâm đến các giả định đi kèm. Nắm được các lỗi thống kê có thể gặp trong từng giai đoạn nghiên cứu sẽ giúp các nhà nghiên cứu tránh được các sai sót về thống kê từ đó nâng cao chất lượng của các nghiên cứu y học. Từ khóa: lỗi thống kê, nghiên cứu khoa học, thiết kế nghiên cứu, phân tích số liệu I. ĐẶT VẤN ĐỀ Thống kê đóng một vai trò quan trọng trong nghiên cứu, phân tích và báo cáo kết quả thì tất cả các giai đoạn của một nghiên cứu từ lúc có thể dẫn tới những phiên giải và suy luận lập kế hoạch cho đến khi kết thúc nghiên cứu không đúng, ảnh hưởng nghiêm trọng đến nhằm đạt được những kết quả khoa học quan việc ứng dụng các kết quả nghiên cứu này [1 - trọng [1]. Các kết quả này đến được với công 4]. Điều này càng trở nên quan trọng hơn khi chúng thông qua các bài báo khoa học được trong giai đoạn hiện nay, giai đoạn phát triển đăng tải trên các tạp chí khoa học trong nước mạnh mẽ của y học dựa vào bằng chứng, khi và quốc tế trong đó có các nghiên cứu y học. mà các bác sỹ lâm sàng luôn trông chờ những Đặc biệt các ứng dụng thống kê trong nghiên bằng chứng tốt nhất đưa ra những quyết định cứu y học đặc biệt trong các nghiên cứu định đúng đắn và hiệu quả trong thực hành chăm lượng, nghiên cứu dịch tễ học cho phép suy sóc sức khỏe [5]. Chính vì vậy, ngày càng có luận kết quả nghiên cứu từ mẫu nghiên cứu ra sự quan tâm lớn đến chất lượng thống kê quần thể, góp phần cải thiện các vấn đề sức trong các nghiên cứu y học. Hiện nay thống kê khỏe gồm thực hành lâm sàng cũng như các ngày được chấp nhận và sử dụng rộng rãi vấn đề sức khỏe của cộng đồng. Do đó, nếu như một công cụ đắc lực của các nghiên cứu các nghiên cứu y học áp dụng không đúng khoa học và xuất hiện ngày càng nhiều trong các phương pháp thống kê trong tiếp cận, các bài báo đăng tải trên các tạp chí y học [5 - 8]. Tuy nhiên các lỗi khi áp dụng các phương pháp thống kê vẫn còn phổ biến và là một vấn Địa chỉ liên hệ: Hoàng Thị Hải Vân, Viện Đào tạo Y học đề đáng quan tâm bất chấp những sáng kiến dự phòng và Y tế công cộng, Trường Đại học Y Hà Nội và nỗ lực được thực hiện trong quá trình phản Email: hoanghaivan@hmu.edu.vn Ngày nhận: 3/1/2018 biện và xét duyệt bản thảo các bài báo [9]. Ngày được chấp thuận: 5/6/2018 Nghiêm trọng hơn, việc áp dụng các phương 110 TCNCYH 112 (3) - 2018
  2. TẠP CHÍ NGHIÊN CỨU Y HỌC pháp thống kê không phù hợp dẫn đến những III. KẾT QUẢ kết luận sai lầm, các kết quả nghiên cứu 1. Các lỗi thống kê có thể gặp trong giai không chính xác và phí phạm nguồn lực, thậm đoạn thiết kế nghiên cứu chí các nhà khoa học còn quy rằng đó là vi phạm đạo đức nghiên cứu và có thể dẫn đến Thiết kế nghiên cứu là giai đoạn sớm nhất những hậu quả nghiêm trọng trong lâm sàng và vô cùng quan trọng vì đây chính là bước [4; 10]. quyết định xem nghiên cứu có đi đúng hướng hay không. Có thể nói không quá rằng “thiết Nhằm giúp các giảng viên môn học thống kế nghiên cứu chính là xương sống của một kê và các nhà nghiên cứu có thể nâng cao nghiên cứu tốt” 11 bởi chính thiết kế nghiên cứu chất lượng giảng dạy và các nghiên cứu của định hướng từ đối tượng nghiên cứu, tiêu mình, tránh được những sai lầm về thống kê chuẩn chọn mẫu, kỹ thuật thu thập thông tin, phổ biến trong các nghiên cứu y học, chúng các phân tích thống kê sẽ được sử dụng trong tôi tiến hành nghiên cứu này này nhằm mục nghiên cứu đến phiên giải kết quả. Các nội tiêu: mô tả các lỗi thống kê thường gặp trong dung này được thể hiện trong phần đối tượng các nghiên cứu y học trong giai đoạn thiết kế và phương pháp nghiên cứu của một nghiên và phân tích số liệu. cứu. Một khi nội dung của phần đối tượng và phương pháp nghiên cứu được làm rõ cũng II. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP sẽ giúp cho người đọc dễ dàng hơn trong việc - Thiết kế nghiên cứu: Tổng quan mô tả tiếp nhận các thông tin được cung cấp từ nghiên cứu. Những thiếu sót, sai lầm trong - Phương pháp thu thập thông tin và tổng giai đoạn này sẽ có ảnh hưởng không nhỏ hợp kết quả: đến tính giá trị, độ tin cậy của nghiên cứu Chúng tôi trích xuất dữ liệu từ các bài báo cũng như ảnh hưởng đến các giai đoạn sau được đăng tải trên các tạp chí có phản biện. trong quá trình tiến hành nghiên cứu [4]. Để xác định các ấn phẩm, chúng tôi đã sử Để có thể trả lời cho câu hỏi nghiên cứu dụng tìm kiếm PubMed trên cơ sở: 1) vị trí hay kiểm định được giả thuyết nghiên cứu đã trong tiêu đề và tóm tắt và trong bất kỳ trường được đặt ra nhà nghiên cứu cần lựa chọn cho nào cho 2) chủ đề thống kê (statistical use, nghiên cứu của mình một thiết kế nghiên cứu statistical errors, statistical bias), 3) lĩnh vực phù hợp. Một số nhà nghiên cứu không có đủ nghiên cứu (medical research) và 4) chất kiến thức về thiết kế nghiên cứu dẫn đến việc lượng nghiên cứu (quality of mdical resaerch). lựa chọn thiết kế nghiên cứu không phù hợp Dựa trên các tiêu đề kiểm tra 116 bài báo đủ và hậu quả là kết quả nghiên cứu sẽ thiếu điều kiện đưa vào nghiên cứu, chúng tôi thu chính xác [1]. Mỗi một loại thiết kế nghiên cứu hẹp tới 20 ấn phẩm liên quan tập trung vào có những ưu nhược điểm khác nhau và phù các lỗi thống kê ở giai đoạn thiết kế và phân hợp với các câu hỏi nghiên cứu khác nhau. Ví tích số liệu. Từ đó chúng tôi tổng hợp kết quả dụ: nghiên cứu thử nghiệm lâm sàng ngẫu từ 20 bài báo đăng tải kết quả nghiên cứu về nhiên có đối chứng là loại thiết kế nghiên cứu các lỗi thống kê thường gặp trong nghiên cứu đưa ra bằng chứng cao nhất, có giá trị nhất y học đăng tải trên các tạp chí có phản biện trong các nghiên cứu y học nhưng lại đắt tiền quốc tế đã được lựa chọn ở trên. và cần nhiều thời gian hơn so với các nghiên TCNCYH 112 (3) - 2018 111
  3. TẠP CHÍ NGHIÊN CỨU Y HỌC cứu quan sát. Nghiên cứu thuần tập đòi hỏi bao gồm cỡ mẫu, kỹ thuật chọn mẫu, tiêu thời gian dài và dày công theo dõi đối tượng chuẩn chọn mẫu nghiên cứu. Nghiên cứu mô tả cắt ngang tiến - Kỹ thuật chọn mẫu : Mỗi một kỹ thuật hành nhanh và ít tốn kém nhưng chỉ cung cấp chọn mẫu được áp dụng đều hướng tới việc một bức ảnh chụp nhanh về vấn đề nghiên suy luận ra các tham số quần thể với sai số cứu, đưa ra giả thuyết về mối quan hệ nhân nhỏ nhất. Trong một nghiên cứu có thể áp quả giữa yếu tố nguy cơ và vấn đề sức khỏe dụng một hoặc nhiều kỹ thuật chọn mẫu, điều mà chưa có sự kiểm chứng Chính vì vậy này liên quan đến đối tượng nghiên cứu, đặc thiết kế nghiên cứu không chỉ dựa vào kiến điểm quần thể nghiên cứu, thời gian tiến hành thức của nhà nghiên cứu mà còn phụ thuộc nghiên cứu, nguồn lực tài chính của nghiên vào nguồn lực, thời gian cho phép. Những cứu [1]. Như một cách vô thức, trong rất nhiều thiết kế nghiên cứu không phù hợp sẽ dẫn nghiên cứu kỹ thuật chọn mẫu đều được trình đến không giải quyết được câu hỏi nghiên bày là kỹ thuật chọn mẫu ngẫu nhiên đơn mặc cứu, lãng phí thời gian và nguồn lực mà dù trên thực tế việc chọn mẫu đã được tiến không đem lại kết quả như mong muốn, bên hành không đảm bảo ngẫu nhiên đơn. Hậu cạnh đó, thiết kế nghiên cứu còn có ảnh quả là các nghiên cứu đi sau tham khảo cách hưởng đến việc tính toán cỡ mẫu và lựa chọn chọn cỡ mẫu của nghiên cứu trước cũng sẽ các phân tích thống kê. sai lầm, nghiêm trọng hơn là áp dụng kỹ thuật Liên quan đến đối tượng nghiên cứu, đôi chọn mẫu không phù hợp dẫn đến việc phiên khi các nhà nghiên cứu chỉ chú trọng mô tả giải sai các phát hiện trong nghiên cứu do đối tượng nghiên cứu của mình mà quên mất mẫu nghiên cứu không phù hợp, không đại quần thể mà từ đó mình lựa chọn ra đối tượng diện và có nhiều sai số [12]. Trong một nghiên nghiên cứu. Thời gian, địa điểm, đặc điểm cứu của tác giả Williamson được thực hiện quần thể nghiên cứu cần thiết phải được mô trên các bài báo đăng tải trên tạp chí Journal tả, đây chính là cơ sở hình thành khung chọn Advanced Nursing, ông phát hiện tới 68% mẫu cho nghiên cứu. Việc mô tả chi tiết quần nghiên cứu áp dụng chọn mẫu thuận tiện thể nghiên cứu còn giúp cho việc xác định các nhưng lại báo cáo là chọn mẫu ngẫu nhiên biến số sẽ sử dụng trong quá trình thu thập và [12]. xử lý, phân tích số liệu. Trong trường hợp - Tiêu chuẩn chọn mẫu : tiêu chuẩn chọn định nghĩa quần thể nghiên cứu không rõ mẫu là không thể thiếu trong phương pháp ràng, các nhà nghiên cứu thường gặp phải nghiên cứu đặc biệt quan trọng trong các vấn đề khi lựa chọn đơn vị mẫu và làm tăng nghiên cứu thử nghiệm lâm sàng vì đây chính sự không đồng nhất trong chọn mẫu [1]. là các tiêu chí để nghiên cứu viên đưa các cá Một nội dung gần như quan trọng nhất, thể trong quần thể nghiên cứu vào mẫu. Để có được các nhà khoa học quan tâm nhất khi một mẫu nghiên cứu đại diện cho quần thể xem xét một nghiên cứu đó là mẫu nghiên cứu nghiên cứu việc xác định đối tượng nghiên bởi một mẫu nghiên cứu đủ lớn, đại diện mới cứu là bước tiếp theo cần được chú trọng sau đảm bảo tính khoa học cho một nghiên cứu. khi đã quyết định kỹ thuật chọn mẫu. Do đó Các nội dung liên quan đến mẫu nghiên cứu các tiêu chuẩn lựa chọn đối tượng nghiên cứu 112 TCNCYH 112 (3) - 2018
  4. TẠP CHÍ NGHIÊN CỨU Y HỌC cần phải được xác định một cách rõ ràng. 1 độ chính xác hợp lý để đảm bảo cỡ mẫu đủ Điều này rất quan trọng trong các nghiên cứu lớn mới có thể phát hiện được vấn đề. Cỡ có sự tham gia của nhiều nghiên cứu viên, mẫu nhỏ hơn cỡ mẫu cần thiết sẽ không đủ nếu tiêu chuẩn chọn mẫu không rõ ràng có thể mạnh để đưa ra các kết luận thống kê. Cỡ dẫn đến sai số do các nghiên cứu viên không mẫu lớn hơn cỡ mẫu cần thiết lại đòi hỏi nhiều thống nhất trong việc lựa chọn đối tượng nguồn lực hơn. Tuy nhiên, một cỡ mẫu hợp lý nghiên cứu. Đặc biệt khi các nghiên cứu viên cần được kiểm chứng bằng các nghiên cứu này không có đủ kiến thức về giai đoạn thu đã làm trước đó với một độ sai số và mức ý thập số liệu trong nghiên cứu. Do đó một khi nghĩa phù hợp [1]. Theo tác giả Nyirongo và các tiêu chuẩn lựa chọn đối tượng nghiên cứu cộng sự, một số điểm cần lưu ý khi tính toán không được thông báo rõ ràng trong quá trình cỡ mẫu bao gồm: kỹ thuật chọn mẫu; độ biến chọn mẫu thì sai số xảy ra là điều khó tránh thiên trong quần thể; độ chính xác cần thiết để khỏi. Tuy nhiên trên thực tế trong các nghiên có thể phát hiện sự khác biệt; và các mô hình cứu, việc báo cáo các tiêu chuẩn chọn đối thống kê, các kiểm định thống kê sẽ được áp tượng nghiên cứu thường không được báo dụng trong phân tích số liệu [3]. cáo một cách thỏa đáng [13]. Vấn đề lựa chọn Trong các nghiên cứu thuần tập cần lưu ý ngẫu nhiên hay làm mù trong các nghiên cứu các trường hợp bỏ cuộc, hoặc mất dấu không không đúng nguyên tắc hoặc không được mô thể theo dõi được. Đặc biệt với các quần thể tả một cách cụ thể, rõ ràng. Một nghiên cứu hay di chuyển như các đối tượng di cư, đối được tiến hành trên các bài báo đăng tải trên tượng lao động tự do Khi số lượng đối các tạp chí y học của Trung Quốc từ năm tượng bỏ cuộc hoặc không thể theo dõi của 1998 đến năm 2008 cho thấy mặc dù có rất một nghiên cứu lớn sẽ có ảnh hưởng lớn đến nhiều tiến bộ, các lỗi về thống kê đã giảm một cỡ mẫu nghiên cứu thu được, giảm độ mạnh cách rõ rệt từ 50,9% xuống còn 42,4% có ý của các giả thuyết nghiên cứu được kiểm định nghĩa thống kê nhưng phần lớn các nghiên trong nghiên cứu, giảm độ chính xác của cứu vẫn không mô tả quá trình lựa chọn ngẫu nghiên cứu. Do đó, khi tính cỡ mẫu cần cân nhiên và làm mù đã được tiến hành như thế nhắc đến tỷ lệ bỏ cuộc hoặc không thể theo nào [14]. dõi, khi đó số lượng mẫu nghiên cứu được - Tính cỡ mẫu : Liên quan đến tính cỡ mẫu tính ra sẽ lớn hơn số mẫu cần thiết. một cách khoa học có hai vấn đề cần đặt ra là - Vấn đề chọn mẫu ngẫu nhiên : Có thể cỡ mẫu đại diện và cỡ mẫu đủ lớn. Cả hai yếu nói các nghiên cứu thử nghiệm lâm sàng ngẫu tố này cần phải tính đến trong quá trình thiết nhiên có đối chứng chiếm tỷ lệ nhỏ trong các kế nghiên cứu bao gồm phương pháp lựa thiết kế nghiên cứu y học nhưng thường lại chọn đối tượng nghiên cứu và cách tính toán yếu nhất trong khâu thiết kế nghiên cứu đặc cỡ mẫu. Lựa chọn đối tượng nghiên cứu biệt phổ biến là trong tính cỡ mẫu, sử dụng ngoài việc đảm bảo đại diện cần phải tính đến lực mẫu trong tính toán cỡ mẫu và chọn ngẫu các trường hợp bỏ cuộc hoặc không theo dõi nhiên [14]. Trong các nghiên cứu thử nghiệm được trong các nghiên cứu thuần tập, theo dõi lâm sàng, mục tiêu chính thường là so sánh dọc. Đối với tính cỡ mẫu cần phải ước lượng tác dụng của các phương pháp điều trị khác TCNCYH 112 (3) - 2018 113
  5. TẠP CHÍ NGHIÊN CỨU Y HỌC nhau. Ngoài phương pháp điều trị, các nhóm - Vấn đề chọn nhóm chứng: Một khi thiết có các đặc điểm khác nhau sẽ dẫn đến sai số kế nghiên cứu có lựa chọn nhóm chứng, sự trong quá trình chẩn đoán do bị ảnh hưởng tương đồng cần thiết và khả năng có thể so bởi các yếu tố khác nhau đó. Do đó điểm sánh được giữa các nhóm cần phải được quan trọng là các nhóm được chọn phải chứng minh ở giai đoạn chuẩn bị để đảm bảo tương đồng hết mức có thể về các đặc điểm rằng các nhóm được lựa chọn tham gia giúp cho việc kiểm soát được các yếu tố nghiên cứu một cách vô tư, không thiên vị, nhiễu. Kỹ thuật chọn mẫu ngẫu nhiên là một hoàn toàn ngẫu nhiên và có thể so sánh do trong những công cụ thống kê đảm bảo sự đảm bảo các yếu tố tương đồng [15]. tương đồng giữa các nhóm điều trị. Nếu việc Có thể liệt kê các lỗi có thể gặp phải trong chọn mẫu được đảm bảo tính ngẫu nhiên thì giai đoạn thiết kế nghiên cứu bằng bảng dưới sự mất cân bằng giữa hai nhóm nếu có xảy ra đây [4]: chỉ là do may rủi [3]. Bảng 1. Các lỗi thống kê thường gặp trong giai đoạn thiết kế nghiên cứu Các lỗi thống kê thường gặp Sai sót trong báo cáo số lượng đối tượng tham gia nghiên cứu hoặc đối tượng được 1 quan sát (cỡ mẫu) Sai sót trong báo cáo các trường hợp từ chối hoặc bỏ tham gia nghiên cứu 2 Tính cỡ mẫu không có phương pháp, ước lượng cỡ mẫu không phù hợp Sai sót trong áp dụng cũng như báo cáo về phương pháp lựa chọn ngẫu nhiên 3 Phương pháp lựa chọn ngẫu nhiên không được đề cập rõ ràng 4 Sai sót trong áp dụng và báo cáo kỹ thuật làm mù Sai sót trong báo cáo sự tương đồng về các đặc điểm ban đầu của các nhóm so sánh 5 Sử dụng nhóm chứng không phù hợp Một nội dung rất liên quan đến thống kê cần được mô tả trong nội dung đối tượng và phương pháp nghiên cứu đó là tóm tắt các phương pháp thống kê sẽ áp dụng để phân tích số liệu trong nghiên cứu. Theo Strasak và cộng sự việc mô tả một cách rõ ràng, chính xác và đủ thông tin cụ thể là rất cần thiết trong hoạt động khoa học vì nó giúp cho những người đọc có kiến thức có thể tiếp cận với số liệu của nghiên cứu, có thể tính toán lại tất cả các kết quả [4]. Do đó, tất cả các kỹ thuật và phương pháp thống kê áp dụng phải được đề cập và làm rõ trong tất cả các bài báo nghiên cứu y học. Với các phương pháp vẫn được sử dụng phổ biến thông thường không cần thiết phải giải thích cụ thể nhưng với các phương pháp mới, các ứng dụng mới và lý do áp dụng cần được tóm tắt hoặc trích dẫn tham khảo [8]. Nếu sử dụng nhiều hơn một test cần làm rõ test nào áp dụng cho biến nào [16]. Với các test thống kê có các phiên bản cho so sánh ghép cặp và không ghép cặp cần phải làm rõ áp dụng test nào và một phía hay hai phía [4]. 114 TCNCYH 112 (3) - 2018
  6. TẠP CHÍ NGHIÊN CỨU Y HỌC Bảng 2. Một số sai lầm thường gặp trong mô tả các phép thống kê trong phần thiết kế nghiên cứu Các lỗi thống kê tthường gặp Sai sót trong việc làm rõ test áp dụng 1 Sai sót trong việc đề cập đến kiểm định một phía hay hai phía Sai sót trong việc làm rõ ghép cặp hay không ghép cặp 2 Đưa sai tên test 3 Thiếu sót trong việc làm rõ test nào cho biến số nào trong trường hợp sử dụng nhiều 2. Các lỗi thống kê thường gặp trong khảo tư vấn của các nhà thống kê và thường giai đoạn phân tích số liệu áp dụng phương pháp phân tích số liệu của Thống kê trong các nghiên cứu ngày càng các nghiên cứu trước tương tự như nghiên được sử dụng rộng rãi và phong phú. Ví dụ từ cứu của mình từ phương pháp cho đến các năm 1978 đến năm 1987, các bài báo đăng tải test thống kê dẫn đến những sai lầm trong trên tạp chí Korean Family Medicine Journals phân tích số liệu [18]. chỉ có 34,4% có áp dụng thống kê và chỉ áp - Khi tiến hành các phân tích thống kê và dụng thống kê mô tả đơn thuần thì từ năm áp dụng các test thống kê hay kỹ thuật ước 1988 đến năm 2011, bảng chéo và test t đã lượng, cần phải luôn nhớ rằng mỗi phương xuất hiện thường xuyên với tỷ lệ là 25% trên pháp đều được tiến hành dựa trên những giả tạp chí này [17]. Hay một nghiên cứu trên các định nhất định cần phải thỏa mãn để đảm bảo tạp chí y học của Trung Quốc cho thấy tỷ lệ thu được kết quả chính xác và có ý nghĩa [4]. các bài báo có áp dụng thống kê tăng từ Tuy nhiên thậm chí khi áp dụng các test đơn 68,3% năm 1998 lên 78,1% năm 2008 [14]. giản và cơ bản như test t, test khi bình Đặc biệt các kỹ thuật thống kê áp dụng trong phương trong các nghiên cứu y học cũng gặp các nghiên cứu ngày càng nhiều và ngày sai sót do các nhà nghiên cứu không tiến càng phức tạp theo thời gian [18]. Tuy nhiên, có một thực tế là mặc dù đã có rất nhiều hành đánh giá các giả định trước khi ứng nghiên cứu đề cập đến các lỗi thống kê dụng [16]. Không những thế test t và test khi thường gặp trong các nghiên cứu y học từ rất bình phương còn có nhiều dạng khác nhau nhiều thập kỷ nay, bên cạnh đó là sự ra đời như test t độc lập, test t ghép cặp Hay trong của nhiều tài liệu hướng dẫn nhưng các lỗi áp dụng test khi bình phương nếu giá trị mong thống kê vẫn là một vấn đề đối với các nghiên đợi trong một ô của bảng 2 x 2 nhỏ hơn 5 thì cứu y học. Thống kê trên các tạp chí y học phải chọn test Yates hiệu chỉnh hoặc Fisher’s của Trung quốc năm 2008 cho thấy có tới exact test (test này được khuyến cáo áp dụng 52,5% các bài báo có lỗi về thống kê [14]. hơn) để thu được kết quả tin cậy. Một khi các Một thiếu sót phổ biến nhất ở giai đoạn này giả định để áp dụng test không được đáp ứng là các nhà nghiên cứu thường không tham mà vẫn áp dụng test đó sẽ dẫn đến kết quả TCNCYH 112 (3) - 2018 115
  7. TẠP CHÍ NGHIÊN CỨU Y HỌC phân tích không chính xác [19]. Do đó, cần đường thẳng và gần với giá trị 0 thì mối quan phải trình bày cả tên test, số liệu có phù hợp hệ là tuyến tính. Kiểm định giả định này là rất với các giả định hay không khi trình bày kết quan trọng vì nếu chỉ nhìn vào biểu đồ có thể quả phân tích. Ví dụ: “Số liệu có phân bố dẫn đến sai lệch. tương đối chuẩn nên không vi phạm các giả - Sai lầm trong việc phân tích số liệu bị mất định của test t”. Theo tác giả Tom Lang có hai (các giá trị missing): các nhà nghiên cứu lỗi phổ biến khi áp dụng test thống kê [20]. thường không đề cập đến số liệu bị mất trong Thứ nhất là các nhà nghiên cứu sử dụng test cỡ mẫu của họ hoặc không mô tả rõ ràng tham số khi bộ số liệu phân bố không chuẩn, phạm vi hay quy mô số liệu bị mất. Điều này trong trường hợp này thay vì sử dụng test phi rất quan trọng vì với các nghiên cứu có tỷ lệ tham số Wilcoxon rank sum test, nhiều tác giả phản hồi thấp sẽ dẫn tới chất lượng số liệu, áp dụng test t student. Thứ hai là các nhà kết quả và bàn luận không chính xác. Ngoài ra nghiên cứu áp dụng test cho các nhóm độc trong các nghiên cứu theo dõi dọc, tỷ lệ bỏ lập khi so sánh giữa các nhóm ghép cặp, thay cuộc giữa các nhóm có thể ảnh hưởng đến vì sử dụng test t ghép cặp các tác giả lại sử kết quả đầu ra. Có một thực tế là nếu có đề dụng test t student. Ngoài ra có tác giả lại áp cập các tác giả cũng không mô tả rõ nguyên dụng nhiều t test cho so sánh nhiều nhóm, nhân gốc rễ của việc mất số liệu và việc mất không sử dụng hoặc sử dụng sai test ANOVA số liệu đó có ý nghĩa như thế nào đối với các trong so sánh nhiều nhóm. Tỷ lệ các bài báo biến số. Việc số liệu bị mất đặt ra một số vấn gặp phải các sai sót này là 44,4% các bài báo đề [14]: đăng tải trên các tạp chí y học của Trung quốc + Bản chất của số liệu bị mất. Liệu có phải [14]. các giá trị quá lớn không được đưa vào phân - Trong áp dụng phương pháp phân tích tích? Hay số liệu bị loại bỏ do không có lợi cho hồi quy tuyến tính nhiều tác giả áp dụng luôn giả thuyết nghiên cứu? mà không kiểm tra xem có mối liên quan tuyến + Với số liệu được báo cáo thì có thể khải tính trước hay không. Như đã đề cập ở trên, quát hóa được hay không? Liệu tỷ lệ bỏ cuộc mọi phương pháp thống kê cần phải đáp ứng có thực sự thấp như báo cáo hay không? các giả định trước khi áp dụng. Điều này không chỉ quan trọng khi áp dụng các test + Chất lượng của mẫu nghiên cứu thu thống kê, đối với phân tích hồi quy tuyến tính được được trình bày trong báo cáo có gì khác cũng rất cần thiết bởi phân tích hồi quy tuyến so với thực tế hay không? tính chỉ có thể áp dụng khi biến phụ thuộc và Một trong những cách được khuyến cáo áp biến độc lập có quan hệ tuyến tính với nhau. dụng trong các nghiên cứu lâm sàng để trình Nếu giả định này không được đáp ứng, kết bày về quá trình lấy mẫu từ lúc tính toán, chọn quả phân tích sẽ không đúng [20]. Giả định về mẫu, cả quá trình theo dõi đến khi báo cáo là mối quan hệ tuyến tính này có thể kiểm tra sơ đồ tiến trình hay tóm tắt một cách có hệ bằng cách vẽ biểu đồ phần dư: biểu diễn sự thống sự tham gia của đối tượng nghiên cứu khác biệt giữa các giá trị quan sát với đường trong tất cả các giai đoạn của nghiên cứu thẳng tuyến tính. Nếu đường biểu diễn là được khuyến cáo trong Tuyên bố CONSORT 116 TCNCYH 112 (3) - 2018
  8. TẠP CHÍ NGHIÊN CỨU Y HỌC (hướng dẫn báo cáo các nghiên cứu thử bình thường, quá cân để phù hợp với mục nghiệm lâm sàng) [13]. tiêu phân tích của nghiên cứu. Tuy nhiên tác - Một lỗi hay gặp là các nhà nghiên cứu giả cần phải giải thích lý do và đưa ra các thường chuyển dạng biến từ biến định lượng điểm cắt, giới hạn mà tác giả đã sử dụng để sang biến định tính mà không có sự giải thích chuyển dạng biến để tránh sai số [20]. tại sao và như thế nào [20]. Ví dụ biến đo cân - Lập bảng chéo sai cũng gặp trong nhiều nặng được tính bằng đơn vị kg được chuyển bài báo được đăng tải. Lỗi này gặp ở 32,3% thành biến định tính với các giá trị nhẹ cân, các bài báo đăng tải trên các tạp chí y học của Trung Quốc [15]. Bảng 3. Một số lỗi thống kê thường gặp trong phân tích số liệu Các lỗi thống kê thường gặp Sử dụng sai test thống kê: - Không đề cập đến test thống kê mà chỉ đưa ra kết luận có khác biệt có ý nghĩa thống kê hay không 1 - Sử dụng test thống kê không ghép cặp cho số liệu ghép cặp hoặc ngược lại - Sử dụng test tham số không phù hợp (số liệu phân bố không chuẩn) - Sử dụng test thống kê không phù hợp để kiểm định giả thuyết Các lỗi thường gặp khi áp dụng test t-student: - Thiếu sót trong việc kiểm tra các giả định - Cỡ mẫu không tương đương giữa hai nhóm trong test t ghép cặp 2 - So sánh nhiều cặp không thích hợp trong trường hợp có nhiều hơn hai nhóm - Áp dụng test t student cho bộ số liệu không chuẩn - Áp dụng t test không ghép cặp cho các nhóm ghép cặp và ngược lại Các lỗi thường gặp khi áp dụng test khi bình phương: - Không báo cáo test Yates hiệu chỉnh trong trường hợp cỡ mẫu nhỏ 3 - Áp dụng test khi bình phương khi có ít nhất 1 ô có tần số mong đợi <5 - Không trình bày rõ ràng “giả thuyết không” được kiểm định Áp dụng phân tích hồi quy tuyến tính nhưng không kiểm tra xem mối quan hệ giữa biến 4 phụ thuộc và biến độc lập có quan hệ tuyến tính hay không IV. KẾT LUẬN liệu. Các sai lầm này có thể dẫn đến những Kết quả nghiên cứu cho thấy có nhiều lỗi hậu quả nghiêm trọng, đó là định hướng thống kê có thể gặp ở giai đoạn thiết kế phương pháp nghiên cứu sai: từ tính cỡ mẫu, nghiên cứu và giai đoạn xử lý, phân tích số chọn mẫu, lựa chọn phương pháp thống kê sẽ TCNCYH 112 (3) - 2018 117
  9. TẠP CHÍ NGHIÊN CỨU Y HỌC áp dụng cho nghiên cứu, trong quá trình xử lý 4. Strasak, A. M., Zaman, Q., Pfeiffer, K. phân tích số liệu thì áp dụng các phương P., Gobel, G., & Ulmer, H (2007). Statistical pháp thống kê chưa phù hợptừ đó dẫn đến errors in medical research-a review of com- những kết quả, phát hiện không đúng, phung mon pitfalls. Swiss medical weekly. 137(3/4), phí nguồn lực. Tiếp đến là những sai lầm tiếp 44 - 50. theo nếu nghiên cứu đó được áp dụng trong 5. Fernandes-Taylor, S., Hyun, J. K., công tác chăm sóc sức khỏe, được sử dụng Reeder, R. N., & Harris, A. H (2011). Com- làm tài liệu tham khảo cho những nghiên cứu mon statistical and research design problems tiếp theo. Trong thời đại của y học dựa vào in manuscripts submitted to high-impact medi- bằng chứng hiện nay, rất cần thiết phải có cal journals. BMC research notes, 4(1), 304 - 309. những biện pháp hạn chế những sai lầm về 6. Altman D.G (1982). Statistics in medical mặt thống kê trong các nghiên cứu y học từ journals. Statistics in Medicine. 1, 59 – 71. giảng dạy, đến thông qua hội đồng triển khai 7. Altman D.G (1991). Staticics in medical nghiên cứu và khâu bình duyệt bài báo trước journals: developments in the 1980s. Statistics khi đăng tải. in Medicine, 10, 1897 – 1913. Khuyến nghị 8. Altman DG (2000). Statistics in medical journals: some recent trends. Statistics in Các bảng kiểm báo cáo theo từng loại thiết Medicine, 19, 3275 – 3289. kế nghiên cứu quốc tế bao gồm các bảng 9. Young J (2007). Statistical errors in kiểm dành riêng cho từng loại thiết kế nghiên medical research-a chronic disease? Swiss cứu trong y học như STROBE, CONSORT, medical weekly. 137(3/4), 41 - 49. [21] cần phải được phổ biến rộng rãi thông 11. Altman DG (1981). Statistics and eth- qua các tạp chí, các khóa học hay các hội ics in medical research. BMJ , 282, 44 – 47. thảo chuyên đề về phương pháp nghiên cứu, 12. Kenneth L. Knight (2010). Study/ thiết kế nghiên cứu nhằm hỗ trợ cho các nhà Experimental/Research design: Much more khoa học biết đến và ứng dụng kiểm tra báo than statistics. Journal of athletic Training, 45 cáo nghiên cứu của mình trước khi công bố (1), 98 – 100. hay đăng tải. 13. Williamson GR (2003). Misrepresent- TÀI LIỆU THAM KHẢO ing random sampling? A systematic review of research papers in the Journal of Advanced 1. Ilker Ercan, Berna Yazici, Yaning Nursing. Journal of advanced Nursing, 3(44), Yang et al (2007). Misusage of statistics in 3 - 4. medical research. Eur J Gen Med, 4(3), 128- 14. Altman DG, Schulz KF, Moher D, 134. Egger M, Davidoff F, Elbourne et al (2001). 2. Okeh, U. M (2008). Statistical problems The revised CONSORT statement for report- in medical research. african Journal of Bio- ing randomized trials: explanation and elabo- technology . 7(25). ration. annals of internal medicine, 134(8), 3. Nyirongo, V. B., Mukaka, M. M., & Ka- 663 – 694. lilani-Phiri, L. V (2008). Statistical Pitfalls in 15. Jin Z, Yu D, Zhang L, Meng H, Lu J, Medical Research. Malawi Medical Journal. 20 Gao Q et al (1998). A Retrospective Survey of (1) , 15 – 18. Research Design and Statistical Analyses in 118 TCNCYH 112 (3) - 2018
  10. TẠP CHÍ NGHIÊN CỨU Y HỌC Selected Chinese Medical Journals in 1998 cal research: what can journals do? Jama, 287 and 2008. PLoS ONE, 5(5), e10822. (21), 2765 – 2767. doi:10.1371/journal.pone.0010822 20. Dersimonian R, Charette L, Mcpeek 16. McCance I (1995). Assessment of sta- B, Mostellet F (1982). Reporting on methods tistical procedures used in papers in the Aus- in clinical trials. New England Journal of Medi- tralia Veterinary Journal. aust Vet Journal, 72 , cine, 306, 1332 – 1339. 322 – 330. 21. Jan P. Vandenbrouke, Erik von Elm, 17. Olsen C H (2003). Review of the Use Douglas G. Altman et al (2007). Strenthening of Statistics in Infection and Immunity. Infec- the Reporting of Observational Studies in Epi- tion and Immunity, 71(12), 6689 – 6692. doi: demiology (STROBE): Explanation and Elabo- 10.1128/IAI.71.12.6689-6692.2003 ration. PLoS Medicine , 4(10), 1628 – 1654. 18. Kwon HJ & Park YG (2012). Statistical 22. Altman, D. G., Schulz, K. F., Moher, Trends in Family Medicine Journals. korean D et al (2001). The revised CONSORT state- Journal of Family Medicine, 33(1), 9. doi:10. ment for reporting randomized trials: explana- 4082/kjfm.2012.33.1.9 tion and elaboration. annals of internal medi- 19. Altman DG (2002). Poor-quality medi cine , 134(8), 663 – 694. Summary OVERVIEW OF STATISTICAL ERRORS IN RESEARCH DESIGN AND DATA ANALYSIS STAGE Statistical applications have a great influence on the approach, research design, analysis and reporting of research results, thus directly effect on the scientific value of any particular research projects especially when results are are widely published as abstracts or research reports. Common statistical errors in the research design phase are often related to the number of participants, the number of abandonments, the sample size, the sample selection, the comparison group and the control group selection. During the processing phase, statistical data analysis of common statistical errors is the application of unsuitable statistical methods and statistical tests, without regard to the assumptions attached. Understanding the statistical errors that may be encountered at each stage of the research project will allow the researchers to improve the quality of the medical research. Key words: statistical errors, scientific research, research design, data analysis TCNCYH 112 (3) - 2018 119