Chương 7: Kiểm định giả thiết

Trở về Mục lục cuốn sách

Khi khám phá số liệu của NSFG, chúng ta đã thấy một vài “hiệu ứng biểu kiến”, gồm một số khác biệt giữa trẻ đầu lòng và trẻ sinh sau. Đến giờ ta đã mới chỉ xét qua những hiệu ứng đó; trong chương này, rốt cuộc chúng ta sẽ kiểm tra chúng.

Câu hỏi cơ bản mà chúng ta muốn đặt ra là liệu những hiệu ứng đó có thật hay không. Chẳng hạn, nếu ta thấy có sự chênh lệch giữa giá trị trung bình của thời gian mang thai những đứa trẻ đầu lòng với trẻ sinh sau, ta muốn biết rằng liệu sự chênh lệch đó có thực không, hay chúng chỉ tình cờ xảy ra.

Câu hỏi này hóa ra lại rất khó trả lời trực tiếp, vì vậy ta sẽ tiến hành theo hai bước. Trước tiên, ta sẽ kiểm tra xem liệu rằng hiệu ứng có ý nghĩa hay không, sau đó ta sẽ cố gắng diễn giải kết quả để trả lời câu hỏi đặt ra ban đầu.

Trong thống kê học, “có ý nghĩa” mang một định nghĩa riêng khác với ý nghĩa thông trong câu nói hằng ngày. Như ta đã định nghĩa trước đây, một hiệu ứng biểu kiến được gọi là có ý nghĩa thống kê nếu như nó không có vẻ xuất hiện tình cờ.

Để làm rõ điều này, ta sẽ phải trả lời ba câu hỏi sau:

  1. Thế nào là “tình cờ”?
  2. Thế nào là “không có vẻ”?
  3. Thế nào là “hiệu ứng”?

Cả ba câu hỏi này trông thì dễ như trả lời được lại khó. Dù sao, vẫn có một cấu trúc chung mà mọi người dùng để kiểm định ý nghĩa thống kê:

Giả thiết không:
Giả thiết không là một mô hình của một hệ thống được dựa trên giả thiết rằng hiệu ứng biểu kiến thực ra chỉ tình cờ xảy đến.
Giá trị p:
Giá trị p là xác suất của một hiệu ứng biểu kiến theo giả thiết không.
Diễn giải:
Dựa trên giá trị p, chúng ta kết luận rằng hiệu ứng hoặc là có ý nghĩa thống kê, hoặc không.

Quy trình này được gọi là kiểm định giả thiết. Logic bên trong nó cũng giống như việc chứng minh bằng phản bác. Để chứng minh một phát biểu toán học, A, bạn tạm thời giả sử rằng A sai. Nếu như giả sử đó dẫn đến một nghịch lý thì bạn sẽ kết luận rằng thực ra A phải đúng.

Tương tự, để kiểm định một giả thiết như “Hiệu ứng này là thật,” chúng ta tạm giả sử rằng không phải vậy. Đó là giả thiết không. Dựa theo giả thiết đó, ta đi tính xác suất của hiệu ứng biểu kiến. Đó là giá trị p. Nếu giá trị p đủ thấp thì ta sẽ kết luận rằng giả thiết không có vẻ như không đúng.

Kiểm định sự chênh lệch các trị trung bình

Một trong những giả thiết dễ nhất để kiểm tra là có sự khác biệt trông thấy giữa hai trị trung bình của hai nhóm. Từ số liệu NSFG, ta thấy rằng trị trung bình của thời gian mang thai đứa trẻ đầu lòng thấp hơn một chút, và trị trung bình cân nặng trẻ sơ sinh cũng thấp hơn một chút. Bây giờ ta sẽ xét xem liệu rằng những hiệu ứng đó có ý nghĩa không.

Ở những ví dụ này, giả thiết không là các phân bố của hai nhóm là giống nhau, và sự khác biệt thấy được chỉ là tình cờ.

Để tính các giá trị p, ta tìm phân bố gộp chung của tất cả các ca sinh thành công (kể cả trẻ đầu lòng lẫn sinh sau), phát sinh các mẫu ngẫu nhiên có cùng kích thước với mẫu quan sát được, rồi tính hiệu số giữa các trị trung bình theo giả thiết không.

Nếu phát sinh được rất nhiều mẫu, ta có thể tìm được tần suất của việc hiệu số giữa các trị trung bình (chỉ do tình cờ) lớn bằng hoặc lớn hơn hiệu số mà ta thực sự quan sát được. Tỉ lệ này được gọi là giá trị p.

Đối với thời kì mang thai, chúng ta đếm được n = 4413 trẻ đầu lòng và m = 4735 trẻ sinh sau, cùng với hiệu số giữa các trị trung bình của thời gian mang thai là δ = 0,078 tuần. Để tính xấp xỉ giá trị p cho hiệu ứng này, tôi đã gộp chung các phân bố, phát sinh ra các mẫu có kích thước n và m rồi tính hiệu số giữa hai trị trung bình.

Đây là một ví dụ khác cho việc tái lập mẫu, vì ta đang rút một mẫu ngẫu nhiên từ bộ số liệu mà bản thân nó là một mẫu của tổng thể chung. Tôi đã tính hiệu số giữa 1000 cặp mẫu; Hình [length_deltas_cdf] cho thấy phân bố của hiệu số này.

CDF của các hiệu số về trị trung bình của các mẫu đã tái lập. [length_deltas_cdf]

Hiệu số về trị trung bình gần bằng 0, cũng như bạn trông đợi với các mẫu rút từ cùng một phân bố. Hai đường thẳng đứng biểu thị cho các giới hạn cắt đứt nơi X = δ hoặc X = δ.

Trong số 1000 cặp mẫu, có 166 cặp mà sự khác biệt về trị trung bình (cả âm lẫn dương) lớn hơn hoặc bằng δ, vì vậy giá trị p xấp xỉ bằng 0,166. Nói cách khác, chúng ta trông đợi thấy được hiệu ứng khác biệt ở mức độ δ vào khoảng 17% trong số các trường hợp xảy ra, ngay cả nếu các phân bố thực sự của hai nhóm là giống nhau.

Như vậy hiệu ứng biểu kiến dường như không rõ, nhưng liệu nó có đủ để khẳng định rằng không rõ? Ta sẽ giải đáp điều này trong mục sau.

Trong bộ số liệu NSFG, sự khác biệt về cân nặng trung bình của trẻ đầu lòng là 2,0 ounce. Hãy tính giá trị p của hiệu số này.

Gợi ý: với kiểu tái lập mẫu này, điều quan trọng là phải lấy mẫu có thay thế, vì vậy bạn nên dùng random.choice thay vì random.sample (xem Mục [ngẫu nhiên]).

Bạn có thể bắt tay với mã lệnh mà tôi đã dùng để phát sinh ra kết quả trong mục này, mà có thể được tải về từ http://thinkstats.com/hypothesis.py.

Chọn một ngưỡng giá trị

Trong kiểm định thống kê có hai loại lỗi mà ta cần phải lưu tâm.

  • Lỗi Loại I, còn được gọi là dương tính sai (false positive), xảy ra khi chúng ta chấp nhận một giả thiết mà thực ra nó sai; nghĩa là chúng ta coi một hiệu ứng là có ý nghĩa trong khi thực tế nó chỉ xảy ra tình cờ.
  • Lỗi Loại II, còn được gọi là âm tính sai (false negative), xảy ra khi chúng ta bác bỏ một giả thiết mà thực ra nó đúng; nghĩa là chúng ta quy kết một hiệu ứng là tình cờ trong khi nó có thật.

Cách tiếp cận thông dụng nhất tới kiểm định thống kê là chọn một ngưỡng,1, α, cho giá trị p và chấp nhận rằng bất kì hiệu ứng nào có giá trị p nhỏ hơn α đều là có ý nghĩa. Một giá trị của α thường được chọn là 5%. Theo tiêu chí này, sự khác biệt biểu kiến ở thời gian sinh trẻ đầu lòng là không có ý nghĩa, nhưng khác biệt về cân nặng thì có.

Với kiểu kiểm định giả thiết như thế này, ta có thể tính ngay được xác suất của một false positive: nó đúng bằng α.

Để thấy được tại sao, hãy hình dung định nghĩa của false positive— khả năng chấp nhận một giả thiết bị sai—và định nghĩa của giá trị p—khả năng của việc tạo ra hiệu ứng đo được nếu như giả thiết là sai.

Kết hợp hai điều này lại, ta có thể hỏi: nếu như giả thiết là sai thì có bao nhiêu khả năng phát sinh ra một hiệu ứng đo được có thể xem như là ý nghĩa với ngưỡng α? Câu trả lời chính là α.

Ta có thể làm giảm khả năng xuất hiện false positive bằng cách giảm ngưỡng đi. Chẳng hạn, nếu ngưỡng bằng 1%, thì chỉ còn 1% khả năng có false positive.

Nhưng có một cái giá phải trả: việc hạ thấp ngưỡng sẽ làm tăng tiêu chuẩn của bằng chứng, tức là làm tăng khả năng bác bỏ một giả thiết đúng. Nhìn chung luôn có một sự đánh đổi giữa các sai số Loại I và Loại II. Cách duy nhất để giảm cả hai loại sai số này cùng lúc là tăng kích thước mẫu (hoặc, trong một số trường hợp, là giảm sai số đo đạc).

Để tìm hiểu ảnh hưởng của kích thước mẫu đến giá trị p, ta hãy xem điều gì sẽ xảy ra nếu bỏ đi một nửa các số liệu NSFG. Gợi ý: dùng random.sample. Điều gì sẽ xảy ra nếu bỏ đi 3 phần tư số liệu, và cứ như vậy?

Kích thước mẫu nhỏ nhất phải là bao nhiêu để sự khác biệt giữa các trị trung bình của cân nặng trẻ sơ sinh vẫn còn ý nghĩa với α = 5%? Kích thước mẫu phải tăng gấp mấy lần để có α = 1%?

Bạn có thể bắt đầu làm với mã lệnh mà tôi đã dùng để phát sinh các kết quả trong mục này; nó có thể được tải về từ http://thinkstats.com/hypothesis.py.

Định nghĩa về hiệu ứng

Khi một điều bất thường nào đó xảy ra, mọi người thường nói kiểu như, “Ồ! Sao có thể như thế được nhỉ?” Câu hỏi này có lý vì chúng ta có trực giác rằng những việc khác nhau sẽ có khả năng xảy ra không như nhau. Nhưng trực giác này không phải luôn đúng khi ta phân tích nó kĩ lưỡng.

Chẳng hạn, giả sử tôi tung đồng xu 10 lần, và sau mỗi lần tung tôi ghi lại N để kí hiệu đồng xu rơi ngửa và S để kí hiệu sấp. Nếu kết quả là một chuỗi như SNNSNSSSNN, bạn sẽ chẳng lấy làm ngạc nhiên. Nhưng nếu kết quả mà là NNNNNNNNNN, bạn sẽ thốt lên lời nói đại loại như, “Ồ! Sao có thể như thế được nhỉ?”

Nhưng ở ví dụ này, xác suất của hai dãy kết quả là như nhau: 1 trên 1024. Và điều này cũng đúng với một chuỗi bất kì khác. Vì vậy khi ta hỏi, “Sao có thể như thế được nhỉ?”, ta phải cẩn thận với việc dùng “như thế” với hàm ý gì.

Với số liệu NSFG, tôi định nghĩa hiệu ứng là “một hiệu số về trị trung bình (kể cả dương lẫn âm) lớn hơn hoặc bằng δ.” Bằng lựa chọn này, tôi đã quyết định tính độ lớn của hiệu số, mà bỏ qua không xét đến dấu.

Một cách kiểm định như vậy được gọi là hai phía, vì ta xét đến cả hai phía (theo chiều dương và âm) trong phân bố ở Hình length_deltas_cdf. Bằng cách dùng phép kiểm định hai mặt, ta thực hiện kiểm tra giả thiết về sự khác biệt, hay hiệu số, đáng kể giữa các phân bố, mà không nói về dấu của hiệu số này.

Một cách làm khác là dùng kiểm định một phía, trong đó câu hỏi đặt ra là liệu trị trung bình đối với trẻ đầu lòng có cao hơn đáng kể so với trị trung bình của các trẻ sinh sau không. Vì giả thiết này đã cụ thể hơn, nên giá trị p sẽ thấp hơn—ở trường hợp này chỉ bằng khoảng một nửa so với trước.

Diễn giải kết quả

Lúc bắt đầu chương này, tôi đã nói rằng điều mà ta cần giải đáp là liệu một hiệu ứng biểu kiến có phải là thật không. Chúng ta đã bắt đầu bằng việc định nghĩa giả thiết không, kí hiệu là {0}, vốn là giả thiết rằng hiệu ứng không phải thật. Sau đó chúng ta đã định nghĩa giá trị p, vốn là Pr(E|{0}), trong đó E là một hiệu ứng lớn bằng hoặc lớn hơn hiệu ứng biểu kiến. Sau đó chúng ta tính các giá trị p rồi so sánh chúng với một ngưỡng, α.

Đây là một bước cần thiết, nhưng chưa giải đáp được câu hỏi ban đầu, đó là liệu rằng hiệu ứng có thật không. Có một số cách diễn giải kết quả của một phép kiểm định giả thiết:

Cổ điển:
Trong kiểm định giả thiết theo cách cổ điển, nếu một giá trị p nhỏ hơn α, thì bạn có thể nói rằng hiệu ứng là có ý nghĩa về mặt thống kê, nhưng không thể kết luận rằng hiệu ứng đó có thực. Công thức nói trên đã cẩn thận tránh được việc nhảy đến kết luận, nhưng nó không xác đáng chút nào.
Thực dụng:
Trên thực tế, mọi người không quá thực hiện theo quy củ như vậy. Trong phần lớn các tạp chí khoa học, những nhà nghiên cứu đều công bố các giá trị p mà chẳng có biện luận gì, và độc giả diễn giải chúng như những bằng chứng cho thấy các hiệu ứng biểu kiến là có thật. Giá trị p càng thấp, thì họ càng tin tưởng vào kết luận này.
Phương pháp Bayes:
Thứ mà chúng ta cần biết là Pr(HA|E), trong đó HA là giả thiết rằng hiệu ứng có thật. Theo định lý Bayes:P(HA|E)=P(E|HA) P(HA) / P(E)

trong đó Pr(HA) là xác suất tiên nghiệm của HA trước khi ta thấy được hiệu ứng, Pr(E|HA) là xác suất thấy được E, với giả thiết rằng hiệu ứng này có thật, còn Pr(E) là xác suất thấy được E dưới bất kì giả thiết nào. Vì hiệu ứng thì hoặc là có thật, hoặc là không nên

Pr(E) = Pr(E|HA) Pr(HA) + Pr(E|H0) Pr(H0)

Lấy ví dụ, tôi sẽ đi tính Pr(HA|E) đối với thời gian mang thai theo số liệu của NSFG. Chúng ta đã tính được Pr(E|{0}) = 0.166, vì vậy tất cả những gì ta cần làm là tính được Pr(E|HA) rồi chọn một giá trị cho xác suất tiên nghiệm.

Để tính được, Pr(E|HA), chúng ta giả sử rằng hiệu ứng là có thật, —nghĩa là khác biệt trong thời gian mang thai trung bình, δ, chính là giá trị mà ta quan sát được, 0,078. (Cách xác lập HA như thế này đôi chút giả dối. Tôi sẽ giải thích và giải quyết vấn đề này trong mục tiếp theo.)

Bằng cách phát sinh ra 1000 cặp mẫu, mỗi cặp có chứa hai giá trị từ hai phân bố, tôi ước tính được Pr(E|HA) = 0,494. Với xác suất tiên nghiệm Pr(HA) = 0,5, thì xác suất hậu nghiệm của HA là 0,748.

Vì vậy nếu xác suất tiên nghiệm của HA là 50%, thì xác suất được cập nhật, tức là đã tính đến bằng chứng thu được từ bộ số liệu này, đạt gần 75%. Việc xác suất hậu nghiệm cao hơn tiên nghiệm là hợp lý, vì số liệu đã phần nào củng cố cho giả thiết. Nhưng dường như có sự bất ngờ vì chênh lệch này quá lớn, đặc biệt là khi ta đã tính ra được sự khác biệt về trị trung bình không có ý nghĩa thống kê.

Trên thực tế, phương pháp mà tôi đã dùng ở mục này không hoàn toàn đúng, và nó có khuynh hướng phóng đại tầm ảnh hưởng của bằng chứng. Ở mục kế tiếp, ta sẽ điều chỉnh lại xu hướng này.

Hãy dùng số liệu từ NSFG để tính xem xác suất hậu nghiệm để các dạng phân bố cân nặng trẻ sơ sinh đối với trẻ đầu lòng và trẻ sinh sau khác biệt là bao nhiêu?

Bạn có thể bắt đầu với mã lệnh mà tôi đã dùng để phát sinh kết quả trong mục này, vốn tải được về từ http://thinkstats.com/hypothesis.py.

Thẩm định chéo

Ở ví dụ trước, ta đã sử dụng bộ số liệu để lập nên giả thiết HA, và rồi dùng chính bộ số liệu đó để kiểm định. Điều này là không hay và rất dễ dẫn đến những kết quả gây lạc hướng.

Vấn đề là ở chỗ ngay cả khi giả thiết không là đúng thì dường như vẫn có một khác biệt δ nào đó giữa hai nhóm, chỉ do tình cờ. Nếu ta dùng giá trị quan sát được, δ, để lập nên giả thiết thì Pr(HA|E) sẽ có khả năng cao ngay cả khi HA là sai.

Ta có thể giải quyết vấn đề này bằng cách thẩm định chéo, trong đó dùng một bộ số liệu để tính δ và một bộ số liệu khác để tính HA. Bộ số liệu thứ nhất được gọi là bộ huấn luyện; còn cái thứ hai được gọi là bộ kiểm tra.

Trong một nghiên cứu kiểu như NSFG, vốn phân tích các nhóm khác nhau đối với từng chu kì thì ta có thể dùng một chu kì để huấn luyện và một chu kì khác để kiểm tra. Hoặc ta có thể phân chia số liệu thành hai bộ số liệu con (một cách ngẫu nhiên), rồi dùng một bộ để huấn luyện và một bộ để kiểm tra.

Tôi thực hiện cách làm thứ hai, phân chia số liệu của Chu kì 6 thành hai nửa gần bằng nhau. Tôi tiến hành chạy chương trình kiểm định vài lần với các nhóm khác nhau ngẫu nhiên. Giá trị trung bình của xác suất hậu nghiệm bằng Pr(HA|E) = 0,621. Như được mong đợi, ảnh hưởng của bằng chứng đã nhỏ hơn, phần là vì kích cỡ mẫu kiểm định nhỏ hơn, và cuxgn vì chúng ta không còn dùng chung số liệu để huấn luyện và kiểm thử.

Thông báo kết quả tính xác suất Bayes

Ở mục trước ta đã chọn xác suất tiên nghiệm Pr(HA) = 0,5. Nếu ta có một tập hợp cá giả thiết và không có lý do nào để coi rằng một giả thiết có khả năng xảy ra nhiều hơn giả thiết khác, thì cách thông thường là gán chúng các xác suất bằng nhau.

Có người phản đồi xác suất Bayes vì họ dựa vào các xác suất tiên nghiệm, và người ta có thể không thống nhất cùng một xác suất tiên nghiệm đúng. Với những người luôn mong đợi kết quả khoa học phải khách quan và phổ quát thì đặc tính nói trên thật không ổn thỏa.

Câu trả lời đối với ý kiến phản bác trên là, trong thực tế, các bằng chứng vững vàng thường có xu thế áp đảo ảnh hưởng của điều kiện tiên nghiệm, vì vậy dù ta có xuất phát từ những điều kiện tiên nghiệm khác nhau thì cuối cùng vẫn sẽ hội tụ về cùng một xác suất hậu nghiệm.

Một lựa chọn khác là chỉ thông báo mỗi tỉ số khả năng, Pr(E | HA)  /  Pr(E|H0), thay vì xác suất hậu nghiệm. Bằng cách này bạn đọc có thể đưa vào bất kì điều kiện tiên nghiệm nào tùy ý và tự tính ra xác suất hậu nghiệm (nói nghiêm túc). Tỉ số khả năng đối khi còn được gọi là hệ số Bayes (xem http://wikipedia.org/wiki/Bayes_factor).

Nếu xác suất tiên nghiệm trong giải thiết HA của bạn bằng 0,3 và một bằng chứng mới xuất hiện cho ra tỉ số khả năng bằng 3 so với giả thiết không, H0, thì xác suất hậu nghiệm của HA sẽ bằng bao nhiêu?

Bài tập này được điều chỉnh từ nguồn MacKay, Information Theory, Inference, and Learning Algorithms:

Hai người vừa để lại vết máu ở hiện trường một vụ phạm tội. Nghi phạm Oliver được lấy mẫu máu và xác định là thuộc nhóm máu O. Các nhóm máu của hai vết được phát hiện lần lượt thuộc nhóm O (một nhóm máu thông dụng trong tổng thể dân cư của địa phương, với tần số 60%) và nhóm AB (nhóm máu hiếm với tần số chỉ 1%). Liệu số liệu này (kiểu nhóm máu tìm được ở hiện trường) có là bằng chứng ủng hộ việc quy kết Oliver là một trong hai người để lại vết máu ở hiện trường hay không?

Gợi ý: Hãy tính tỉ lệ khả năng cho bằng chứng này; nếu nó lớn hơn 1, thì bằng chứng có tính ủng hộ cho việc quy kết. Bạn có thể xem những phân tích và lời giải ở trang 55 trong cuốn sách của MacKay.

Kiểm định khi-bình phương

Ở Mục threshold chúng ta đã kết luận rằng khác biệt biểu kiến về thời gian mang thai trung bình với trẻ đầu lòng và trẻ sinh sau là không có ý nghĩa. Nhưng đến Mục relative.risk, khi tính rủi ro tương đối, ta đã thấy rằng các trẻ đầu lòng có xu hướng được chào đời sớm hơn, ít khi sinh đúng lịch, và cũng có xu hướng chào đời muộn so với trẻ sinh sau.

Vì vậy có lẽ các phân bố sẽ có cùng trị trung bình nhưng với phương sai khác nhau. Ta có thể kiểm tra mức ý nghĩa của khác biệt về phương sai, tuy nhiên phương sai thì không vững bằng trị trung bình, và các kiểm định giả thiết về phương sai thường có động thái không tốt.

Một cách làm khác là kiểm định một giả thiết phản ánh trực tiếp hơn về hiệu ứng biểu hiện; đó là giả thiết rằng trẻ đầu lòng có nhiều khả năng chào đời xớm hơn, ít chào đời đúng lịch, và cũng nhiều khả năng chào đời muộn hơn.

Chúng ta tiến hành theo năm bước đơn giản sau:

  1. Chúng ta định nghĩa một tập hợp các hạng mục, gọi là ô, để phân loại cho từng đứa trẻ. Ở ví dụ này, có 6 ô vì trẻ có hai nhóm (đầu lòng và sinh sau) cùng ba ngăn (thời gian sinh sớm, đúng lịch, và sinh muộn).Tôi sẽ dùng các định nghĩa ở Mục rủi ro tương đối: một đứa trẻ được coi là sinh sớm nếu chào đời vào Tuần 37 hoặc trước dó, sinh đúng lịch nếu chào đời vào một trong các Tuần 38, 39 hoặc 40, và muộn nếu chào đời vào Tuần 41 hoặc chậm hơn.
  2. Chúng ta đi tính số trẻ được trông đợi trong từng ô. Theo giả thiết không, ta giả sử rằng hai nhóm trẻ em này thuộc hai nhóm có cùng dạng phân bố, vì vậy ta có thể tính xác suất chung: Pr(sớm), Pr(đúng lịch) and Pr(muộn).Với trẻ đầu lòng, ta có n = 4413 mẫu, vì vậy theo giả thiết không chúng ta trông đợi rằng có n Pr(sớm) đứa trẻ đầu lòn sẽ chào đời sớm, n Pr(đúng lịch) chào đời đúng lịch, v.v. Tương tự, ta có m = 4735 đứa trẻ sinh sau, vì vậy sẽ trông đợi có m Pr(sớm) trẻ sinh sau sẽ chào đời sớm, v.v.
  3. Với từng ô, ta đi tính độ lệch, tức là hiệu số giữa giá trị quan sát được, Oi, với giá trị được trông đợi (kì vọng), Ei.
  4. Chúng ta đi tính một độ đo nào đó cho tổng độ lệch; đại lượng này được gọi là đặc trưng thống kê kiểm định. Lựa chọn thông dụng nhất là đặc trưng thống kê khi-bình phương:χ2 = ∑i(OiEi)2 / Ei
  5. Có thể sử dụng mô phỏng Monte Carlo để tính giá trị p, vốn là xác suất thấy được đặc trưng thống kê khi-bình phương cao bằng giá trị quan sát được theo giả thiết không.

Khi dùng đến đặc trưng thống kê khi-bình phương, quá trình này được gọi là kiểm định khi-bình phương. Một đặc điểm của kiểm định khi-bình phương là phân bố của đặc trưng được kiểm định có thể tính được theo công thức chính xác.

Dựa vào số liệu từ NSFG tôi tính được χ2 = 91,64; vốn sẽ xảy ra ngẫu nhiên chừng một lần trong số 1 vạn lần. Tôi kết luận rằng kết quả này có ý nghĩa về mặt thống kê, chỉ với một lưu ý: một lần nữa ta đã dùng cùng bộ dữ liệu cho việc khám phá và kiểm thử. Tốt hơn hết là kiểm tra lại kết quả này với một bộ số liệu khác.

Bạn có thể tải về mã lệnh mà tôi dùng cho mục này từ http://thinkstats.com/chi.py.

Giả dụ rằng bạn điều hành một sòng bạc và nghi ngờ rằng một khách chơi đã đánh tráo một quân xúc sắc sẵn có của sòng bạc bằng một quân xúc sắc “lệch”; nghĩa là nó có xu hướng gieo được một mặt nhiều hơn hẳn những mặt khác. Bạn đã bắt giữ người khách gian lận và tịch thu quân xúc sắc, nhưng giờ đây bạn phải chứng tỏ rằng quân xúc sắc này bị lệch.

Bạn gieo xúc sắc 60 lần và nhận được kết quả sau:

Giá trị 1 2 3  4 5 6
Tần số  8 9 19 6 8 10

Đặc trưng thống kê khi-bình phương cho các giá trị này bằng bao nhiêu? Xác suất để thấy được một giá trị khi-bình phương lớn như vậy một cách ngẫu nhiên là bao nhiêu?

Lấy mẫu lại một cách hiệu quả

Bất cứ ai trước khi đọc sách này đã được học xác suất có thể bật cười khi thấy Hình [length_deltas_cdf], bởi vì tôi đã phải chạy máy tính rất nhiều mới mô phỏng được điều mà lẽ ra đã hình dung được bằng cách giải tích.

Rõ ràng là phân tích toán học không phải là trọng tâm của cuốn sách này. Tôi sẵn lòng dùng máy tính để làm theo cách “đần độn” này, vì tôi nghĩ rằng người mới học thì sẽ dễ hiểu các kết quả mô phỏng bởi máy tính hơn, và dễ thấy hơn rằng chúng đúng đắn. Miễn là chương trình mô phỏng không chạy quá lâu, thì tôi cũng không bận tâm gì việc bỏ qua bước phân tích theo công thức.

Dù vậy, vẫn có những lúc mà việc phân tích một chút có thể tiết kiệm được những công sức tính toán, và Hình length_deltas_cdf là một trong những trường hợp đó.

Hãy nhớ rằng chúng ta đang kiểm định hiệu số quan sát được giữa thơi gian mang thai với n = 4413 trẻ đầu lòng và m = 4735 trẻ sinh sau. Ta đã thiết lập được phân bố tổng hợp cho tất cả những đứa trẻ, lấy ra các mẫu với các kích thước n và m, rồi đi tính hiệu số giữa các trị trung bình mẫu.

Tay vào đó, ta có thể tính trực tiếp phân bố của hiệu số giữa các trị trung bình mẫu. Để bắt đầu, ta hãy hình dung trị trung bình của một mẫu là gì: ta rút ra n mẫu từ một phân bố, cộng chúng lại, rồi chia cho n. Nếu phân bố có trị trung bình μ và phương sai σ2, thì theo Định lý giới hạn trung tâm, ta biết rằng tổng của các mẫu tuân theo N (n μ, n σ2).

Để hình dung ra phân bố của các trị trung bình mẫu, ta phải dùng đến một trong số các thuộc tính của phân bố chuẩn: nếu X tuân theo N (μ, σ2),

aX + b ~ N(a μ + b, a2σ2)

Khi chia cho n, a = 1/nb = 0, vì vậy

X/n ~ N(μ /n, σ2/ n2)

Do đó phân bố của trị trung bình mẫu là N (μ, σ2/n).

Để thu được phân bố của hiệu số giữa hai trị trung bình mẫu, ta dùng đến một thuộc tính khác của phân bố chuẩn: nếu X1 tuân theo N (μ1, σ12) và X2 tuân theo N (μ2, σ22),

aX1 + bX2 ~ N(aμ1 + bμ2, a2σ12 + b2σ22)

Vì vậy, như một trường hợp đặc biệt:

X1X2 ~ N1 – μ2 , σ12 + σ22)

Kết hợp lại, ta rút ra kết luận rằng mẫu trong Hình length_deltas_cdf được rút ra từ N (0, f σ2), trong đó f = 1/n + 1/m. Thay n = 4413 và m = 4735 vào, ta trông đợi hiệu số các trị trung bình mẫu thuân theo N (0; 0,0032).

Chúng ta có thể dùng erf.NormalCdf để tính được giá trị p của hiệu số các trị trung bình quan sát được:

delta = 0.078 
sigma = math.sqrt(0.0032) 
left = erf.NormalCdf(-delta, 0.0, sigma) 
right = 1 - erf.NormalCdf(delta, 0.0, sigma)

Tổng của các đuôi trái và phải cho ta giá trị p, bằng 0,168; vốn khá sát với giá trị mà ta ước tính từ việc tái lập mẫu; 0,166. Bạn có thể tải về đoạn mã lệnh mà tôi dùng trong mục này từ http://thinkstats.com/hypothesis_analytic.py

Độ mạnh

Khi kết quả của một kiểm định thống kê là âm tính (nghĩa là hiệu ứng không có ý nghĩa thống kê) thì liệu ta có kết luận rằng hiệu ứng đó không phải là thật không? Điều này tùy thuộc vào độ mạnh của phép kiểm định.

Độ mạnh thống kê là xác suất mà phép kiểm định sẽ dương tính khi giải thiết không bị sai. Nói chung, độ mạnh của một phép kiểm định thì phụ thuộc vào kích thước mẫu, độ lớn của hiệu ứng, và ngưỡng α.

Độ mạnh của phép kiểm định ở Mục threshold bằng bao nhiêu, với α = 0,05 và giả thiết rằng hiệu số đúng giữa hai trị trung bình bằng 0,078 tuần?

Bạn có thể ước tính độ mạnh bằng cách phát sinh ra những mẫu ngẫu nhiên từ các phân bố với hiệu số trị trung bình co trước, kiểm định hiệu số trị trung bình quan sát được, và đếm số lần dương tính.

Độ mạnh của phép kiểm định với α = 0,10 là bao nhiêu?

Một cách báo cáo độ mạnh của một phép kiểm định, cùng với một kết quả âm tính, là phát biểu kiểu như, “Nếu hiệu ứng biểu kiến mà lớn bằng X, thì phép kiểm định này sẽ bác bỏ giả thiết không với xác suất p.”

Thuật ngữ

ý nghĩa:
Một hiệu ứng được gọi là có ý nghĩa thống kê nếu nó dường như không xảy ra một cách tình cờ.
giả thiết không:
Mô hình của một hệ thống dựa trên giả thiết rằng hiệu ứng biểu kiến chỉ là tình cờ.
giá trị p:
Xác suất để một hiệu ứng xảy ra tình cờ.
kiểm định giá thiết:
Quá trình xác định xem liệu một hiệu ứng biểu kiến có ý nghĩa về mặt thống kê không.
dương tính sai:
Kết luận rằng một hiệu ứng là có thật trong khi không phải như vậy.
âm tính sai:
Kết luận rằng một hiệu ứng là tình cờ trong khi không phải như vậy.
phép thử hai phía:
Phép thử trong đó đặt câu hỏi, “Khả năng của một hiệu ứng lớn bằng hiệu ứng quan sát được, bất kể âm hoặc dương, là bao nhiêu?”
phép thử một phía:
Phép thử trong đó đặt câu hỏi, “Khả năng của một hiệu ứng lớn bằng hiệu ứng quan sát được, với cùng dấu, là bao nhiêu?”
thẩm định chéo:
Quá trình kiểm định giả thiết trong đó dùng một bộ số liệu để phân tích số liệu khám phá và một bộ kia để dùng cho việc kiểm định.
bộ huấn luyện:
Bộ số liệu dùng để xác lập một giả thiết cho việc kiểm thử.
bộ kiểm tra:
Bộ số liệu dùng để kiểm thử.
đặc trưng thống kê kiểm định:
Một đặc trưng thống kê được dùng để đo mức độ khác biệt giữa một hiệu ứng biểu kiến so với điều được trông đợi xảy ra tình cờ.
kiểm định khi-bình phương:
Phép kiểm định có dùng đặc trưng khi-bình phương làm đặc trưng thống kê kiểm định.
tỉ số khả năng:
Tỉ số giữa Pr(E|A) và Pr(E|B) của hai giả thiết A và B, là một cách để báo cáo kết quả của phân tích Bayes mà không phụ thuộc vào xác suất tiên nghiệm.
ô:
Trong kiểm định khi-bình phương, những hạng mục để phân chia các kết quả quan sát vào.
độ mạnh:
Xác suất mà một phép thử sẽ bác bỏ giả thiết không nếu giả thiết này là sai.

  1. Còn được biết đến với tên “Mức [tiêu chuẩn] ý nghĩa.”

1 Phản hồi

Filed under Think Stats

One response to “Chương 7: Kiểm định giả thiết

  1. Pingback: Think Stats: Xác suất thống kê dành cho người lập trình | Blog của Chiến

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s