Chương 5: Xác suất

Trở về Mục lục cuốn sách

Trong Chương 2, tôi đã đề cập rằng một xác suất có thể coi như tần suất, tức là tần số biểu diễn theo tỉ lệ so với kích thước mẫu. Đó cũng là một định nghĩa của xác suất, nhưng không phải duy nhất. Trên thực tế, định nghĩa của xác suất là một chủ đề gây tranh cãi.

Chúng ta sẽ bắt đầu với các phần không gây tranh cãi trước khi đi xa hơn. Nói chung mọi ý kiến đều thống nhất là xác suất là một giá trị số thực trong khoảng từ 0 đến 1, vốn được định trước là một độ đo ứng với khả năng mà một hiện tượng nào đó dễ xảy ra hơn so với hiện tượng khác. Những “hiện tượng” mà ta gán cho xác suất như trên được gọi là sự kiện. Nếu E biểu diễn một sự kiện, thì P(E) biểu diễn xác suất mà E sẽ xảy ra. Tình huống mà E có thể hoặc không xảy ra được gọi là một phép thử. Lấy ví dụ, chẳng hạn bạn có một con xúc sắc 6 mặt và muốn biết xác suất để gieo được mặt “lục”. Mỗi lần gieo là một phép thử. Mỗi lần mặt “lục” xuất hiện được coi là thành công; còn những phép thử khác đều được coi là thất bại. Những thuật ngữ này được dùng ngay cả trong tình huống ở đó “thành công” có nghĩa xấu còn “thất bại” có nghĩa tốt.

Nếu ta có một mẫu hữu hạn gồm n phép thử và quan sát được s thành công, thì xác suất thành công là s/n. Nếu không gian phép thử là vô hạn thì việc định nghĩa xác suất sẽ phải khéo hơn một chút, nhưng đa số mọi người đều sẵn lòng chấp nhận những khẳng định xác suất về một chuỗi các phép thử giống hệt nhau (điều này có tính giả tưởng), như việc tung đồng xu hoặc gieo xúc sắc. Chúng ta bắt đầu gặp rắc rối khi nói về xác suất của những sự kiện duy nhất. Chẳng hạn, có thể ta muốn biết xác suất một ứng cử viên sẽ thắng cuộc bầu cử. Nhưng vì mỗi cuộc bầu cử là duy nhất, nên không có một chuỗi các phép thử giống nhau để xét. Trong những trường hợp như thế này có người sẽ nói rằng khái niệm về xác suất không dùng được. Điều này đôi khi được gọi là định nghĩa theo tần suất vì theo đó xác suất được ước tính từ tần suất. Vì không có một loạt những phép thử giống nào nên sẽ không có xác suất. Định nghĩa theo tần suất thì an toàn về triết lý, nhưng rất bó buộc vì nó hạn chế phạm vi của xác suất chỉ trong những hệ vật lý hoặc là ngẫu nhiên (như phân rã nguyên tử) hoặc là không thể dự đoán được mà ta buộc phải mô phỏng như là ngẫu nhiên (chẳng hạn con xúc sắc khi gieo). Bất cứ điều gì liên quan đến con người thì miễn bàn đến.

Một cách làm khác là thuyết Bayes, trong đó định nghĩa xác suất như là mức độ tin cậy rằng một sự kiện sẽ xảy ra. Theo định nghĩa này, khái niệm xác suất có thể được áp dụng trong hầu hết mọi trường hợp. Một khó khăn đối với xác suất Bayes là nó phụ thuộc vào trạng thái kiến thức của mỗi người; những người với thông tin khác nhau có thể có những cấp độ tin cậy khác nhau về cùng một sự kiện. Vì lý do này, nhiều người cho rằng xác suất Bayes mang tính chủ quan nhiều hơn so với xác suất tính theo tần suất. Lấy ví dụ, xác suất để ông Thaksin Shinawatra là thủ tướng Thái Lan bằng bao nhiêu? Một người ủng hộ quan điểm tần suất sẽ nói rằng không có xác suất cho sự kiện này vì không có loạt phép thử nào. Thaksin hoặc là thủ tướng, hoặc không phải; điều này không can hệ gì đến xác suất.

Trái lại, người ủng hộ quan điểm Bayes sẽ sẵn lòng ấn định một xác suất cho sự kiện này dựa trên hiện trạng kiến thức của người đó. Chẳng hạn, nếu bạn nhớ rằng có một cuộc bạo loạn giành chính quyền ở Thái Lan vào năm 2006, và bạn chắc rằng Thaksin chính là ông thủ tướng bị lật đổ, thì bạn sẽ có thẻ gán một xác suất bằng 0,1; tức là vẫn dành chỗ cho một khả năng nhỏ là bạn nhớ nhầm, hoặc Thaksin tái đắc cử.

Nếu bạn tra Wikipedia, bạn có thể thấy rằng Thaksin không phải là thủ tướng Thái Lan (tại thời điểm cuốn sách này được viết). Dựa trên thông tin này, bạn có thể sửa lại ước tính cho xác suất chỉ còn 0,01; tức là có xét đến khả năng Wikipedia bị nhầm lẫn.

Các quy tắc với xác suất

Với các xác suất theo tần suất, chúng ta có thể rút ra những quy tắc gắn với xác suất của những sự kiện khác nhau. Có lẽ trong số những quy tắc kiểu này thì thường được biêt đến rõ nhất là:

P(A và B) = P(A) P(B)     Lưu ý: không phải lúc nào cũng đúng!

trong đó P(A và B) là xác suất mà cả hai hiện tượng A và B đều xảy ra. Công thức này dễ nhớ; song vấn đề duy nhất là không phải lúc nào nó cũng đúng. Công thức này chỉ dùng được khi A và B là độc lập, có nghĩa là nếu tôi biết rằng A đã xảy ra, thì điều đó chẳng làm thay đổi xác suất của B, và ngược lại. Chẳng hạn, nếu A là việc tung đồng xu để được mặt ngửa, và B là việc gieo xúc sắc và được mặt “nhất”, thì A và B là độc lập nhau, vì tung đồng xu chẳng cho tôi biết thêm gì về việc gieo xúc sắc. Nhưng nếu tôi gieo hai con xúc sắc, và A là việc được ít nhất một mặt “lục”, và B là được hai mặt lục, thì A và B không độc lập, vì nếu tôi đã biết rằng A xảy ra rồi, thì xác suất xảy ra B cao hơn, và nếu tôi biết B đã xảy ra rồi, thì xác suất của A bằng 1. Khi A và B không độc lập nhau, thường ta sẽ cần tính xác suất có điều kiện, P(A|B), vốn là xác suất của A khi biết rằng B đã xảy ra:
P(AB) = P(AB) / P(B)
Từ đó ta có thể rút ra hệ thức tổng quát

P(A và B) = P(A) P(B|A)

Công thức này có thể không dễ nhớ bằng, nhưng nếu bạn dịch ra ngôn ngữ nói thì nó sẽ có nghĩa: “Khả năng xảy ra cả hai sự kiện bằng khả năng xảy ra sự kiện thứ nhất, và sau đó là sự kiện thứ hai khi sự kiện thứ nhất đã xảy ra.”

Không có gì đặc biệt về thứ tự các sự kiện, do đó ta có thể viết

P(A và B) = P(B) P(A|B)

Các hệ thức này đúng bất kể A và B có độc lập hay không. Nếu chúng độc lập nhau, thì P(A|B) = P(A), và ta quay về điểm xuất phát.

Vì tất cả các xác suât đều có khoảng từ 0 đến 1, nên dễ thấy được

P(A và B) ≤ P(A)

Để hình dung được điều này, hãy tưởng tượng một câu lạc bộ chỉ kết nạp những người có được tiêu chuẩn nào đó, A. Bây giờ, giả sử họ bổ sung một tiêu chuẩn nữa, B. Dường như hiển nhiên là câu lạc bộ sẽ bị thu nhỏ đi, hoặc sẽ giữ nguyên nếu mọi thành viên ai cũng thỏa mãn B. Nhưng có một số tình huống mà mọi người lại phân tích kiểu bài toán này rất kém. Các bạn có thể tham khảo những ví dụ và bình luận về điều này ở http://wikipedia.org/wiki/Conjunction_fallacy.

Nếu tôi gieo hai con xúc sắc và thu được tổng là 8, thì có bao nhiêu phần khả năng một con xúc sắc có mặt lục?

Nếu tôi gieo 100 con xúc sắc, có bao nhiêu phần khả năng thu được toàn mặt lục? Bao nhiêu khả năng không thu được mặt lục nào?

Những câu hỏi sau đây được chỉnh lại từ nguồn Mlodinow, The Drunkard’s Walk.

  1. Nếu một gia đình có hai con, thì khả năng có hai con gái là bao nhiêu?
  2. Nếu một gia đình có hai con và ta đã biết rằng có ít nhất một con gái, thì khả năng có hai con gái là bao nhiêu?
  3. Nếu một gia đình có hai con và ta đã biết rằng con lớn là một con gái, thì khả năng có hai con gái là bao nhiêu?
  4. Nếu một gia đình có hai con và ta đã biết rằng có ít nhất một đứa con gái có tên là Florida, thì khả năng có hai con gái là bao nhiêu?

Bạn có thể giả sử rằng xác suất để một đứa bé bất kì là gái thì bằng 1/2, và các đứa trẻ trong một gia đình là các phép thử độc lập (theo mọi nghĩa). Bạn cũng có thể giả sử rằng tỉ lệ phần trăm của những đứa bé gái có tên là Florida thì rất nhỏ.

Monty Hall

Bài toán Monty Hall có thể không phải là câu hỏi dễ gây tranh cãi nhất trong lịch sử môn học xác suất. Tình huống rất đơn giản, nhưng câu trả lời đúng lại thật phản trực giác đến nỗi nhiều người không thể chấp nhận được nó, và nhiều người thông minh đã tự làm khó mình không chỉ vì đã đoán sai, mà còn lý sự để bênh vực cái sai, ngay trước công chúng.

Monty Hall có thời là chủ biên của sô diễn Let’s Make a Deal. Bài toán Monty Hall được dựa trên một trò chơi thường xuyên của chương trình này. Nếu bạn được nhập vai người chơi thì mọi việc sẽ xảy ra như sau:

  • Monty chỉ cho bạn thấy ba cánh cửa đóng kín và nói rằng có một phần thưởng sau mỗi cánh cửa: một giải là chiếc xe hơi, hai giải thưởng còn lại thì kém giá trị hơn, chảng hạn kem lạc và móng tay giả. Giải thưởng được sắp xếp ngẫu nhiên.
  • Mục đích của trò chơi là đoán cánh cửa nào đang che chiếc xe hơi. Nếu bạn đoán đúng, bạn sẽ được thưởng chiếc xe đó.
  • Vì vậy bạn chọn một cánh cửa, mà ta sẽ gọi là cửa A. Ta gọi các cánh cửa kia là B và C.
  • Trước khi mở cánh cửa mà bạn đã chọn, Monty muốn tăng mức độ gay cấn bằng cách mở cánh cửa B hoặc C, mà không có xe ở sau. (Ngay cả nếu có xe sau cửa A, Monty vẫn có thể mở cửa B hoặc C được, và họ sẽ chọn mở cửa ngẫu nhiên).
  • Sau đó Monty cho bạn lựa chọn hoặc là giữ nguyên cánh cửa đã chọn, hoặc là chuyển sang cánh cửa còn lại vẫn đang đóng.

Câu hỏi là, liệu bạn nên “giữ nguyên” hay “chuyển” hoặc hai điều này chẳng khác gì? Phần lớn chúng ta đều có trực giác mạnh rằng có chuyển hay giữ cũng chẳng khác gì; với suy luận là, còn hai cánh cửa thì khả năng xe ở sau cửa A là 50%.

Nhưng điều này sai. Thật ra, khả năng đoán đúng nếu bạn cố giữ cửa A chỉ còn 1/3; nếu bạn chuyển thì sẽ có khả năng 2/3. Tôi sẽ giải thích tại sao, nhưng cũng không trông đợi là bạn tin tôi ngay.

Vấn đề mâu chốt để nhận thấy điều này là có ba tình huống có thể: xe ở sau cánh cửa A, B, hoặc C. Vì giải thưởng được sắp xếp ngẫu nhiên nên xác suất của mỗi tình huống này đều bằng 1/3.

Nếu chiến thuật của bạn là giữ nguyên cửa A, thì bạn chỉ giành giải trong tình huống A, tức là với xác suất bằng 1/3.

Nếu chiến thuật của bạn là chuyển, thì bạn sẽ giành giải trong cả tình huống B hoặc C, như vậy xác suất tổng hợp để giành giải sẽ là 2/3.

Nếu bạn vẫn không chịu thuyết phục bởi lập luận này, thì bạn có vấn đề cũng như nhiều người khác. Khi một người bạn trình bày lời giải này cho Paul Erdos, ông đã trả lời, “Không, không thể nào. Điều này là không thể. Đúng ra là không có khác biệt nào.1

Mọi lý luận đều không thể thuyết phục được ông. Cuối cùng phải nhờ đến mô phỏng bằng máy tính thì ông mới chịu tin.

Hãy viết một chương trình để mô phỏng bài toán Monty Python rồi dùng nó để ước tính xác suất giành giải nếu bạn giữ nguyên và nếu bạn chuyển.

Sau đó hãy đọc lời bàn luận xoay quanh bài toán này tại http://wikipedia.org/wiki/Monty_Hall_problem.

Bạn thấy cách nào thuyết phục hơn, chương trình mô phỏng hay lý lẽ, và tại sao?

Để hiểu được bài toán Monty Hall, điều quan trọng là nhận thấy được bằng cách chọn cửa để mở, Monty đã cho bạn thông tin. Để thấy được tại sao điều này lại có ích, hãy hình dung trường hợp mà Monty không biết xe nằm sau cửa nào, và họ chọn ngẫu nhiên cửa B hoặc C. Nếu họ mở được trúng vào cửa có xe, thì trò chơi kết thúc, bạn thua, mà còn không được quyền chọn giữ nguyên hoặc chuyển nữa.

Nếu không như vậy, bạn còn thấy nên giữ hay chuyển?

Poincare

Henri Poincare từng là một nhà toán học người Pháp dạy ở trường Sorbonne vào khoảng những năm 1900. Lời đồn sau đây về ông có thể đã được thêu dệt, nhưng nó trở thành một bài toán xác suất thú vị. Giả sử rằng Poincare nghi ngờ là xưởng sản xuất bánh mì ở làng ông đang bán ổ bánh mì nhẹ hơn khối lượng niêm yết là 1 kg, vì vậy hằng ngày ông đều mua một ổ bánh, mang về nhà và đem cân lên. Đến cuối năm, ông vẽ đồ thị phân bố kết quả cân rồi cho thấy kết quả này khớp với một phân bố chuẩn có trị trung bình 950 g và độ lệch chuẩn 50 g. Ông mang bằng chứng này đến cảnh sát, và họ cảnh cáo chủ xưởng bánh. Sang năm tới, Poincare tiếp tục thói quen cân bánh mì mỗi ngày. Và đến cuối năm, ông thấy rằng khối lượng bằng 1000 g đúng như yêu cầu, nhưng một lần nữa ông có ý kiến với cảnh sát, và lần này họ lại phạt xưởng bánh. Vì sao? Vì hình dạng của phân bố bất đối xứng. Không như phân bố chuẩn, nó bị lệch sang phải, tức là thống nhất với giả thuyết rằng thợ làm bánh vẫn sản xuất ổ bánh 950 g, nhưng cố ý bán cho Poincare những ổ nặng hơn.

Hãy viết một chương trình để mô phỏng người thợ bánh khi chọn n ổ từ một phân bố với trị trung bình 950 g và độ lệch chuẩn 50 g, rồi bán cho Poincare những chiếc nặng nhất. Giá trị nào của n cho ta phân bố có trị trung bình bằng 1000 g? Độ lệch chuẩn bằng bao nhiêu?

Hãy so sánh dạng phân bố này với một phân bố chuẩn có cùng trị trung bình và độ lệch chuẩn. Liệu sự khác biệt về hình dạng phân bố có đủ rõ ràng để thuyết phục được người cảnh sát không?

Nếu bạn đi khiêu vụ ở đó các cặp được chọn ngẫu nhiên thì có bao nhiêu phần trăm những cặp khác phái có người phụ nữ cao hơn nam giới? Trong BRFSS (xem Mục [phân bố loga chuẩn]), phân bố của chiều cao con người có dạng xấp xỉ chuẩn với các tham số μ = 178 cm và σ2 = 59,4 cm ở nam giới, và μ = 163 cm và σ2 = 52,8 cm ở nữ giới. [* Lưu ý: Mặc dù chỗ này tôi viết giống sách gốc dùng đơn vị cm cho σ2 nhưng chính ra đơn vị phải là cm2. *] Cũng phải nói thêm, bạn có thể nhận thấy rằng độ lệch chuẩn của nam giới thì lớn hơn và tự hỏi rằng liệu chiều cao của nam giới có biến động nhiều hơn không. Để so sánh độ biến động giữa các nhóm, cần phải tính hệ số biến động, vốn là tỉ lệ giữa độ lệch chuẩn với trị trung bình, σ/μ. Theo độ đo này, chiều cao của nữ giới có biến động cao hơn một chút.

Một quy tắc khác về xác suất

Hai sự kiện được gọi là xung khắc tương hỗ nếu chỉ một trong số chúng có thể xảy ra, vì vậy các xác suất điều kiện đều bằng 0:

P(A|B) = P(B|A) = 0

Trong trường hợp này, dễ tính được xác suất của từng sự kiện:

P(A hoặc B) = P(A) + P(B) Lưu ý: không phải lúc nào cũng đúng.

Nhưng nhớ rằng điều này chỉ áp dụng được khi các sự kiện xung khắc tương hỗ. Nói chung, xác suất của A hoặc B hoặc cả hai thì bằng:

P(A hoặc B) = P(A) + P(B)  -  P(A và B)

Lý do ta phải trừ đi P(A và B) là vì nếu không thì nó sẽ được tính hai lần. Chẳng hạn, nếu tôi tung 2 đồng xu thì khả năng ít nhất một mặt sấp sẽ bằng 1/2 + 1/2  -  1/4. Tôi phải trừ đi 1/4 vì nếu không tôi sẽ tính trường hợp cả 2 đều ngửa là hai lần. Vấn đề sẽ còn rõ hơn nêu tôi tung 3 đồng xu.

Nếu tôi gieo hai con xúc sắc thì khả năng gieo được ít nhất một mặt lục sẽ bằng bao nhiêu?

Công thức chung để tính xác suất của A hoặc B nhưng không phải cả hai là gì?

Phân bố nhị thức

Nếu tôi gieo 100 con xúc sắc thì khả năng thu được toàn bộ mặt lục là (1 / 6)100. Và khả năng không được mặt lục nào thì bằng (5 / 6)100.

Những trường hợp như vậy rất dễ, nhưng tổng quá hơn, chúng ta có thể muốn biết khả năng thu được k mặt lục, với mọi giá trị của k từ 0 đến 100. Câu trả lời là phân bố nhị thức, vốn có PMF sau:
PMF(k) = Cnkpk(1 - p)n - k
trong đó n là số phép thử, p là xác suất thành công, và k là số lần thành công. Hệ số nhị thức được đọc là “n chọn k”, và nó có thể được tính trực tiếp như sau:
Cnk = n! / k!(n - k)!
hoặc theo cách truy hồi sau:
Cnk = Cn - 1k + Cn - 1k - 1
với hai trường hợp cơ bản: nếu n = 0 thì kết quả sẽ bằng 0; nếu k = 0 thì kết quả sẽ bằng 1. Nếu tải về http://thinkstats.com/thinkstats.py, bạn sẽ thấy một hàm có tên binom để tính hệ số nhị thức khá hiệu quả.

Nếu bạn tung đồng xu 100 lần, bạn sẽ trông đợi 50 mặt ngửa, nhưng xác suất để có được chính xác 50 mặt ngửa thì bằng bao nhiêu?

Chuỗi thắng lợi và những bàn tay vàng

Chúng ta thường không có trực giác tốt về những quá trình ngẫu nhiên. Nếu bạn yêu cầu người khác viết ra các số “ngẫu nhiên”, họ sẽ có xu hướng tạo ra các dãy số trông có vẻ ngẫu nhiên, nhưng thực ra là trật tự hơn so với các dãy ngẫu nhiên theo đúng nghĩa. Ngược lại, khi bạn cho họ xem một chuỗi số ngẫu nhiên thực sự, thông thường họ sẽ có xu hướng tìm ra những quy luật mà thực ra không có ở chuỗi số đó.

Một ví dụ cho hiện tượng thứ hai nói trên là có nhiều người tin vào “chuỗi thắng” trong thể thao: một người chơi thành công gần đây được gọi là “bàn tay vàng;” một người chơi khác không thành công bằng thì gọi là “hết thời.” Các nhà thống kê đã kiểm tra những giả thiết này trong một loạt các môn thể thao, và kết quả thống nhất là không có thứ gì gọi là chuỗi thắng.2 Nếu bạn giả sử rằng mỗi cố gắng có tính độc lập với những cố gắng trước đó thì sẽ thấy được rằng hiếm khi xảy ra chuỗi chiến thắng hoặc thất bại liên tiếp. Những chuỗi thắng hiện hữu đó không đủ để chứng tỏ có mối liên hệ gì giữa những nỗ lực kế tiếp. Một hiện tượng có liên quan là ảo tượng cụm, vốn là xu thế nhìn thấy những cụm trong các mẫu hình không gian hoàn toàn ngẫu nhiên (xem http://wikipedia.org/wiki/Clustering_illusion). Để kiểm tra xem rằng liệu sự hiện hữu của một cụm thì có ý nghĩa hay không, chúng ta có thể mô phỏng động thái của một hệ ngẫu nhiên để xem liệu nó có thể tạo ra một cụm tương tự không. Quá trình này được gọi là mô phỏng Monte Carlo vì việc phát sinh các số ngẫu nhiên gợi cho ta nhớ về các sòng bạc (và Monte Carlo nổi tiếng về sòng bạc).

Nếu có 10 người chơi một trận bóng rổ và trong trận mỗi người ném 15 quả, mỗi quả có xác suất trúng bằng 50% thì xác suất mà bạn sẽ thấy trong một trận đấu có ít nhất một người ném được liền 10 quả là bao nhiêu? Nếu bạn xem cả mùa giải gồm 82 trận thì khả năng bạn sẽ thấy được ít nhất một cầu thủ ném được trúng liền 10 quả hay trượt liền 10 quả là bao nhiêu? Bài toán này cho thấy mặt mạnh và mặt yếu của mô phỏng Monte Carlo. Một điểm mạnh là viết được chương trình mô phỏng thường dễ đàng và nhanh chóng, mà không cần phải có kiến thức cao siêu về xác suât. Còn điểm yếu là ở chỗ ước tính xác suất của một sự kiện hiếm có thể sẽ mất nhiều thời gian! Việc phân tích một chút có thể sẽ giúp bớt được nhiều tính toán.

Vào năm 1941 Joe DiMaggio đã có chuỗi 56 trận liền mạch mà mỗi trận đầu ít nhất 1 lần đánh trúng.3 Nhiều cổ động viên bóng chày cho rằng đây là chuỗi thành tích lớn nhất trong bất kì môn thể thao nào có trong lịch sử, vì nó quá hiếm khi xảy ra. Hãy dùng phép mô phỏng Monte Carlo để ước tính xác suất mà một cầu thủ trong giải bóng chày liên đoàn [Major League] sẽ đánh được chuỗi liên tiếp 57 trận hoặc cao hơn trong khoảng 100 năm tới.

Một cụm ung thư được Centers for Disease Control (CDC) định nghĩa là “số ca ung thư cao hơn dự tính xảy ra trong một nhóm người ở một khu vực địa lý trong suốt một khoảng thời gian.4” Nhiều người diễn giải cụm ung thư như là một bằng chứng cho hiểm họa môi trường, nhưng nhiều nhà khoa học và thống kê học nghĩ rằng việc nghiên cứu cụm ung thư chỉ phí thời gian.5 Tại sao? Một trong số các lý do là vì nhận diện cụm ung thư là một trường hợp kinh điển thuộc về Sự ngộ nhận của xạ thủ (xem http://wikipedia.org/wiki/Texas_sharpshooter_fallacy). Mặc dù vậy, khi ai đó báo cáo về một cụm ung thư, CDC buộc phải tiến hành điều tra. Theo trang web của họ: [tạm dịch]

“Các điều tra viên xây dựng một định nghĩa về ‘ca’, một khung thời gian nghiên cứu, và tổng thể đang chịu rủi ro. Sau đó họ sẽ tính số ca được trông đợi rồi so sánh với số ca quan sát được. Một nhóm sẽ được xác nhận là có tồn tại nếu tỉ lệ giữa số quan sát được / số trông đợi lớn hơn 1.0, và sự khác biệt là có ý nghĩa thống kê.”

  1. Giả sử rằng một căn bệnh ung thư nào đó có quan sát thấy 1 ca trong số 1000 người mỗi năm. Nếu bạn theo một nhóm 100 người nhất định trong suốt 10 năm, thì bạn trông đợi sẽ gặp 1 ca. Nếu bạn thấy 2 ca, thì điều đó cũng không quá ngạc nhiên, nhưng hơn 2 ca sẽ rất hiếm.Hãy viết một chương trình để mô phỏng một số đông các nhóm theo quãng thời gian 10 năm rồi ước tính phân bố của tổng số các ca.
  2. Một quan sát được coi là có ý nghĩa về thống kê nếu xác suất của riêng nó, gọi là giá trị p, nhỏ hơn 5%. Trong một nhóm 100 người suốt 10 năm, bạn sẽ gặp bao nhiêu ca có tiêu chuẩn trên?
  3. Bây giờ hãy tưởng tượng như bạn chia tổng thể 10000 người thành 100 nhóm rồi theo dõi họ suốt 10 năm. Có khả năng bao nhiêu là ít nhất một nhóm trong đó có cụm “có ý nghĩa thống kê” xuất hiện? Bao nhiêu nếu ta yêu cầu giá trị p bằng 1%.?
  4. Bây giờ, tưởng tượng là bạn sắp xếp 10000 người vào một lưới gồm 100  ×  100 ô rồi theo dõi họ trong vòng 10 năm. Có bao nhiêu phần khả năng có ít nhất một khối gồm 10  ×  10 ô trong lưới ban đầu có một cụm với ý nghĩa thống kê?
  5. Cuối cùng, hãy tưởng tượng là bạn dõi theo một lưới gồm 10000 người trong suốt 30 năm. Có bao nhiêu phần khả năng sẽ có một khoảng thời gian 10 năm trong đó tồn tại ít nhất một khối 10  ×  10 ô trong lưới có cụm với ý nghĩa thống kê?

Định lý Bayes

Định lý Bayes phát biểu về mối liên hệ giữa các xác suất điều kiện của hai biến cố. Một xác suất điều kiện, thường được viết P(A|B) là xác suất để Biến cố A sẽ xảy ra khi ta biết rằng Biến cố B đã xảy ra rồi. Định lý Bayes phát biểu rằng:
P(AB) = P(BA) P(A) / P(B)
Để thấy được điều này là đúng, ta cần viết P(A và B), vốn là xác suất để cả A và B đều xuất hiện

P(A và B) = P(A) P(B|A)

Nhưng cũng đúng nếu viết

P(A và B) = P(B) P(A|B)

Vì vậy

P(B) P(A|B) = P(A) P(B|A)

Chia cả hai vế cho P(B) ta được định lý Bayes.6 Định lý Bayes thường được diễn đạt như một khẳng định về cách thức mà một bằng chứng, E, làm ảnh hưởng đến xác suất của một giả thiết, H:
P(HE) = P(H) P(EH) / P(E)
Bằng lời nói, phương trình này phát biểu rằng xác suất của H sau khi bạn đã thấy E bằng tích của P(H), vốn bằng xác suất của H trước khi bạn thấy bằng chứng này, và tỉ số giữa P(E|H), xác suất của việc thấy bằng chứng với giả định rằng H đúng, với P(E), xác suất của việc thấy bằng chứng trong bất kì trường hợp nào (H đúng hoặc sai). Cách phát biểu này của định lý Bayes được gọi là diễn giải tính “thay đổi theo thời gian” vì nó mô tả xác suất của một giả thiết được cập nhật theo thời gian như thế nào, thường là từ quan điểm của bằng chứng mới. Ở đây, P(H) được gọi là xác suất tiên nghiệm còn P(H|E) được gọi là xác suất hậu nghiệm. P(E|H) là độ đo khả năng của bằng chứng, còn P(E) là hằng số chuẩn hóa. Một cách sử dụng kinh điển của định lý Bayes là việc diễn giải kết quả khám y khoa. Chẳng hạn, việc khám định kỳ để phát hiện trường hợp dùng thuốc bị cấm đang ngày càng phổ biến trong các công sở và trường học (Xem http://aclu.org/drugpolicy/testing.). Các công ty thực hiện những đợt kiểm tra này khẳng định rằng: phép kiểm tra rất nhạy, có nghĩa là rất dễ thu được kết quả dương tính nếu có thuốc (hay metabolite) trong mẫu; đồng thời cũng rất đặc hiệu, nghĩa là rất dễ nhận được kết quả âm tính nếu không có thuốc. Nghiên cứu tiến hành bởi Journal of the American Medical Association7 ước tính được rằng các phép kiểm tra thuốc nói chung độ nhạy vào khoảng 60% và độ đặc hiệu khoảng 99%.

Bây giờ giả sử như các phép thử này được áp dụng cho một đoàn nhân viên trong đó tỉ lệ thật của việc dùng thuốc là 5%. Với những nhân viên có kết quả dương tính, sẽ có bao nhiêu người thực sự dùng thuốc?

Theo cách làm của Bayes, ta muốn tính xác suất của việc dùng thuốc khi biết trước phép thử dương tính, P(D|E). Định luật Bayes cho ta:
P(DE) = P(D) P(ED) / P(E)
Xác suất tiên nghiệm, P(D) là xác suất dùng thuốc trước khi ta thấy kết quả của kiểm tra, vốn bằng 5%. Độ đo khả năng, P(E|D), là xác suất của một kết quả dương tính khi có dùng thuốc, vốn chính là độ nhạy.

Hằng số chuẩn hóa, P(E) hơi khó lượng giá hơn một chút. Ta phải xét hai trường hợp, P(E|D) và P(E|n), trong đó n là giả thiết rằng người được kiểm tra không dùng thuốc:

P(E) = P(D) P(E|D) + P(n) P(E|n)

Xác suất của một kết quả dương tính nhầm, P(E|n), bằng phần bù của độ đặc hiệu, hay 1%. Ghép chúng lại với nhau, ta có
P(DE) = P(D) P(ED) / [P(D) P(ED) + P(N) P(EN)]
Thay các gíá trị đã cho vào biểu thức này ta được P(D|E) = 0,76; điều đó có nghĩa là trong số những người dương tính sau khi kiểm tra, cứ khoảng 4 người thì có 1 người thật ra không dùng thuốc.

Hãy viết một chương trình nhận vào tỉ lệ dùng thuốc thực sự, các độ nhạy và độ đặc hiệu của phép thử, rồi dùng định lý Bayes để tính P(D|E).

Giả sử rằng phép thử này được áp dụng cho quần thể trong đó tỉ lệ dùng thuốc thực tế bằng 1%. Xác suất để một người nào đó với kết quả dương tính đúng là người đã dùng thuốc bằng bao nhiêu?

Bài tập này được lấy từ http://wikipedia.org/wiki/Bayesian_inference.

“Giả sử rằng có hai bát đựng đầy bánh. Bát 1 có 10 bánh sô-cô-la và 30 chiếc bánh thường, trong khi Bát 2 có 20 chiếc bánh mỗi loại. Anh bạn Fred chọn một bát ngẫu nhiên, rồi chọn ngẫu nhiên một chiếc bánh. Hóa ra đây là một chiếc bánh thường. Hỏi khả năng Fred đã chọn bánh từ Bát 1 là bao nhiêu?”

Các viên sô-cô-la M&M màu xanh lam được ra mắt vào năm 1995. Trước đó, tỉ lệ trộn lẫn sô-cô-la trong mỗi gói M&M là (30% Nâu, 20% Vàng, 20% Đỏ, 10% Xanh lục, 10% Cam, 10% Màu da). Sau này được đổi thành (24% Xanh lam, 20% Xanh lục, 16% Da cam, 14% Vàng, 13% Đỏ, 13% Nâu).

Một cậu bạn tôi có hai gói M&M, và anh cho tôi biết rằng một gói từ năm 1994 và gói kia từ năm 1996. Anh không bảo tôi biết gói nào, mà đưa tôi một viên M&M từ mỗi túi. Một viên màu vàng và viên kia màu xanh lục. Hỏi xác suất để viên M&M màu vàng thuộc về túi năm 1994 bằng bao nhiêu?

Bài tập này được chỉnh lại từ nguồn MacKay, Information Theory, Inference, và Learning Algorithms: Elvis Presley có người anh sinh đôi nhưng đã mất lúc vừa chào đời. Theo Wikipedia thì thông tin về các cặp sinh đôi như sau:

“Các cặp sinh đôi chiếm khoảng 1,9% số dân trên thế giới, trong đó sinh đôi cùng trứng chiếm khoảng 0,2% tổng số dân—hay 8% các cặp sinh đôi.”

Vậy xác suất để Elvis có người anh sinh đôi cùng trứng là bao nhiêu?

Thuật ngữ

biến cố:
Điều có thể xảy ra hoặc không, với một xác suất nào đó.
phép thử:
Một trong chuỗi các dịp mà một biến cố có thể xảy ra.
thành công:
Phép thử trong đó một biến cố đã xảy ra.
thất bại:
Phép thử trong đó không có biến cố nào xảy ra.
thuyết tần suất:
Cách diễn giải chặt chẽ về xác suất chỉ áp dụng được với một dãy các phép thử đồng nhất.
thuyết Bayes:
Cách diễn giải tổng quát hơn có dùng đến xác suất để biểu diễn một mức độ tin cậy mang tính chủ quan.
độc lập:
Hai biến cố được gọi là độc lập nếu sự xuất hiện của biến cố này không làm ảnh hưởng đến xác suất của biến cố kia.
hệ số biến thiên:
Một đặc trưng thống kê nhằm tóm tắt độ phân tán, được chuẩn hóa theo xu thế trung tâm, để so sánh giữa các phân bố có trị trung bình khác nhau.
mô phỏng Monte Carlo:
Phương pháp tính xác suất bằng cách mô phỏng những quá trình ngẫu nhiên (xem http://wikipedia.org/wiki/Monte_Carlo_method).
cập nhật:
Quá trình dùng dữ liệu để tính lại một xác suất.
tiên nghiệm:
Xác suất trước khi được cập nhật bằng định lý Bayes.
hậu nghiệm:
Xác suất được tính theo định lý Bayes.
độ đo khả năng của bằng chứng:
Một thuật ngữ trong định lý Bayes, đó là xác suất của bằng chứng đóng vai trò là điều kiện cho một giả thiết.
hằng số chuẩn hóa:
Mẫu số của Định lý Bayes, được dùng để chuẩn hóa kết quả thành một xác suất.

  1. Xem Hoffman, The Man Who Loved Only Numbers, page 83.
  2. Chẳng hạn, xem nguồn Gilovich, Vallone và Tversky, “The hot hvà in basketball: On the misperception of random sequences,” 1985.
  3. Xem http://wikipedia.org/wiki/Hitting_streak.
  4. Nguồn: http://cdc.gov/nceh/clusters/about.htm.
  5. Xem Gawvafe, “The Cancer Cluster Myth,” New Yorker, Feb 8, 1997.
  6. Xem http://wikipedia.org/wiki/Q.E.D.!
  7. Tôi lấy những con số này từ Gleason và Barnum, “Predictive Probabilities In Employee Drug-Testing,” tại http://piercelaw.edu/risk/vol2/winter/gleason.htm.

1 Phản hồi

Filed under Think Stats

One response to “Chương 5: Xác suất

  1. Pingback: Think Stats: Xác suất thống kê dành cho người lập trình | Blog của Chiến

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s