Chương 4: Phân bố liên tục

Trở về Mục lục quyển sách

Những phân bố mà chúng ta đã gặp cho đến giờ được gọi là phân bố kinh nghiệm vì chúng được dựa trên những quan sát kinh nghiệm, vốn là các mẫu có kích thước giới hạn.

Một phân bố khác là phân bố liên tục, vốn được đặc trưng bởi một CDF dưới dạng hàm liên tục (thay vì hàm bậc thang). Nhiều hiện tượng thực tế có thể được xấp xỉ bằng những phân bố liên tục.

Phân bố lũy thừa

Tôi sẽ bắt đầu với phân bố lũy thừa vì giải thích nó rất dễ. Trong thực tế, các phân bố lũy thừa thường được bắt gặp khi ta quan sát một chuỗi các hiện tượng và đo khoảng thời gian giữa hai hiện tượng kế tiếp, mà chúng ta gọi là thời gian giữa hai sự kiện. Nếu các sự kiện có vẻ như xảy ra được bất kì lúc nào thì phân bố giữa khoảng thời gian liên tiếp này sẽ có xu hướng tuân theo một phân bố lũy thừa. CDF của một phân bố lũy thừa là:
CDF(x) = 1 - e - λx
Thông số λ quyết định hình dạng của phân bố. Hình dưới đây cho thấy CDF này trông ra sao với λ = 2.

CDF của phân bố lũy thừa. (expo_cdf)

Nói chung, giá trị trung bình của phân bố lũy thừa bằng 1/ λ, nên trị trung bình của phân bố này bằng 0,5. Số trung vị thì bằng log(2)/λ, vốn xấp xỉ bằng 0,35. Để xem ví dụ về một phân bố có dạng xấp xỉ lũy thừa, ta sẽ xét khoảng thời gian giữa hai đứa trẻ chào đời liên tiếp. Vào ngày 18/12/1997, có 44 trẻ được sinh ra ở một bệnh viện tại Brisbane, Úc.1 Thời điểm chào đời của cả 44 đứa bé được đăng trên một tờ báo địa phương; bạn có thể tải dữ liệu về từ http://thinkstats.com/babyboom.dat. Hình {interarrival_cdf} cho thấy CDF của khoảng thời gian, tính theo phút, giữa các ca sinh. Dường như nó có hình dạng tựa như một phân bố lũy thừa, nhưng làm sao ta cho thấy được điều này? Một cách làm và vẽ đồ thị của hàm bù CDF, 1  -  CDF(x), theo trục tỉ lệ log-y. Với số liệu của một hàm lũy thừa, kết quả sẽ là một đường thẳng. Hãy xem bằng cách nào mà ta có điều đó.

Nếu bạn vẽ hàm bù CDF (tức CCDF) của một bộ số liệu mà bạn cho rằng có phân bố lũy thừa, bạn sẽ trông đợi một hàm như:
y ≈ e - λx
Lấy loga cả 2 vế ta được:

log y  ≈   - λ x

Vì vậy theo trục log-y hàm CCDF là một đường thẳng với độ dốc  - λ.

CDF của các thời gian giữa hai sự kiện (interarrival_cdf)

CCDF của các thời gian giữa hai sự kiện (interarrival_ccdf)

Hình {interarrival_ccdf} cho thấy CCDF của thời gian giữa hai ca sinh nở theo trục log-y. Nó không thẳng hoàn toàn, nghĩa là phân bố lũy thừa chỉ là một cách xấp xỉ. Trong phần lớn trường hợp thì giả thiết nền tảng ở đây—việc sinh nở có khả năng xảy ra như nhau bất kể giờ trong ngày—là không hoàn toàn đúng.

Với những giá trị n nhỏ, ta không trông đợi một phân bố kinh nghiệm khớp đúng với phân bố liên tục. Một cách đánh giá chất lượng khớp là phát sinh một mẫu từ phân bố liên tục và xem nó hợp với số liệu đến mức nào. Hàm expovariate trong module random sẽ phát sinh các giá trị ngẫu nhiên từ một phân bố lũy thừa, khi cho trước giá trị của λ. Hãy dùng nó để phát sinh 44 giá trị từ một phân bố lũy thừa với trị trung bình bằng 32,6. Vẽ CCDF lên trục tỉ lệ log-y và so sánh nó với Hình {interarrival_ccdf}. Gợi ý: Bạn có thể dùng hàm pyplot.yscale để dựng trục y theo thang loga.

Hoặc, nếu bạn dùng myplot, hàm Cdf sẽ nhận một tùy chọn kiểu boolean có tên complement, để quy định xem cần phải vẽ đồ thị CDF hay CCDF, và các tùy chọn kiểu chuỗi, xscaleyscale, để chuyển đổi các trục; từ đó có thể vẽ CCDF theo trục tỉ lệ log-y:

myplot.Cdf(cdf, complement=True, xscale='linear', yscale='log') 

Hãy thu thập ngày sinh của các sinh viên cùng lớp, sắp xếp và tính khoảng thời gian theo ngày giữa các ngày sinh. Vẽ đồ thị CDF của các thời gian giữa này, cùng CCDF theo trục tỉ lệ log-y. Liệu nó có trông giống một phân bố lũy thừa không?

Phân bố Pareto

Phân bố Pareto được đặt tên theo nhà kinh tế học Vilfredo Pareto, người đã dùng nó để mô tả sự phân bố mức giàu nghèo (xem http://wikipedia.org/wiki/Pareto_distribution). Từ đó, nó được dùng để mô tả những hiện tượng trong khoa học tự nhiên và xã hội bao gồm quy mô các thành phố, kích cỡ các hạt cát hay thiên thạch, quy mô cháy rừng và động đất. CDF của phân bố Pareto là:
CDF(x) = 1 - (x / xm) - α
Các tham số xmα quyết định vị trí và hình dạng của phân bố. xm là giá trị khả dĩ nhỏ nhất. Hình {pareto_cdf} cho thấy CDF của một phân bố Pareto với các tham số xm = 0,5 và α = 1.

CDF của một phân bố Pareto. (pareto_cdf)

Số trung vị của phân bố này là xm21 / α, tức là bằng 1, nhưng số phần trăm thứ 95 lại bằng 10. Thật khác với phân bố lũy thừa, với số trung vị bằng 1, thì số phần trăm thứ 95 chỉ bằng 1,5. Có một cách kiểm tra đơn giản bằng mắt thường để phát hiện rằng liệu một phân bố kinh nghiệm có khớp với một phân bố Pareto hay không: trên thang log-log, hàm CCDF sẽ trông như một đường thẳng. Nếu bạn vẽ đồ thị CCDF của một mẫu tuân theo phân bố Pareto lên một thang tuyến tính thì bạn sẽ trông đợi một hàm có dạng:
y ≈ (x / xm) - α
Lấy loga cả hai vế ta được:

log y  ≈   - α (log x  -  log xm)

Vì vậy nếu bạn vẽ log y theo log x, nó sẽ có hình dạng như một đường thẳng với độ dốc  - α và giao điểm  - α log xm với trục tung.

Module random có phương thức paretovariate để phát sinh các giá trị ngẫu nhiên từ một phân bố Pareto. Nó nhận vào một tham số α, nhưng không phải xm. Giá trị mặc định cho xm là 1; bạn có thể phát sinh một phân bố với tham số khác bằng cách nhân phân bố này với xm. Hãy viết một hàm bọc có tên paretovariate nhận vào các tham số αxm rồi dùng random.paretovariate để phát sinh các giá trị từ một phân bố Pareto hai tham số. Hãy dùng hàm vừa viết để phát sinh một mẫu từ phân bố Pareto. Tính CCDF rồi vẽ đồ thị của nó lên thang log-log. Liệu đồ thị này có là đường thẳng không? Độ dốc của nó bằng bao nhiêu?

Để hình dung được phân bố Pareto, hãy tưởng tượng thế giới sẽ ra sao nếu như cân nặng của con người tuân theo phân bố Pareto. Chọn các tham số xm = 100 cm và α = 1,7, ta thu được một phân bố với chiều cao tối thiểu hợp lý là 100 cm, và số trung vị 150 cm. Hãy phát sinh 6 tỉ giá trị ngẫu nhiên từ phân bố này. Giá trị trung bình của mẫu này bằng bao nhiêu. Có mấy phần của tổng thể với chiều cao dưới trị trung bình? Người cao nhất trong thế giới Pareto này sẽ cao bao nhiêu?

Định luật Zipf được là kết quả quan sát xem mức độ thường xuyên mà các từ khác nhau được dùng là bao nhiêu. Những từ thường dùng nhất thì có tần số rất cao, nhưng cũng có nhiều từ kì lạ, như “hapaxlegomenon,” chỉ xuât hiện một số ít lần. Định luật Zipf dự đoán rằng trong một văn bản, hay tác phẩm (“corpus”), sự phân bố các tần số từ vựng thì có dạng xấp xỉ Pareto. Hãy tìm một tác phẩm lớn dưới dạng điện tử, bằng bất kì ngôn ngữ nào. Hãy đếm xem mỗi từ xuất hiện bao nhiêu lần. Tính CCDF của số từ đếm được rồi vẽ đồ thị của nó theo thang tỉ lệ log-log. Liệu định luật Zipf có đúng trong trường hợp này không? Giá trị α xấp xỉ bằng bao nhiêu?

Phân bố Weibull là một dạng tổng quát của phân bố lũy thừa, xuất hiện trong phân tích rủi ro (xem http://wikipedia.org/wiki/Weibull_distribution). CDF của nó là
CDF(x) = 1 - e - (x / λ)k
Bạn có thể tìm được một phép biến đổi nào khiến cho phân bố Weibull trở nên giống đường thẳng không? Khi đó độ dốc và tung độ giao điểm sẽ biểu thị điều gì? Hãy dùng random.weibullvariate để phát sinh một mẫu từ phân bố Weibull rồi dùng nó để thử nghiệm phép biến đổi của bạn.

Phân bố chuẩn

Phân bố chuẩn, còn gọi là phân bố Gauss, là loại thường được dùng nhất vì nó mô tả rất nhiều hiện tượng, chí ít là gần đúng. Hóa ra còn một lý do giải thích được tính đa năng của phân bố này, mà ta sẽ xét đến trong Mục {Định lý giới hạn trung tâm}. Phân bố chuẩn có nhiều thuộc tính khiến nó thích hợp với việc dùng để phân tích, nhưng CDF không phải là thuộc tính như vậy. Khác với những kiểu phân bố khác mà ta đã xét đến, với phân bố chuẩn CDF không có dạng biểu thức chính xác nào; cách làm thay thế thông dụng nhất cho CDF là dưới dạng hàm sai số, vốn là hàm đặc biệt ký hiệu bởi erf(x):


Các tham số μσ quy định trị trung bình và độ lệch chuẩn của phân bố này. Nếu các công thức trên làm bạn thấy đau đầu thì đừng lo; chúng rất dễ viết trong Python2. Có nhiều cách xấp xỉ erf(x) nhanh chóng và chính xác. Bạn có thể tải về một cách như vậy từ http://thinkstats.com/erf.py, vốn có các hàm tên là erfNormalCdf.

Hình {normal_cdf} cho thấy CDF của một phân bố chuẩn với các tham số μ = 2,0 và σ = 0,5. Hàm sigmoid của đường cong này là một đặc trưng dễ nhận biết của phân bố chuẩn.

CDF của một phân bố chuẩn. (normal_cdf)

Trong chương trước ta đã xét đến phân bố của cân nặng trẻ sơ sinh từ NSFG. Hình {nsfg_birthwgt_model} cho thấy CDF kinh nghiệm của cân nặng tất cả trẻ được sinh ra và CDF của một phân bố chuẩn có cùng trị trung bình và độ lệch chuẩn.

CDF của cân nặng trẻ sơ sinh theo mô hình phân bố chuẩn. (nsfg_birthwgt_model)

Phân bố chuẩn là một mô hình hợp lý cho bộ số liệu này. Một mô hình là một sự giản hóa có ích. Trong trường hợp này, vì ta có thể tóm gọn dạng phân bố chỉ với hai số, μ = 116,5 và σ = 19,9; và sai số thu được (hiệu số giữa mô hình và số liệu) là nhỏ. Phía dưới số phần trăm thứ 10, đã có sự khác biệt giữa số liệu và mô hình; số liệu cho thấy nhiều trẻ nhẹ cân hơn ta mong đợi từ phân bố chuẩn. Nếu ta cần nghiên cứu những ca sinh sớm thì rất cần phải mô phỏng đúng phần này của phân bố, vì vậy có lẽ sẽ không tốt nếu dùng mô hình phân bố chuẩn.

Thang Weschler đo mức thông minh của người lớn là phép kiểm tra để đo trí thông minh3. Kết quả được chuyển đổi sao cho phân bố của điểm số trong tổng thể nói chung có dạng chuẩn với μ = 100 và σ = 15. Hãy dùng erf.NormalCdf để khảo sát tần số của các hiện tượng hiếm trong một phân bố chuẩn. Có mấy phần dân số có IQ cao hơn trung bình? Có mấy phần vượt trên 115? 130? 145?

Một hiện tượng “6-sigma” là giá trị vượt mức trung bình một khoảng cách bằng 6 lần độ lệch chuẩn. Vì vậy IQ của người 6-sigma thì bằng 190. Trên thế giới 6 tỉ người, có bao nhiêu người có IQ từ 190 trở lên?4

Hãy vẽ đồ thị CDF của thời gian mang thai cho tất cả những ca sinh thành công. Liệu nó có dạng giống như phân bố chuẩn không? Hãy tính trị trung bình và phương sai của mẫu rồi vẽ đồ thị phân bố chuẩn với cùng các tham số đó. Liệu phân bố chuẩn có phải là mô hình tốt cho số liệu này không? Nếu bạn phải tóm tắt dạng phân bố này chỉ với hai đặc trưng thống kê, thì bạn sẽ chọn những đặc trưng nào?

Đồ thị xác suất chuẩn

Đối với các phân bố lũy thừa, Pareto và Weibull, có những phép biến đổi đơn giản mà ta cso thể dùng để kiểm xem liệu một phân bố liên tục có phải là mô hình tốt cho bộ số liệu hay không. Đối với phân bố chuẩn thì không có phép chuyển đổi nào như vậy cả, nhưng có một cách làm thay thế là đồ thị xác suất chuẩn. Nó được dựa theo rankit: nếu bạn phát sinh n giá trị từ một phân bố chuẩn và sắp xếp chúng lại, thì rankit thứ sẽ bằng trị trung bình của phân bố đối với giá trị thứ .

Hãy viết một hàm có tên Sample để phát sinh ra 6 mẫu từ một phân bố chuẩn với μ = 0 và σ = 1. Thực hiện sắp xếp và trả lại các giá trị.

Hãy viết một hàm có tên Samples để gọi Sample 1000 lần và trả lại một danh sách gồm 1000 danh sách.

Nếu bạn áp dụng zip cho danh sách chứa các danh sách nói trên, thì kết quả sẽ là 6 danh sách với mỗi danh sách chứa 1000 giá trị. Hãy tính trị trung bình của mỗi danh sách này rồi in kết quả ra. Tôi dự đoán rằng bạn sẽ nhận được đáp số tựa như sau:

{ - 1.2672,  - 0.6418,  - 0.2016, 0.2016, 0.6418, 1.2672}

Nếu bạn tăng số lần gọi Sample lên, kết quả sẽ hội tụ về những con số trên.

Việc tính chính xác rankit thì tương đối khó, nhưng có những phương pháp số để xấp xỉ chúng. Và có một cách tính mẹo dễ thực hiện hơn:

  1. Từ phân bố chuẩn với μ = 0 và σ = 1, hãy phát sinh một mẫu có cùng kích thước với bộ số liệu hiện có, rồi sắp xếp mẫu này.
  2. Sắp xếp các giá trị trong bộ số liệu.
  3. Chấm các điểm số liệu ban đầu theo các điểm ngẫu nhiên được phát sinh.

Với các bộ dữ liệu lớn, phương pháp này hoạt động tốt. Với bộ số liệu nhỏ hơn, bạn có thể cải thiện nó bằng cách phát sinh m (n+1)  -  1 giá trị từ một phân bố chuẩn, trong đó n là kích thước bộ số liệu còn m là một thừa số. Sau đó bắt đầu từ giá trị thứ m, cứ cách m giá trị lại chọn một.

Phương thức này cũng hoạt động với các phân bố khác, chỉ cần bạn biết cách phát sinh ra mẫu ngẫu nhiên.

Hình {nsfg_birthwgt_normal} là cách mẹo để vẽ được đồ thị xác suất chuẩn của số liệu cân nặng trẻ sơ sinh.

Đồ thị xác suất chuẩn của cân nặng trẻ sơ sinh. (nsfg_birthwgt_normal)

Độ cong của đường này cho thấy rằng có sự lệch khỏi một phân bố chuẩn; tuy vậy, đó vẫn là một mô hình dùng được cho nhiều mục đích.

Hãy viết một hàm có tên NormalPlot nhận vào một dãy giá trị rồi phát sinh một đồ thị xác suất chuẩn. Bạn có thể tải về một lời giải từ http://thinkstats.com/rankit.py. Hãy dùng tốc độ chạy từ relay.py để phát sinh một đồ thị xác suất chuẩn. Liệu rằng phân bố chuẩn có phải là một mô hình tốt cho số liệu này không? Bạn có thể tải về một lời giải từ http://thinkstats.com/relay_normal.py.

Phân bố loga chuẩn

Nếu logarit của một bộ các giá trị hợp thành phân bố chuẩn, thì bản thân các giá trị này sẽ có phân bố loga chuẩn. CDF của phân bố loga chuẩn cũng giống như CDF của phân bố chuẩn khi thay log x cho x.

CDFloga chuẩn(x) = CDFchuẩn(log x)

Các tham số của phân bố loga chuẩn thường được viết là μσ. Song cần nhớ rằng những tham số này không phải là trị trung bình và độ lệch chuẩn; trị trung bình của phân bố loga chuẩn là exp(μ + σ2/2) và độ lệch chuẩn thì lằng nhằng hơn 5. Hóa ra là phân bố cân nặng của người lớn có dạng xấp xỉ loga chuẩn 6.

“National Center for Chronic Disease Prevention and Health Promotion” đã tiến hành cuộc điều tra thường niên như một phần của “Behavioral Risk Factor Surveillance System” (BRFSS)7. Vào năm 2008, họ đã phỏng vấn 414.509 người và lấy các thông tin về cấu trúc dân số, sức khỏe và rủi ro liên quan đến sức khỏe.

CDF của cân nặng người lớn (chuyển đổi loga). (brfss_weight_log)

Trong số dữ liệu thu thập được có cân nặng tính theo ki-lô của 398.484 người. Hình {brfss_weight_log} trên cho thấy phân bố của log w, trong đó w là cân nặng theo ki-lô, cùng với một mô hình phân bố chuẩn. Mô hình phân bố chuẩn khớp với số liệu, mặc dù các số cân nặng lớn nhất ngay cả khi lấy loga vẫn vượt quá mô hình chuẩn. Vì phân bố của log w khớp với một phân bố chuẩn, ta kết luận được rằng w khớp với một phân bố loga chuẩn.

Hãy tải số liệu BRFSS về từ http://thinkstats.com/CDBRFS08.ASC.gz, và mã lệnh do tôi viết để đọc số liệu đó từ http://thinkstats.com/brfss.py. Hãy chạy brfss.py và khẳng định rằng nó in ra các đặc trưng thống kê cho một vài biến. Hãy viết một chương trình để đọc vào cân nặng của người lớn từ BRFSS và phát sinh các đồ thị xác suất chuẩn cho w và log w. Bạn có thể tải về một lời giải từ http://thinkstats.com/brfss_figs.py.

Phân bố của số dân thành phố được đề xuất lấy làm ví dụ cho một hiện tượng thực tế mà có thể được mô tả bằng một phân bố Pareto. Cục thống kê dân số Hoa Kỳ (U.S. Census Bureau) đã xuất bản số liệu về dân số của từng thành phố / thị trấn trên lãnh thổ nước Mỹ. Tôi đã viết một chương trình nhỏ để tải về số liệu này và lưu nó vào một file. Bạn có thể tải chương trình về từ http://thinkstats.com/populations.py.

  1. Hãy đọc qua chương trình để nắm vững mục đích của nó; rồi chạy nó để tải về và xử lý số liệu.
  2. Viết một chương trình tính rồi vẽ đồ thị phân bố của dân số cho 14593 thành phố và thị trấn trong bộ số liệu.
  3. Vẽ đồ thị CDF lần lượt trên trục tỉ lệ tuyến tính và log-x, từ đó hình dung được hình dạng của phân bố này. Sau đó vẽ CCDF lên trục tỉ lệ log-log để xem liệu nó có hình dạng đặc trưng của một phân bố Pareto không.
  4. Hãy thử các phép biến đổi và kiểu đồ thị khác trong chương này để xem liệu có mô hình nào tốt hơn cho bộ số liệu này không.

Bạn rút ra được kết luận gì về phân bố quy mô (số dân) các thành phố và thị trấn? Bạn có thể tải về một lời giải từ http://thinkstats.com/populations_cdf.py.

Ở Hoa Kỳ, tổ chức Internal Revenue Service (IRS) cung cấp số liệu về thuế thu nhập tại http://irs.gov/taxstats. Một trong số các file của họ, bao gồm thông tin về các khoản thu nhập cá nhân trong năm 2008, được đăng tại http://thinkstats.com/08in11si.csv. Tôi đã chuyển nó sang dạng file chữ CSV (“comma-separated values”); bạn có thể đọc file này bằng module csv.

Từ bộ số liệu này, hãy kết xuất phân bố của thu nhập. Liệu có dạng phân bố liên tục nào trong chương này là mô hình phù hợp cho số liệu này không? Bạn có thể tải về lời giải từ http://thinkstats.com/irs.py.

Tại sao cần dùng mô hình?

Ở đầu chương này, tôi đã nói rằng nhiều hiện tượng thực tế có thể được mô hình hóa bởi phân bố liên tục. Bạn có thể hỏi, “Vậy thì sao?”

Cũng như tất cả mô hình, các phân bố liên tục đều trừu tượng, theo nghĩa chúng lược bỏ tất cả những chi tiết nào được coi là thừa. Chẳng hạn, một phân bố được quan sát có thể chứa những sai số đo đạc hay nhiễu đặc thù của mẫu đó; các mô hình liên tục thì làm trơn tất cả những biến động này. Mô hình liên tục cũng là một hình thức nén dữ liệu. Khi một mô hình khớp phù hợp với bộ số liệu thì một tập hợp ít các tham số có thể tóm tắt được cả một lượng số liệu rất lớn. Đôi khi thật ngạc nhiên khi số liệu từ một hiện tượng tự nhiên lại khớp một phân bố liên tục, nhưng các quan sát này có thể dẫn tới kiến thức sâu sắc về hệ vật lý. Đôi khi chúng ta có thể giải thích tại sao một phân bố quan sát được lại có dạng riêng nào đó. Chẳng hạn, phân bố Pareto thường là kết quả của các quá trình phát sinh với phản hồi tích cực (thường gọi là quá trình gắn kết theo ý thích: hãy xem http://wikipedia.org/wiki/Preferential_attachment.).

Các phân bố liên tục rất thích hợp cho việc phân tích toán học, như ta sẽ được thấy ở Chương {tính toán}.

Phát sinh số ngẫu nhiên

Các CDF liên tục rất có ích trong việc phát sinh ra số ngẫu nhiên. Nếu có một cách làm hiệu quả để tính được CDF ngược, ICDF(p), thì ta sẽ có thể phát sinh ra những giá trị ngẫu nhiên với dạng phân bố thích hợp bằng cách chọn một phân bố đều từ 0 đến 1, rồi chọn

x = ICDF(p)

Chẳng hạn, CDF của phân bố lũy thừa là
p = 1 - e - λx
Giải theo x ta được:

x =  -  log (1  -  p) / λ

Vì vậy trong Python, ta có thể viết

def expovariate(lam): 
    p = random.random() 
    x = -math.log(1-p) / lam 
    return x

Tôi gọi tham số là lamlambda trùng với một từ khóa của Python. Hấu hết phương thức random.random có thể trả lại giá trị 0 nhưng không thể trả lại 1, vì vậy 1  -  p có thể bằng 1 nhưng không bằng 0; điều này tốt vì log 0 là vô định.

Hãy viết một hàm có tên weibullvariate nhận vào lamk rồi trả lại một giá trị ngẫu nhiên từ phân bố Weibull với các tham số đó.

Thuật ngữ

phân bố kinh nghiệm:
Phân bố của các giá trị trong một mẫu.
phân bố liên tục:
Phân bố được mô tả bởi một hàm liên tục.
khoảng thời gian giữa:
Khoảng thời gian trôi qua giữa hai sự kiện.
hàm sai số:
Hàm toán học đặc biệt, nó có tên như vậy vì được tìm ra trong quá trình nghiên cứu sai số của phép đo đạc.
đồ thị xác suất chuẩn:
Đồ thị biểu diễn các giá trị đã sắp xếp trong một mẫu, theo các giá trị được trông đợi của chúng nếu phân bố có dạng chuẩn.
rankit:
Giá trị kì vọng của một phần tử trong danh sách đã sắp xếp gồm các giá trị từ một phân bố chuẩn.
mô hình:
Một cách giản hóa có ích. Các phân bố liên tục thường là mô hình tốt cho những phân bố kinh nghiệm phức tạp hơn.
tác phẩm:
Chỉnh thể văn bản được dùng làm mẫu phân tích ngôn ngữ.
hapaxlegomenon:
Từ xuất hiện chỉ một lần trong tác phẩm. Trong quyển sách này, đến giờ thì nó xuất hiện hai lần.

  1. Ví dụ này được dựa theo thông tin và số liệu từ Dunn, “A Simple Dataset for Demonstrating Common Distributions,” Journal of Statistics Education v.7, n.3 (1999).
  2. Từ Python 3.2, thậm chí còn dễ hơn; erf đã sẵn có trong module math.
  3. Về việc liệu đây có phải là một chủ đề gây tranh cãi thú vị hay không thì bạn có thể tự tìm hiểu lúc rảnh rỗi.
  4. Về chủ đề này, bạn đọc quan tâm có thể xem http://wikipedia.org/wiki/Christopher_Langan.
  5. Xem http://wikipedia.org/wiki/Log-normal_distribution.
  6. Tôi được khuyến cáo điều này, có lẽ qua một lời bình (không ghi chú thích) ở http://mathworld.wolfram.com/LogNormalDistribution.html. Sau đó tôi đã tìm thấy một bài báo đề xuất lý do và cách thực hiện phép chuyển đổi loga; đó là Penman and Johnson, “The Changing Shape of the Body Mass Index Distribution Curve in the Population,” Preventing Chronic Disease, 2006 July; 3(3): A74. Bản trực tuyến tại http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1636707.
  7. Centers for Disease Control and Prevention (CDC). Behavioral Risk Factor Surveillance System Survey Data. Atlanta, Georgia: U.S. Department of Health and Human Services, Centers for Disease Control and Prevention, 2008.

1 Phản hồi

Filed under Think Stats

One response to “Chương 4: Phân bố liên tục

  1. Pingback: Think Stats: Xác suất thống kê dành cho người lập trình | Blog của Chiến

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s