Chương 2: Thống kê mô tả

Trở về Mục lục cuốn sách

Trị trung bình và kỳ vọng

Ở chương trước, tôi đã đề cập đến ba đặc trưng thống kê—trị trung bình, phương sai và trung vị—mà không giải thích ý nghĩa của chúng. Vì vậy, trước khi đi tiếp, ta sẽ làm rõ điều này. Nếu bạn có một mẫu gồm n giá trị, xi, thì giá trị trung bình, μ, là tổng của các giá trị trên chia cho số các giá trị; nói cách khác
μ = (1 / n)∑i xi
Các từ “trị trung bình” và “average” đôi khi có thể dùng thay thế được cho nhau, nhưng tôi vẫn muốn phân biệt:

  • “Trị trung bình” của một mẫu là đặc trưng thống kê được tính theo công thức trên.
  • “average” là một trong nhiều đặc trưng thống kê mà bạn có thể chọn để mô tả giá trị điển hình hay xu hướng trung tâm trong một mẫu.

Đôi khi trị trung bình là một cách mô tả tốt một tập hợp các giá trị. Chẳng hạn, các quả táo nói chung đều có kích thước gần bằng nhau (ít ra là táo bày bán ở siêu thị). Vì vậy nếu tôi mua 6 quả táo và khối lượng tổng cộng là 3 pound thì cũng có lý khi nói rằng mỗi quả táo nặng cỡ nửa pound. Nhưng bí đỏ thì đa dạng hơn. Chẳng hạn ở vườn nhà, tôi trồng bí và một ngày kia thua hoạch được 3 quả bí để bày, mỗi quả nặng 1 pound và hai quả bí pie, mỗi quả nặng 3 pound, và một quả bí Atlantic Giant nặng đến 591 pound. Trị trung bình của mẫu này là 100 pound, nhưng nếu tôi nói “Quả bí trung bình ở vườn nhà tôi nặng 100 pound,” thì sẽ là sai, hoặc chí ít sẽ gây ngộ nhận. Trong trường hợp này, không có trung bình nào có ý nghĩa vì không có quả bí điển hình nào có khối lượng như vậy.

Phương sai

Nếu không có một con số nào đặc trưng được cho khối lượng quả bí thì tốt hơn là chúng ta dùng hai con số: trị trung bình và phương sai.

Cũng như việc trị trung bình được dùng vào mục đích mô tả khuynh hướng trung tâm, phương sai được dùng để mô tả độ phân tán. Phương sai của một tập hợp giá trị thì bằng
σ2 = (1 / n)∑i (xi - μ)2
Số hạng xi μ được gọi là “độ lệch so với trung bình,” vì vậy phương sai là giá trị trung bình của bình phương độ lệch, đó là lí do tại sao nó được kí hiệu là σ2. Căn bậc hai của phương sai, σ, được gọi là độ lệch chuẩn. Bản thân phương sai thì rất khó được diễn giải. Một vấn đề là đơn vị của nó rất kì lạ. Trong trường hợp này, đại lượng được đo tính theo pound, do đó phương sai được tính theo pound bình phương. Độ lệch chuẩn thì có ý nghĩa hơn, trong trường hợp này đơn vị của nó là pound.

Để làm các bài tập trong chương này, bạn cần tải về http://thinkstats.com/thinkstats.py, vốn có chứa các hàm đa năng mà ta sẽ sử dụng xuyên suốt cuốn sách. Bạn có thể đọc hướng dẫn sử dụng các hàm này ở http://thinkstats.com/thinkstats.html. Hãy viết một hàm có tên Pumpkin trong đó dùng các hàm từ thinkstats.py để tính trị trung bình, phương sai và độ lệch chuẩn của khối lượng các quả bí trong mục trước.

Hãy sử dụng lại mã lệnh từ survey.pyfirst.py để tính độ lệch chuẩn của thời kỳ mang thai các bé đầu lòng và các bé sinh sau. Liệu có phải là độ lệch trong hai trường hợp này cũng giống nhau không? Sự khác biệt giữa trị trung bình và độ lệch chuẩn tương ứng trong hai trường hợp này là bao nhiêu? Việc so sánh này có gợi ra điều gì về ý nghĩa thống kê của sự khác biệt?

Nếu có kinh nghiệm, bạn có thể đã thấy một công thức tính phương sai với n  -  1 ở mẫu số, thay vì n. Đặc trưng thống kê này có tên là “phương sai mẫu,” và nó được dùng để ước tính phương sai trong một tổng thể bằng cách dùng một mẫu. Ta sẽ quay trở lại vấn đề này trong Chương 8.

Phân bố

Các đặc trưng thống kê tuy gọn nhưng nguy hiểm ở chỗ chúng che khuất đi số liệu. Một cách làm khác là nhìn vào phân bố của số liệu, vốn miêu tả mỗi giá trị xuất hiện bao nhiêu lần.

Cách biểu thị chung nhất cho một phân bố là biểu đồ tần số, vốn là một đồ thị cho thấy các tần số hay tần suất của mỗi giá trị. Ở đây, tần số nghĩa là số lần xuất hiện của một giá trị trong tập dữ liệu—nó không có gì liên quan đến độ cao thấp của âm thanh hay việc chỉnh núm vặn của ra-đi-ô. Một tần suất là một tần số được biểu diễn dưới dạng tỷ lệ so với kích thước mẫu, n. Trong Python, một cách hiệu quả để biểu diễn các tần số là dùng từ điển. Với một dãy giá trị đã cho, t:

hist = {} 
for x in t: 
    hist[x] = hist.get(x, 0) + 1

Kết quả là một từ điển cho tương ứng (ánh xạ) mỗi giá trị với một tần số. Để chuyển từ tần số sang tần suất, ta đem chia cho n; cách này được gọi là chuẩn hóa:

n = float(len(t)) 
pmf = {} 
for x, freq in hist.items(): 
    pmf[x] = freq / n

Biểu đồ tần suất (sau khi chuẩn hóa) được gọi là PMF, viết tắt cho “probability mass function” (hàm khối xác suất); tức là một hàm ánh xạ từ giá trị đến tần suất (còn ý nghĩa của “mass” [khối lượng] sẽ được giải thích ở Mục {mật độ xác suất}). Có thể sẽ dễ lẫn khi gọi một từ điển của Python là một hàm. Trong toán học, một hàm là phép ánh xạ từ một tập giá trị tới một tập giá trị khác. Trong Python, ta thường biểu diễn hàm toán học với các đối tượng hàm, nhưng trong trường hợp này ta dùng một từ điển (từ điển đôi khi cũng được gọi là “ánh xạ,” bạn có thể gặp tên gọi này ở đâu đó).

Thể hiện biểu đồ tần số

Tôi đã viết một module Python có tên Pmf.py trong đó chứa định nghĩa hàm cho các đối tượng Hist, vốn để biểu diễn biểu đồ tần số, và các đối tượng Pmf, để biểu diễn các hàm khối xác suất. Bạn có thể đọc hướng dẫn sử dụng tại thinkstats.com/Pmf.html và tải mã lệnh về từ thinkstats.com/Pmf.py.

Hàm MakeHistFromList nhận vào một danh sách các giá trị và trả lại một đối tượng Hist mới. Bạn có thể kiểm tra nó từ chế độ tương tác của Python:

>>> import Pmf 
>>> hist = Pmf.MakeHistFromList([1, 2, 2, 3, 5]) 
>>> print hist 
<Pmf.Hist object at 0xb76cf68c>

Pmf.Hist có nghĩa là đối tượng này là một thành viên của lớp Hist, vốn được định nghĩa trong module Pmf. Nói chung, tôi dùng chữ in để viết tên các lớp và hàm, còn tên biến thì được viết chữ thường toàn bộ.

Các đối tượng Hist cung cấp những phương thức để tra tìm giá trị cùng với tần suất tương ứng. Freq nhận vào một giá trị và trả lại tần số của nó:

>>> hist.Freq(2) 
2 

Nếu bạn tra tìm một giá trị mà thực tế không xảy ra, tần số sẽ bằng 0.

>>> hist.Freq(4) 
0 

Values trả lại một danh sách không được sắp xếp, có chứa các giá trị trong Hist:

>>> hist.Values() 
[1, 5, 3, 2] 

Để lặp qua các giá trị theo thứ tự, bạn có thể dùng hàm lập sẵn sorted:

for val in sorted(hist.Values()): 
    print val, hist.Freq(val) 

Nếu bạn dự định tra tìm tất cả các tần số, cách tốt hơn là dùng Items, vốn trả lại một danh sách không được sắp xếp gồm các cặp giá trị–tần số:

for val, freq in hist.Items(): 
    print val, freq 

Số đông (mode) của một dạng phân bố là giá trị hay xuất hiện nhất (xem http://wikipedia.org/wiki/Mode_(statistics)). Hãy viết một hàm có tên Mode nhận vào một đối tượng Hist và trả lại giá trị xuất hiện nhiều nhất.Một nhiệm vụ khó hơn là, hãy viết một hàm có tên AllModes nhận vào đối tượng Hist và trả lại một danh sách các cặp giá trị–tần số xếp theo thứ tự tần số giảm dần. Gợi ý: module operator có một hàm tên là itemgetter mà bạn có thể truyền như một khóa vào cho sorted.

Vẽ đồ thị tần số

Có một số gói Python đảm nhiệm việc vẽ hình và biểu đồ. Tôi sẽ trình bày gói pyplot, vốn là một phần của gói matplotlib tại http://matplotlib.sourceforge.net.

Gói này được kèm trong nhiều bản cài đặt Python. Để xem liệu máy của bạn đã có nó chưa, hãy bật trình thông dịch Python và chạy đoạn chương trình:

import matplotlib.pyplot as pyplot 
pyplot.pie([1,2,3]) 
pyplot.show() 

Nếu đã có matplotlib bạn sẽ nhìn thấy một biểu đồ hình quạt; còn nếu không bạn sẽ phải cài nó. Các biểu đồ tần số và PMF thường được vẽ dưới dạng biểu đồ thanh. Hàm pyplot để vẽ biểu đồ thanh có tên là bar. Các đối tượng Hist có phương thức tên là Render để trả lại một danh sách đã sắp xếp gồm các giá trị và một danh sách các tần số tương ứng, vốn được định dạng thích hợp với bar:

>>> vals, freqs = hist.Render() 
>>> rectangles = pyplot.bar(vals, freqs) 
>>> pyplot.show() 

Tôi đã viết một module có tên myplot.py trong đó có các hàm vẽ biểu đồ tần số, biểu đồ PMF và các đối tượng khác mà ta sẽ sớm gặp. Bạn có thể đọc hướng dẫn sử dụng tại thinkstats.com/myplot.html và tải về mã lệnh từ thinkstats.com/myplot.py. Hoặc bạn có thể dùng pyplot trực tiếp, nếu muốn. Dù bằng cách nào, bạn đều có thể tìm được hướng dẫn dùng pyplot trên mạng. Hình dưới đây cho thấy biểu đồ tần số của các độ dài thời kì mang thai với trẻ đầu lòng và trẻ sinh sau.

Biểu đồ tần số độ dài thời kì mang thai. [nsfg_hist

Biểu đồ tần số rất có ích vì nó khiến cho những đặc điểm sau được rõ ràng ngay:

Số đông:
Giá trị thường gặp nhất trong một phân bố được gọi là số đông. Trên Hình {nsfg_hist} rõ ràng có một số đông là 39 tuần. Ở trường hợp này, số đông là đặc trưng thống kê vì nó mô tả được rõ nhất giá trị điển hình.
Hình dạng:
Xung quanh số đông, phân bố này có tính bất đối xứng; nó nhanh chóng giảm sút về phía tay phải nhưng chỉ giảm từ từ về phía tay trái. Theo quan điểm y học, điều này có nghĩa. Trẻ sơ sinh thường được ra đời sớm, nhưng hiếm khi muộn hơn 42 tuần. Ngoài ra, phần bên phải của phân bố này bị chặn lại bởi bác sĩ thường can thiệp với những ca thai nghén quá 42 tuần.
Điểm biệt lập:
Giá trị nằm cách xa số đông được gọi là điểm biệt lập. Có điểm biệt lập do trường hợp hy hữu, như trẻ sinh ra vào tuần thứ 30. Nhưng đa số điểm biệt lập có thể do lỗi, trong quá trình báo cáo số liệu hoặc ghi chép số liệu.

Mặc dù biểu đồ tần số đã làm rõ một số đặc điểm, nhưng chúng thường không giúp ích cho việc so sánh hai dạng phân bố. Trong ví dụ này, số trẻ đầu lòng thì ít hơn số trẻ sinh sau, nên một phần biểu hiện khác nhau là do hai mẫu có kích thước khác nhau. Ta có thể giải quyết vấn đề này bằng cách dùng PMF.

Biểu diễn PMF

Pmf.py cung cấp một lớp có tên Pmf để biểu diễn các PMF. Cách kí hiệu có thể dễ lầm, nhưng nó là thế này: Pmf là tên của module đồng thời cũng là tên lớp, vì vậy tên đầy đủ của lớp là Pmf.Pmf. Tôi thường dùng pmf để đặt tên biến. Sau cùng, trong cuốn sách này, tôi dùng chữ PMF để chỉ khái niệm chung cho hàm khối xác suất, nó độc lập đến cách viết chương trình.

Để tạo ra một đối tượng Pmf, hãy dùng MakePmfFromList, vốn nhận vào một danh sách các giá trị:

>>> import Pmf 
>>> pmf = Pmf.MakePmfFromList([1, 2, 2, 3, 5]) 
>>> print pmf 
<Pmf.Pmf object at 0xb76cf68c> 

Các đối tượng Pmf và Hist giống nhau về nhiều mặt. Các phương thức ValuesItems có tác dụng giông nhau trong hai kiểu đối tượng trên. Khác biệt lớn nhất là Hist ánh xạ từ giá trị đến số đếm; còn Pmf ánh xạ từ giá trị đến tần suất có giá trị là số dấu phẩy động.

Để tra tìm tần suất ứng với một giá trị, hãy dùng Prob:

>>> pmf.Prob(2) 
0.4 

Bạn có thể sửa lại một Pmf đã có bằng cách tăng tần suất ứng với một giá trị:

>>> pmf.Incr(2, 0.2) 
>>> pmf.Prob(2) 
0.6 

Hoặc bạn có thể nhân xác suất với một hệ số:

>>> pmf.Mult(2, 0.5) 
>>> pmf.Prob(2) 
0.3 

Nếu sửa đổi một Pmf, kết quả có thể sẽ không được chuẩn hóa; nghĩa là các tần suất cộng lại sẽ không bằng 1 nữa. Để kiểm tra, bạn có thể gọi Total, vốn trả lại tổng các tần suất:

>>> pmf.Total() 
0.9 

Để chuẩn hóa lại, hãy gọi Normalize:

>>> pmf.Normalize() 
>>> pmf.Total() 
1.0 

Đối tượng Pmf có một phương thức Copy để bạn có thể tạo ra một bản sao và sửa nó mà không làm ảnh hưởng đến bản gốc.

Theo Wikipedia [tạm dịch], “Phân tích tồn vong là một nhánh của kê học liên quan đến hiện tượng chết của sinh vật và hỏng hóc của hệ cơ học;” xem http://wikipedia.org/wiki/Survival_analysis. Trong một phần của phân tích tồn vong, ta thường phải tính quãng đời còn lại của, chẳng hạn, một chi tiết máy. Nếu biết phân bố của quãng đời và tuổi thọ của chi tiết, thì ta có thể tính được phân bố của quãng đời còn lại.

Hãy viết một hàm có tên RemainingLifetime nhận vào một Pmf của các quãng đời cùng tuổi hiện tại, rồi trả lại một Pmf mới biểu thị cho phân bố của quãng đời còn lại.

Ở Mục {trị trung bình} ta đã tính được trị trung bình của mẫu bằng cách cộng các phần tử lại rồi chia cho n. Nếu đã có một PMF, bạn vẫn có thể tính trị trung bình, nhưng cách làm hơi khác:
μ = ∑i pixi
trong đó các xi là các giá trị duy nhất trong PMF mà pi=PMF(xi). Tương tự, bạn có thể tính phương sai như sau:
σ2 = ∑i pi(xi - μ)2
Hãy viết một hàm có tên PmfMeanPmfVar nhận vào một đối tượng Pmf rồi tính trị trung bình và phương sai, Để thử nghiệm các phương thức này, hãy kiểm tra xem chúng có thống nhất với các phương thức MeanVar trong Pmf.py hay không.

Vẽ đồ thị các PMF

Có hai cách thường dùng để vẽ các Pmf:

  • Để vẽ Pmf dưới dạng biểu đồ cột, bạn có thể dùng pyplot.bar hoặc myplot.Hist. Biểu đồ cột có ích nhất khi số các giá trị trong Pmf còn ít.
  • Để vẽ Pmf dưới dạng đường, bạn có thể dùng pyplot.plot hoặc myplot.Pmf. Biểu đồ dạng đường có ích nhất khi có nhiều các giá trị và Pmf là một hàm trơn.

PMF của quãng thời gian mang thai.

Hình trên cho thấy PMF của các quãng thời gian mang thai được biểu diễn dưới dạng biểu đồ cột. Bằng cách dùng PMF, ta có thể thấy rõ hơn được sự khác biệt giữa hai phân bố. Trẻ đầu lòng thường có vẻ ít chào đời đúng tuần 39, mà thường có thiên hướng muộn (các tuần 41 và 42).

Mã lệnh để tạo ra các hình vẽ trong chương này có sẵn ở http://thinkstats.com/descriptive.py. Để chạy nó, bạn sẽ cần các module nhập vào và dữ liệu từ NSFG (xem Mục {nsfg}). Chú ý: pyplot có một hàm tên là hist nhận vào một dãy các giá trị, tính ra và vẽ biểu đồ tần số. Vì tôi dùng các đối tượng Hist nên thường không dùng đến pyplot.hist.

Điểm biệt lập

Điểm biệt lập là giá trị nằm cách xa xu hướng trung tâm. Điểm biệt lập có thể gây bởi các lỗi trong quá trình thu thập và xử lý số liệu, hoặc có thể đo đúng nhưng gặp hiện tượng bất thường. Bạn nên luôn kiểm tra các điểm biệt lập, và đôi khi việc loại bỏ nó là cần thiết và xác đáng.

Trong danh sách các khoảng thời gian mang thai các ca đẻ thành công, 10 giá trị thấp nhất là {0, 4, 9, 13, 17, 17, 18, 19, 20, 21}. Các giá trị thấp hơn 20 tuần rõ ràng là có lỗi, và các giá trị cao hơn 30 tuần có lẽ là hợp lệ. Nhưng các giá trị nằm giữa 20 và 30 thì khó phân giải. Ở đầu kia, các giá trị cao nhất là:

weeks  count 
43     148 
44     46 
45     10 
46     1 
47     1 
48     7 
50     2

Một lần nữa, có một số giá trị gần như chắc chắn là có lỗi, nhưng ta rất khó biết được toàn bộ. Một cách lựa chọn là tỉa bớt dữ liệu bằng cách bỏ đi một phần gồm các giá trị cao nhất và thấp nhất (xem http://wikipedia.org/wiki/Truncated_mean).

Những cách hiển thị khác

Biểu đồ tần số và PMF rất có ích cho việc phân tích khám phá số liệu; một khi bạn đã có ý tưởng về hiện tượng xảy ra thì thường sẽ cần sắp đặt để hiển thị số liệu nhằm tập trung vào hiệu ứng biểu kiến. Trong bộ số liệu NSFG, khác biệt lớn nhất giữa hai phân bố xảy ra ở gần số đông. Vì vậy sẽ có ý nghĩa khi ta phóng to phần đó của đồ ghị, và thực hiện chuyển đổi số liệu để làm nổi bật sự khác biệt. Hình {nsfg_diffs} cho thấy sự khác biệt giữa hai đường PMF trong tuần từ 35–45. Tôi đã nhân lên 100 lần để biểu thị độ chênh lệch tính theo phần trăm.

Độ chênh lệch theo phần trăm, tính với từng tuần. [nsfg_diffs

Hình vẽ này làm cho kiểu mẫu càng rõ hơn: trẻ đầu lòng thường ít chào đời vào tuần 39, và dễ chào đời vào các tuần 41 và 42 so với trẻ sinh sau.

Rủi ro tương đối

Chúng ta đã bắt đầu với câu hỏi, “Liệu trẻ đầu lòng có chào đời muộn không?” Chuẩn xác hơn, ta hãy nói rằng đứa trẻ được gọi là chào đời sớm nếu nó được sinh ra từ tuần 37 hoặc sớm hơn, ra đời đúng hạn nếu sinh vào các tuần 38, 39, hoặc 40; và ra đời muộn nếu sinh vào tuần 41 hoặc muộn hơn. Các khoảng như vậy, được dùng để nhóm dữ liệu, có tên gọi là ngăn.

Hãy tạo ra một file có tên risk.py. Hãy viết các hàm tên là ProbEarly, ProbOnTimeProbLate nhận vào một PMF rồi tính tỷ lệ ca sinh rơi vào từng ngăn. Gợi ý: hãy viết một hàm tổng quát để những hàm nói trên gọi đến.

Hãy vẽ ba đường PMF, một đường cho trẻ đầu lòng, một đường cho trẻ sinh sau, và một đường chung cho tất cả trẻ được sinh ra. Với mỗi đường PMF, hãy tính xacs suất sinh sớm, sinh đúng hạn, và sinh muộn.

Một cách tóm tắt số liệu như vậy là bằng rủi ro tương đối, vốn là tỉ số giữa hai xác suất. Chẳng hạn, xác suất một đứa trẻ đầu lòng ra đời sớm bằng 18,2%. Với các đứa trẻ sinh sau, xác suất này bằng 16,8%, vì vậy rủi ro tương đối bằng 1,08. Điều này nghĩa là trẻ đầu lòng có thêm chừng 8% khả năng chào đời sớm.

Hãy viết mã lệnh để kiểm tra và khẳng định kết quả này, rồi tính các rủi ro tương đối giữa sinh đúng hạn và sinh muộn. Bạn có thể tải về một lời giải từ http://thinkstats.com/risk.py.

Xác suất có điều kiện

Hãy tưởng tượng rằng một người mà bạn biết đang mang bầu, bước vào tuần 39. Khả năng đứa trẻ sẽ được sinh ra vào tuần tới là bao nhiêu? Đáp số sẽ thay đổi thế nào nếu đó là trẻ đầu lòng?

Chúng ta có thể trả lời các câu hỏi trên bằng cách tính xác suất có điều kiện, vốn (a hèm!) là một xác suất phụ thuộc vào điều kiện nào đó. Trong trường hợp này, điều kiện là ta đã biết rằng đứa trẻ không sinh ra vào các tuần 0–38.

Sau đây là một cách tính:

  1. Cho trước một đường PMF, ta phát sinh ra một nhóm giả gồm 1000 ca mang thai. Với mỗi tuần thứ x, số ca mang thai với khoảng thời gian x là 1000 PMF(x).
  2. Xóa bỏ khỏi nhóm những ca mang thai với khoảng thời gian dưới 39.
  3. Tính ra PMF của các thời kì còn lại; kết quả này là PMF có điều kiện.
  4. Tính PMF có điều kiện ứng với x = 39 tuần.

Thuật toán này về khái niệm thì rất rõ ràng, nhưng không hiệu quả lắm. Một cách làm khác đơn giản hơn là xóa bỏ các giá trị nhỏ hơn 39 trong phân bố rồi chuẩn hóa lại.

Hãy viết một hàm thực hiện một trong hai thuật toán trên và tính xác suất để một đứa trẻ được sinh ra trong tuần 39, khi biết rằng nó không chào đời trước tuần 39.

Hãy khái quát hóa hàm trên để tính xác suất để một đứa trẻ sẽ được sinh vào tuần x, khi biết rằng nó không ra đời trước tuần x, với mọi giá trị có thể của x. Hãy vẽ đồ thị của giá trị xác suất này theo x đối với trẻ đầu lòng và trẻ sinh sau.

Bạn có thể tải về một lời giải của bài toán này từ http://thinkstats.com/conditional.py.

Báo cáo kết quả

Đến lúc này ta đã khảo sát xong số liệu và thấy được một số hiệu ứng biểu kiến. Hiện giờ, hãy tạm giả thiết rằng những hiệu ứng này là thật (nhớ rằng đây mới chỉ là giả thiết). Làm thế nào để ta báo cáo những kết quả này?

Câu trả lời có thể tùy thuộc vào người hỏi. Chẳng hạn, một nhà khoa học có thể quan tâm đến bất kì một hiệu ứng (thật) nào, bất kể nó nhỏ đến bao nhiêu. Một bác sĩ có thể chỉ quan tâm đến các hiệu ứng có ý nghĩa về y học; tức là những khác biệt có ảnh hưởng đến quyết định điều trị. Một phụ nữ mang thai có thể quan tâm đến những kết quả có liên quan tới cô ấy, như các xác suất có điều kiện trong mục trước. Cách mà bạn báo cáo kết quả cũng phụ thuộc vào mục tiêu của bạn. Nếu phải biểu diễn ý nghĩa của một hiệu ứng, bạn có thể chọn đặc trưng thống kê, như rủi ro tương đối, để nhấn mạnh sự khác biệt. Nếu bạn cần trấn an bệnh nhân, bạn có thể chọn số thống kê có tính đến sự khác biệt.

Dựa vào các kết quả từ những bài tập trước, chẳng hạn bạn được yêu cầu phải tóm tắt những gì bạn đã biết về vấn đề liệu trẻ đầu lòng có chào đời muộn hay không.

Bạn sẽ dùng đặc trưng thống kê nào nếu muốn đưa vào chuyện kể trong bản tin buổi tối? Bạn sẽ dùng đặc trưng nào nếu muốn an ủi một bệnh nhân đang lo lắng? Sau cùng, hãy tưởng tượng rằng mình là Cecil Adams, tác giả của The Straight Dope (http://straightdope.com), và nhiệm vụ của bạn là trả lời câu hỏi, “Liệu trẻ đầu lòng có chào đời muộn không?” Hãy viết bài trả lời dựa trên những kết quả trong chương này để giải đáp câu hỏi một cách rõ ràng, tập trung, và chính xác.

Thuật ngữ

xu thế trung tâm:
Đặc tính của một mẫu hoặc tổng thể; theo trực giác, đó là giá trị trung bình nhất.
phân tán:
Đặc tính của một mẫu hoặc tổng thể; theo trực giác, nó mô tả độ biến động là bao nhiêu.
phương sai:
Đặc trưng thống kê thường được dùng để lượng hóa mức phân tán.
độ lệch chuẩn:
Căn bậc hai của phương sai, cũng được dùng để đo mức phân tán.
tần số:
Số lần mà một giá trị xuất hiện trong mẫu.
biểu đồ tần số:
Một ánh xạ từ giá trị đến tần số, hoặc một biểu đồ thể hiện ánh xạ này.
tần suất:
Tần số được biểu thị dưới dạng tỉ lệ của kích thước mẫu.
chuẩn hóa:
Việc chia tần số cho kích thước mẫu để thu được tần suất.
phân bố:
Dạng tóm tắt các giá trị xuất hiện trong một mẫu cùng với tần số, hay tần suất, của mỗi giá trị.
PMF:
Hàm khối xác suất (probability mass function): cách biểu diễn một phân bố dưới dạng hàm ánh xạ từ giá trị đến tần suất.
số đông:
Giá trị hay gặp nhất trong mẫu.
điểm biệt lập:
Giá trị nằm cách xa xu thế trung tâm.
tỉa bớt:
Xóa bỏ những điểm biệt lập khỏi tập số liệu.
ngăn:
Một khoảng dùng để nhóm các giá trị gần bằng nhau.
rủi ro tương đối:
Tỉ số giữa hai tần suất, thường được dùng để đo độ khác biệt giữa hai phân bố.
xác suất có điều kiện:
Xác suất được tính theo giả thiết rằng một điều kiện nào đó phải được đảm bảo.
có ý nghĩa về y học:
Kết quả, chẳng hạn một khác biệt giữa hai nhóm, có liên quan trong thực tế ngành y.
Advertisements

5 phản hồi

Filed under Think Stats

5 responses to “Chương 2: Thống kê mô tả

  1. Pingback: Think Stats: Xác suất thống kê dành cho người lập trình | Blog của Chiến

  2. From Viet Nam

    Thank you for posting. Keep working on this, thanks.

  3. Pingback: Chương 5: Xác suất | Blog của Chiến

  4. nguyễn bá quang

    cảm ơn anh, nhờ các bài viết của anh mà em ứng dụng được vào rất nhiều trong công việc. Mong anh tiếp tục đóng góp cho cộng đồng nhiều hơn.

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s