Category Archives: Think Stats

Chương 1. Phân tích dữ liệu theo cách khám phá

Dịch từ cuốn Think Stats: Exploratory Data Analysis in Python của Allen B. Downey, NXB Green Tea Press. Sách điện tử được phát hành miễn phí theo giấy phép: Creative Commons Attribution-NonCommercial 4.0 Unported License. Trong quá trình phân phối bạn nên ghi rõ nguồn gốc cuốn sách.

Trở về Mục lục cuốn sách

Luận điểm của cuốn sách này là dữ liệu kết hợp với các phương pháp thực dụng sẽ trả lời được các câu hỏi và dẫn dắt những quyết định trong điều kiện không chắc chắn.

Chẳng hạn, tôi xin nêu một trường hợp cụ thể đặt ra từ một câu hỏi mà tôi nghe được khi tôi cùng vợ đang chờ sinh con đầu: liệu những đứa trẻ đầu lòng có xu hướng chào đời chậm hay không? Tiếp tục đọc

Advertisements

%(count) bình luận

Filed under Think Stats, Tin học

Think Stats: Phân tích dữ liệu theo hình thức khám phá bằng Python

Phiên bản 2014, tác giả Allen B. Downey.

Nguyên bản HTML tiếng Anh: http://greenteapress.com/thinkstats2/html/index.html

Cấp phép để sao chép, phân phối và/hoặc sửa đổi văn bản này theo các điều khoản của Giấy Phép Creative Commons Ghi công-Phi thương mại-Chia sẻ tương tự 4.0 Quốc tế, được đăng ở http://creativecommons.org/licenses/by-nc-sa/4.0/

 Nội dung các chương

Chương 1: Phân tích dữ liệu khám phá

Chương 2: Phân bố xác suất

Chương 3: Hàm khối xác suất

Chương 4: Hàm phân bố lũy tích

Chương 5: Mô hình hóa phân bố

Chương 6 Hàm mật độ xác suất

Chương 7: Mối quan hệ giữa các biến

Chương 8: Ước lượng

Chương 9: Kiểm định giả thiết

Chương 10: Bình phương nhỏ nhất tuyến tính

Chương 11: Hồi quy

Chương 12: Phân tích chuỗi thời gian

Chương 13: Phân tích trường tồn

Chương 14: Các  phương pháp giải tích. Tiếp tục đọc

9 phản hồi

Filed under Think Stats, Tin học

Think Stats: Xác suất thống kê dành cho người lập trình

Nếu biết lập trình, bạn đã có kĩ năng chuyển đổi dữ liệu thành kiến thức bằng cách dùng các công cụ xác suất và thống kê. Cuốn sách hướng dẫn này chỉ cho bạn cách thực hiện tính toán phân tích thống kê trên máy tính, thay vì dùng công thức toán học, với những chương trình viết bằng Python.

Bạn sẽ làm việc với một nghiên cứu cụ thể xuyên suốt cuốn sách, nhằm giúp bạn nắm được toàn bộ quá trình phân tích dữ liệu—từ thu thập dữ liệu và phát sinh các đặc trưng thống kê đến nhận diện các dạng mẫu và kiểm định giả thiết. Đồng thời, bạn cũng làm quen với các dạng phân bố, định luật xác suất, cách hiển thị, cùng nhiều công cụ và khái niệm khác.

Lời đề tựa của tác giả
Tôi viết cuốn sách này cho lớp học mà tôi dạy tại Olin College. Mục đích của lớp học là dạy cho sinh viên biết cách dùng công cụ thống kê để khám phá các bộ số liệu thực sự và trả lời những câu hỏi thú vị. Trang web của lớp học là: sites.google.com/site/thinkstats2011a — trong đó bao gồm bài giảng, bài tập trên lớp, bài về nhà, v.v.

Các ví dụ trong sách được viết bằng Python, nhưng là một phần nhỏ của ngôn ngữ lập trình này. Nếu bạn đã đọc hết 14 chương đầu tiên trong cuốn Think Python, bạn có thể sẵn sàng tiếp thu nội dung sách.

Tác giả, Allen Downey là giáo sư ngành Khoa học máy tính tại Olin College of Engineering. Ông đã dạy khoa học máy tính tại Wellesley College, Colby College và U.C. Berkeley. Ông nhận bằng tiến sĩ khoa học máy tính từ U.C. Berkeley và bằng thạc sĩ từ MIT.

Mục lục

Chương 1: Tư duy thống kê dành cho người lập trình
Chương 2: Thống kê mô tả
Chương 3: Hàm phân bố lũy tích
Chương 4: Phân bố liên tục
Chương 5: Xác suất
Chương 6: Các phép toán đối với phân bố
Chương 7: Kiểm định giả thiết
Chương 8: Ước lượng
Chương 9: Tương quan

Tiếp tục đọc

10 phản hồi

Filed under Think Stats

Chương 9: Tương quan

Trở về Mục lục cuốn sách

Điểm chuẩn

Trong chương này ta sẽ xem xét quan hệ giữa các biến. Chẳng hạn, ta có thể cảm thấy rằng chiều cao có liên quan đến cân nặng; những người cao thì cũng có khuynh hướng nặng hơn. Tương quan được dùng để mô tả những mối quan hệ kiểu này. Tiếp tục đọc

10 phản hồi

Filed under Think Stats

Chương 8: Ước lượng

Trở về Mục lục cuốn sách

Trò chơi ước lượng

Ta hãy cùng tham gia một trò chơi. Tôi sẽ nghĩ trong đầu một dạng phân bố, còn bạn phải đoán xem đó là phân bố gì. Chúng ta sẽ bắt đầu một cách dễ dàng rồi sau đó sẽ khó dần lên.

Tôi đang nghĩ đến một dạng phân bố. Sau đây là hai lời gợi ý; đó là một phân bố chuẩn, và sau đây là một mẫu ngẫu nhiên được rút từ nó:

{0,441 ; 1,774 ; 0,101 ; 1,138 ; 2,975 ; 2,138}

Bạn thử đoán xem tham số trị trung bình, μ, của phân bố này bằng bao nhiêu? Tiếp tục đọc

2 phản hồi

Filed under Think Stats

Chương 7: Kiểm định giả thiết

Trở về Mục lục cuốn sách

Khi khám phá số liệu của NSFG, chúng ta đã thấy một vài “hiệu ứng biểu kiến”, gồm một số khác biệt giữa trẻ đầu lòng và trẻ sinh sau. Đến giờ ta đã mới chỉ xét qua những hiệu ứng đó; trong chương này, rốt cuộc chúng ta sẽ kiểm tra chúng.

Câu hỏi cơ bản mà chúng ta muốn đặt ra là liệu những hiệu ứng đó có thật hay không. Chẳng hạn, nếu ta thấy có sự chênh lệch giữa giá trị trung bình của thời gian mang thai những đứa trẻ đầu lòng với trẻ sinh sau, ta muốn biết rằng liệu sự chênh lệch đó có thực không, hay chúng chỉ tình cờ xảy ra. Tiếp tục đọc

%(count) bình luận

Filed under Think Stats

Chương 6: Các phép toán đối với phân bố

Trở về Mục lục cuốn sách

Độ bất đối xứng

Độ bất đối xứng là một đặc trưng thống kê để đo mức bất đối xứng của một phân bố. Với một chuỗi giá trị cho trước, xi, độ bất đối xứng của mẫu là:

g1 = m3/m23/2

m2 = 1/n i(xi – μ)2

m3 = 1/n i(xi – μ)3

Tiếp tục đọc

%(count) bình luận

Filed under Think Stats

Chương 5: Xác suất

Trở về Mục lục cuốn sách

Trong Chương 2, tôi đã đề cập rằng một xác suất có thể coi như tần suất, tức là tần số biểu diễn theo tỉ lệ so với kích thước mẫu. Đó cũng là một định nghĩa của xác suất, nhưng không phải duy nhất. Trên thực tế, định nghĩa của xác suất là một chủ đề gây tranh cãi. Tiếp tục đọc

%(count) bình luận

Filed under Think Stats

Chương 4: Phân bố liên tục

Trở về Mục lục quyển sách

Những phân bố mà chúng ta đã gặp cho đến giờ được gọi là phân bố kinh nghiệm vì chúng được dựa trên những quan sát kinh nghiệm, vốn là các mẫu có kích thước giới hạn.

Một phân bố khác là phân bố liên tục, vốn được đặc trưng bởi một CDF dưới dạng hàm liên tục (thay vì hàm bậc thang). Nhiều hiện tượng thực tế có thể được xấp xỉ bằng những phân bố liên tục. Tiếp tục đọc

%(count) bình luận

Filed under Think Stats

Chương 3: Hàm phân bố lũy tích

Trở về Mục lục cuốn sách

Nghịch lý về số sinh viên trong lớp

Trong nhiều trường đại học Hoa Kỳ, tỉ lệ sinh viên so với giảng viên đều vào khoảng 10:1. Nhưng sinh viên thường ngạc nhiên khi biết rằng lớp học của họ trung bình đều hơn 10 sinh viên. Có hai lý do giải thích sự khác biệt này:

  • Sinh viên nói chung đều học 4–5 lớp mỗi kỳ, trong khi giáo sư thường chỉ dạy 1 hoặc 2 lớp.
  • Số sinh viên may mắn được học lớp vắng thì ít, còn sinh viên phải học lớp lớn thì (a hèm!) có rất nhiều.

Tiếp tục đọc

%(count) bình luận

Filed under Think Stats