Category Archives: Thống kê

Chương 1. Phân tích dữ liệu theo cách khám phá

Dịch từ cuốn Think Stats: Exploratory Data Analysis in Python của Allen B. Downey, NXB Green Tea Press. Sách điện tử được phát hành miễn phí theo giấy phép: Creative Commons Attribution-NonCommercial 4.0 Unported License. Trong quá trình phân phối bạn nên ghi rõ nguồn gốc cuốn sách.

Trở về Mục lục cuốn sách

Luận điểm của cuốn sách này là dữ liệu kết hợp với các phương pháp thực dụng sẽ trả lời được các câu hỏi và dẫn dắt những quyết định trong điều kiện không chắc chắn.

Chẳng hạn, tôi xin nêu một trường hợp cụ thể đặt ra từ một câu hỏi mà tôi nghe được khi tôi cùng vợ đang chờ sinh con đầu: liệu những đứa trẻ đầu lòng có xu hướng chào đời chậm hay không? Tiếp tục đọc

%(count) bình luận

Filed under Think Stats, Tin học

Think Stats: Phân tích dữ liệu theo hình thức khám phá bằng Python

Phiên bản 2014, tác giả Allen B. Downey.

Nguyên bản HTML tiếng Anh: http://greenteapress.com/thinkstats2/html/index.html

Cấp phép để sao chép, phân phối và/hoặc sửa đổi văn bản này theo các điều khoản của Giấy Phép Creative Commons Ghi công-Phi thương mại-Chia sẻ tương tự 4.0 Quốc tế, được đăng ở http://creativecommons.org/licenses/by-nc-sa/4.0/

 Nội dung các chương

Chương 1: Phân tích dữ liệu khám phá

Chương 2: Phân bố xác suất

Chương 3: Hàm khối xác suất

Chương 4: Hàm phân bố lũy tích

Chương 5: Mô hình hóa phân bố

Chương 6 Hàm mật độ xác suất

Chương 7: Mối quan hệ giữa các biến

Chương 8: Ước lượng

Chương 9: Kiểm định giả thiết

Chương 10: Bình phương nhỏ nhất tuyến tính

Chương 11: Hồi quy

Chương 12: Phân tích chuỗi thời gian

Chương 13: Phân tích trường tồn

Chương 14: Các  phương pháp giải tích. Tiếp tục đọc

9 phản hồi

Filed under Think Stats, Tin học

6. Những ước lượng tổng quát

Trở về Mục lục cuốn sách

Trong Mục 3, ta đã đề cập tới các phương pháp khác nhau để ước lượng tham số có thể nhận được ngay và đơn giản từ mẫu cho trước {x0, x1,  …, xn − 1}. Ở mục này, một phương pháp chung được xét đến; phương pháp này cho phép các ước lượng nhận được với các tham số tuỳ ý của phân bố xác suất. Phương pháp này được dựa theo nguyên tắc hợp lý cực đại, thể hiện trong Mục 6.1. Nguyên tắc này có thể được mở rộng cho việc mô hình hoá dữ liệu, trong đó thường một mẫu ba số {(x0, y0, σ0),  (x1, y1, σ1),   …, (xn − 1, yn − 1, σn − 1)} được cho trước. Nói chung xi là các điểm số liệu biểu diễn cho một tham số điều khiển nào đó mà ta có thể chọn trong mô phỏng, như là nhiệt độ của một chất khí. Ta coi như tất cả các giá trị xi đều khác nhau. Hệ quả là, mô phỏng được thực hiện ở n giá trị khác nhau của tham số điều khiển. Các điểm số liệu yi là trị trung bình của những lần đo (chẳng hạn là mật độ của khí) thu được từ những mô phỏng ứng với giá trị cố định xi của tham số điều khiển. Các giá trị σi là những thang sai số tương ứng. 1 Việc mô hình hoá dữ liệu nghĩa là ta muốn xác định được quan hệ y = y(x). Thông thường ta có sẵn kiến thức hoặc một giả sử nào đó về mối quan hệ này, tức là ta có một hàm kiểm định được gắn tham số, yθ⃗(x). Do vậy, tập hợp các tham số θ⃗ phải được điều chỉnh sao cho hàm yθ⃗(x) khớp “nhất” với mẫu. Việc làm này được gọi là khớp số liệu và sẽ được giải thích ở Mục 6.2. Phương pháp này cũng dùng được để so sánh nhiều hàm khớp khác nhau nhằm quyết định xem hàm nào đặc trưng cho mô hình thích hợp nhất.

Tiếp tục đọc

%(count) bình luận

Filed under Ngẫu nhiên và mô phỏng

5. Kiểm định giả thiết và tính độc lập / phụ thuộc của số liệu

Trở về Mục lục cuốn sách

Ở mục trước, bạn đã học các hiển thị số liệu, chủ yếu là số liệu kết quả từ những phép phân tích cơ bản đã đề cập trong Mục 3. Ở mục này, ta tiếp tục với những phương pháp phân tích tinh vi hơn. Một cách quan trọng để phân tích số liệu từ mô phỏng là để kiểm định các giả thiết liên quan đến kết quả. Giả thiết được kiểm định thường được gọi là giả thiết không H0. Các ví dụ về giả thiết không gồm có:

  • Trong một hệ thống giao thông, việc mở một tuyến đường mới sẽ làm giảm giá trị trung bình của thời gian đi, \overline{t}_{{\rm{}A}\to{\rm{}B}}, từ A → B xuống dưới một mức cần đạt được, tđích.
  • Trong một mạng lưới quen biết, mỗi sự thay đổi các thông lệ quy định gặp mặt giữa hai người sẽ làm thay đổi sự phân bố của số người mà mỗi cá nhân biết được.
  • Sự phân bố của các năng lượng mức số không trong nam châm phi trật tự thì tuân theo dạng phân bố Fisher-Tippett.
  • Trong một mô hình sinh thái, kích thước quần thể cáo thì phụ thuộc vào kích thước quần thể bọ hung.
  • Đối với một loại protein hòa tan trong nước tại nhiệt độ trong phòng, việc thêm một loại muối nhất định vào nước sẽ làm thay đổi cấu trúc của protein đó.

Tiếp tục đọc

%(count) bình luận

Filed under Ngẫu nhiên và mô phỏng

4. Vẽ đồ thị cho số liệu

Trở về Mục lục cuốn sách

Mã nguồn người dịch mới upload randomness.zip

Đến giờ, bạn đã học được nhiều phương pháp phân tích số liệu. Vì bạn không chỉ muốn nhìn vào những bảng chứa đầy con số, nên cần phải biểu thị số liệu này dưới dạng biểu đồ. Những biểu đồ này, có chứa kết quả cốt yếu nhất từ thành quả nghiên cứu của bạn, có thể dùng được trong những bài thuyết trình hoặc công bố khoa học. Để phân tích và vẽ đồ thị số liệu, hiện có nhiều chương trình máy tính cả thương mại lẫn phi thương mại. Ở đây, ta đề cập đến hai chương trình miễn phí, gnuplot, và xmgrace. Gnuplot là chương trình nhỏ, chạy nhanh, vẽ và chuyển đổi được các đồ thị 2 và 3 chiều, cũng như khớp được các hàm tùy ý theo dãy số liệu (xem Mục 6.2). Còn xmgrace thì linh hoạt hơn và tạo ra kết quả đẹp hơn. Bạn nên dùng gnuplot để trực tiếp xem xét và khớp đường cong cho dãy số liệu, và xmgrace để tạo ra hình vẽ phục vụ thuyết trình hoặc ấn phẩm khoa học.

Tiếp tục đọc

5 phản hồi

Filed under Ngẫu nhiên và mô phỏng

3. Kiến thức cơ bản về phân tích số liệu

Trở về Mục lục cuốn sách

Mã nguồn người dịch mới upload: randomness.zip

Ta bắt đầu với một mẫu gồm n điểm đo {x0, x1,  …, xn − 1} của một đại lượng nào đó, thu thập từ một mô phỏng. Các ví dụ bao gồm mật độ của chất khí, thời gian chuyển tiếp giữa hai dạng thù hình của một phân tử, hay giá cổ phiếu. Ta giả sử rằng, một cách chặt chẽ, tất cả các kết quả đo đều có thể được biểu diễn bằng các biến ngẫu nhiên Xi thể hiện cho cùng một biến ngẫu nhiên X và tất cả phép đo đều độc lập thống kê với nhau (tính độc lập thống kê đã được đề cập trong Mục 5). Thông thường, ta không biết được phân bố xác suất F(x) bên trong, với mật độ xác suất p(x), để mô tả X.

Tiếp tục đọc

%(count) bình luận

Filed under Ngẫu nhiên và mô phỏng

2. Phát sinh các số (giả) ngẫu nhiên

Trở về Mục lục cuốn sách

Mã nguồn người dịch mới upload: randomness.zip

Nhiều trường hợp mô phỏng trong khoa học, kinh tế hay khoa học xã hội cần đến biến ngẫu nhiên. Thường thì mô hình tự nó bộc lộ những tham số ngẫu nhiên mà vẫn được giữ cố định trong suốt quá trình mô phỏng; ta nói đến quenched disorder (một dạng phi trật tự). Một ví dụ nổi tiếng trong lĩnh vực vật lý thể đặc là thủy tinh spin, vốn là hợp kim trộn ngẫu nhiên các vật liệu từ tính và phi từ tính. Trong trường hợp này, khi thực hiện những mô phỏng đối với hệ thống nhỏ, để thu được đại lượng vật lý cần thiết, ta phải tiến hành lấy trung bình các biểu hiện nhiễu loạn khoác nhau. Mỗi biểu hiện nhiễu loạn bao gồm các vị trí của hạt từ tính và phi từ tính được chọn một cách ngẫu nhiên. Để phát sinh ra biểu hiện nhiễu loạn phục vụ mô phỏng, ta cần có các số ngẫu nhiên. Nhưng ngay cả khi hệ được mô phỏng bản thân không có tính ngẫu nhiên thì thuật toán dùng để tính lại thường yêu cầu số ngẫu nhiên, chẳng hạn để lập nên một tập hợp thống kê (ensemble) chứa những nhiệt độ hữu hạn, hoặc khi dùng đến thuật toán ngẫu nhiên. Tóm lại, ứng dụng của số ngẫu nhiên trong mô phỏng điện toán rất phổ biến. Trong mục này, chúng tôi trình bày sự phát sinh số ngẫu nhiên. Trước hết là phần giải thích cách phát sinh chúng bằng mọi cách trên máy tính. Sau đó, các phương pháp khác nhau sẽ được trình bày nhằm mục đích thu được số tuân theo một dạng phân bố mong muốn: phương pháp nghịch đảo, phương pháp loại bỏ, và phương pháp Box-Müller. Các thông tin đầy đủ về những phương pháp này và tương tự có thể được tìm thấy trong các tài liệu tham khảo: [Morgan (1984); Devroye (1986); Press và nnk. (1995)]. Trong mục này tôi coi rằng bạn đã quen thuộc với những khái niệm cơ bản về lý thuyết xác suất và thống kê, như đã trình bày trong Mục 1. Tiếp tục đọc

Bạn nghĩ gì về bài viết này?

Filed under Ngẫu nhiên và mô phỏng

Ngẫu nhiên và xác suất trong mô phỏng máy tính

Tài liệu này là một chương trong cuốn sách “Practical Guide to Computer Simulations”, tác giả Alexander K. Hartmann, (c) 2009 World Scientific Publishing Co. Pte. Ltd. Tuy nhiên, bản sơ thảo thuộc về tác giả và được phát hành tự do, cũng như các nội dung khác trong CiteSeer .

Trong quyển sách này, ta quan tâm đến thống kê học theo nghĩa rất rộng, gồm có việc phát sinh ra số liệu (giả) ngẫu nhiên, hiển thị / vẽ đồ thị số liệu và phân tích thống kê cho kết quả mô phỏng.

Thông thường, việc mô phỏng bao gồm trực tiếp phát sinh ra số ngẫu nhiên chẳng hạn, như những đại lượng phụ cho các mô phỏng ngẫu nhiên. Trong trường hợp này hiển nhiên là những kết quả thống kê cũng mang tính ngẫu nhiên. Mặc dù có những mô phỏng rõ ràng là không ngẫu nhiên, nhưng kết quả thu được có biểu hiện dường như ngẫu nhiên, chảng hạn chuyển động của các nguyên tử khí tương tác nhau trong bình chứa. Vì vậy, những phương pháp từ phân tích số liệu thống kê rất cần thiết đối với hầu hết những việc phân tích kết quả của mô phỏng. Tiếp tục đọc

5 phản hồi

Filed under Ngẫu nhiên và mô phỏng

Think Stats: Xác suất thống kê dành cho người lập trình

Nếu biết lập trình, bạn đã có kĩ năng chuyển đổi dữ liệu thành kiến thức bằng cách dùng các công cụ xác suất và thống kê. Cuốn sách hướng dẫn này chỉ cho bạn cách thực hiện tính toán phân tích thống kê trên máy tính, thay vì dùng công thức toán học, với những chương trình viết bằng Python.

Bạn sẽ làm việc với một nghiên cứu cụ thể xuyên suốt cuốn sách, nhằm giúp bạn nắm được toàn bộ quá trình phân tích dữ liệu—từ thu thập dữ liệu và phát sinh các đặc trưng thống kê đến nhận diện các dạng mẫu và kiểm định giả thiết. Đồng thời, bạn cũng làm quen với các dạng phân bố, định luật xác suất, cách hiển thị, cùng nhiều công cụ và khái niệm khác.

Lời đề tựa của tác giả
Tôi viết cuốn sách này cho lớp học mà tôi dạy tại Olin College. Mục đích của lớp học là dạy cho sinh viên biết cách dùng công cụ thống kê để khám phá các bộ số liệu thực sự và trả lời những câu hỏi thú vị. Trang web của lớp học là: sites.google.com/site/thinkstats2011a — trong đó bao gồm bài giảng, bài tập trên lớp, bài về nhà, v.v.

Các ví dụ trong sách được viết bằng Python, nhưng là một phần nhỏ của ngôn ngữ lập trình này. Nếu bạn đã đọc hết 14 chương đầu tiên trong cuốn Think Python, bạn có thể sẵn sàng tiếp thu nội dung sách.

Tác giả, Allen Downey là giáo sư ngành Khoa học máy tính tại Olin College of Engineering. Ông đã dạy khoa học máy tính tại Wellesley College, Colby College và U.C. Berkeley. Ông nhận bằng tiến sĩ khoa học máy tính từ U.C. Berkeley và bằng thạc sĩ từ MIT.

Mục lục

Chương 1: Tư duy thống kê dành cho người lập trình
Chương 2: Thống kê mô tả
Chương 3: Hàm phân bố lũy tích
Chương 4: Phân bố liên tục
Chương 5: Xác suất
Chương 6: Các phép toán đối với phân bố
Chương 7: Kiểm định giả thiết
Chương 8: Ước lượng
Chương 9: Tương quan

Tiếp tục đọc

10 phản hồi

Filed under Think Stats

Chương 9: Tương quan

Trở về Mục lục cuốn sách

Điểm chuẩn

Trong chương này ta sẽ xem xét quan hệ giữa các biến. Chẳng hạn, ta có thể cảm thấy rằng chiều cao có liên quan đến cân nặng; những người cao thì cũng có khuynh hướng nặng hơn. Tương quan được dùng để mô tả những mối quan hệ kiểu này. Tiếp tục đọc

10 phản hồi

Filed under Think Stats