Tag Archives: dữ liệu

Chương 1. Phân tích dữ liệu theo cách khám phá

Dịch từ cuốn Think Stats: Exploratory Data Analysis in Python của Allen B. Downey, NXB Green Tea Press. Sách điện tử được phát hành miễn phí theo giấy phép: Creative Commons Attribution-NonCommercial 4.0 Unported License. Trong quá trình phân phối bạn nên ghi rõ nguồn gốc cuốn sách.

Trở về Mục lục cuốn sách

Luận điểm của cuốn sách này là dữ liệu kết hợp với các phương pháp thực dụng sẽ trả lời được các câu hỏi và dẫn dắt những quyết định trong điều kiện không chắc chắn.

Chẳng hạn, tôi xin nêu một trường hợp cụ thể đặt ra từ một câu hỏi mà tôi nghe được khi tôi cùng vợ đang chờ sinh con đầu: liệu những đứa trẻ đầu lòng có xu hướng chào đời chậm hay không? Tiếp tục đọc

Advertisements

%(count) bình luận

Filed under Think Stats, Tin học

Chương 6: Xuất dữ liệu

Trở về Mục lục cuốn sách

Giới thiệu

Cuốn sách của Mark Monmonier với tựa đề How to Lie with Maps (Làm thế nào để lừa dối bằng những tấm bản đồ), đã vạch trần cách mà những cá nhân và tổ chức cố ý làm biến dạng những địa vật trên bản đồ một cách quá đáng để lừa dối. Khái niệm bao trùm cuốn sách này là tất cả bản đồ đều nói dối—ở một mức độ nhất định. Điều đó có thật. Như bạn đã đọc trong Chương 3, các phép chiếu đều gây nên biến đổi hình dạng, diện tích, khoảng cách, và phương hướng. Ngoài ra, mọi bản đồ đều đơn giản hóa thế giới thực và do đó đã lừa dối bằng cách lược bỏ. Các biểu tượng trên bản đồ phóng đại hoặc giảm nhỏ kích thước của địa vật. Tất cả điều này đều có thể được coi là lừa dối. Bây giờ, trước khi bạn ngừng đọc và vứt bỏ những tờ bản đồ như thứ phù phiếm, thì hãy nhớ rằng tất cả những mô hình của thực tại (tranh vẽ, văn chương, toán học, hình chụ) đều là trừu tượng hóa và do đó đều lừa dối ở mức độ nhất định; và nhờ sự lược bớt cùng trừu tượng hóa đó giúp cho việc giao tiếp trở nên thuận lợi, dễ hiểu hơn. Nói đơn giản, bản đồ trợ giúp việc chuyển tải thông tin bằng cách nhấn mạnh vị trí của địa vật (và bỏ qua nhiều đieạ vật khác) để phác họa những dạng mẫu trong không gian. Như Monmonier đã viết, “Một tấm bản đồ tốt cho ta biết nhiều điều dối trá vô hại nho nhỏ; nó kìm hãm sự thật để giúp người xem thấy được điều cần phải thấy” (1996, tr. 25).

Tiếp tục đọc

%(count) bình luận

Filed under Commons

Chương 6: Lập thiết bị đo đạc Trái đất: Khoa học môi trường và mạng lưới đầu đo thế hệ mới

Trở về Mục lục cuốn sách

Michael Lehning, Nicholas Dawes, Mathias Bavay | WSL Institute for Snow and Avalanche Research SLF
Marc Parlange | École Polytechnique Fédérale de Lausanne
Suman Nath, Feng Zhao | Microsoft Research

Những thử thách liên quan đến môi trường rộng khắp cùng nhận thức càng tăng về biến đổi khí hậu toàn cầu đang cho thấy một nhu cầu cấp thiết đối với các nhà khoa học môi trường về việc tiến hành nghiên cứu khoa học theo cách mới, tốt hơn. Các hệ thống quan trắc môi trường cỡ lớn sẵn có, với độ phân giải không-thời gian rất thưa, không chỉ đắt mà còn không thể chỉ ra những mối tương tác phức tạp giữa các thành phần khí quyển và mặt đất với đủ độ chuẩn xác để tạo thành các mô hình hệ thống môi trường chính xác. Tiếp tục đọc

%(count) bình luận

Filed under Mẫu hình IV, Tin học

Chương 5: Kéo bầu trời đêm lại gần hơn: Khám phá từ dòng lũ dữ liệu

Trở về Mục lục cuốn sách

Alyssa A. Goodman | Harvard University
Curtis G. Wong | Microsoft Research

Trong suốt lịch sử, các nhà thiên văn đã quen với dữ liệu đến từ bầu trời. Nhưng các khả năng tương đối mới của chúng ta cho phép lưu trữ dữ liệu bầu trời vào trong các “đám mây” mở ra những phương pháp mới và thú vị để truy cập, phân phối, sử dụng và phân tích dữ liệu, cả trong nghiên cứu lẫn giáo dục. Ở đây ta xét đến ba câu hỏi có liên quan lẫn nhau: (1) Những xu hướng nào mà ta đã và sắp thấy về mức độ tăng trưởng của việc thu thập dữ liệu từ kính viễn vọng? (2) Liệu ta sẽ có lời giải nào cho thử thách ngày một lớn lên của việc tìm thấy cây kim điển hình trong đống rơm dữ liệu này nhằm tiến hành khám phá khoa học? (3) Những vận hội nào ta sẽ nắm được trong tương lai xét về phân tích tính toán và hiển thị số liệu? Tiếp tục đọc

%(count) bình luận

Filed under Mẫu hình IV

Chương 3: Định nghĩa lại sinh thái học có sử dụng dữ liệu

Trở về Mục lục cuốn sách

James R. Hunt | University of California, Berkeley and the Berkeley Water Center
Dennis D. Baldocchi | University of California, Berkeley
Catharine van Ingen | Microsoft Research

Sinh thái học là ngành nghiên cứu về sự sống và tương tác của nó với môi trường vật lý xung quanh. Vì tình hình biến đổi khí hậu yêu cầu sự thích nghi nhanh chóng, nên các công cụ phân tích mới đóng vai trò thiết yếu để định lượng những thay đổi đó trong số những biến động tự nhiên vốn có. Sinh thái là ngành khoa học trong đó nghiên cứu thường được thực hiện bởi nhóm nhỏ các cá nhân, với dữ liệu ghi chép trong sổ tay. Nhưng ngày nay các nghiên cứu tổng hợp cỡ lớn đang được nỗ lực thực hiện bởi sự hợp tác giữa hàng trăm nhà khoa học. Những nỗ lực lớn hơn này là rất cần thiết vì hiện giờ có hai sự phát triển: một là khoa học được thực hiện bằng cách nào, và hai là những câu hỏi về quản lý tài nguyên được đặt ra. Dù những nghiên cứu tổng hợp có sự hợp tác vẫn còn đang trong giai đoạn hình thành nhưng tầm quan trọng ngày càng tăng của chúng đã rõ ràng. Sự hỗ trợ của máy tính luôn gắn liền với những hình thức hợp tác như vậy và là then chốt đối với quá trình nghiên cứu. Tiếp tục đọc

%(count) bình luận

Filed under Mẫu hình IV

Chương 2. Ngành khoa học mới bắt nguồn từ những ứng dụng trong lĩnh vực môi trường

Trở về Mục lục cuốn sách

Jeff Dozier | University of California, Santa Barbara
William B. Gail | Microsoft

Khoa học về Trái đất và môi trường đã trưởng thành qua hai giai đoạn chính và đang bước vào giai đoạn thứ ba. Trong giai đoạn đầu tiên, vốn đã kết thúc cách đây hai thập kỉ, khoa học Trái đất và môi trường đa phần là mang tính chuyên môn và tập trung vào việc phát triển kiến thức về địa chất, hóa học khí quyển, hệ sinh thái, và các lĩnh vực khác của hệ Trái đất. Đến thập niên 1980, cộng đồng khoa học đã nhận ra sự ràng buộc chặt chẽ giữa các chuyên môn này và bắt đầu nghiên cứu chúng như những thành tố của một hệ thống đơn nhất. Trong suốt giai đoạn thứ hai này, mẫu hình của khoa học hệ thống Trái đất đã xuất hiện. Đi cùng nó là khả năng hiểu được các hiện tượng phức tạp, có tính hệ thống như biến đổi khí hậu, vốn kết nối giữa các khái niệm về khoa học khí quyển, sinh học, và hành vi loài người. Điều cốt yếu để nghiên cứu các hệ thống tương tác trên Trái đất là khả năng tiếp nhận, xử lý, và làm các dữ liệu từ vệ tinh trở nên sẵn có; và đồng thời, các mô hình mới đã được xây dựng để thể hiện những ý tưởng đang phát triển của chúng ta về các quá trình phức tạp bên trong hệ thống Trái đất đầy biến động [1]. Tiếp tục đọc

%(count) bình luận

Filed under Mẫu hình IV, Sách

Chương 1: Định luật Gray: Tính toán khoa học lấy dữ liệu làm trung tâm

Trở về Mục lục cuốn sách

Alexander S. Szalay | The Johns Hopkins University
José A. Blakeley | Microsoft

Sự bùng nổ dữ liệu khoa học đã tạo ra một thử thách lớn đối với các dự án khoa học hiện đại. Với những tập hợp dữ liệu vượt ngoài phạm vi hàng chục terabyte, các nhà khoa học không có những giải pháp sẵn có nào để quản trị và xử lý dữ liệu ngay được [1]. Các dự án thành công đến giờ đều bố trí kết hợp những tập tin rời và cơ sở dữ liệu [2]. Tuy nhiên, phần lớn các giải pháp này đều được chỉnh lại cho từng dự án cụ thể và không thể dễ dàng khái quát hóa hay dãn ra để phù hợp với các thí nghiệm thế hệ mới được. Hơn nữa, các kiến trúc máy tính hiện đại ngày càng mất cân đối; khoảng cách về độ trễ giữa các bộ vi xử lý nhiều lõi với các ổ cứng cơ học càng nới rộng theo từng năm, làm cho thử thách đối với tính toán thiên về dữ liệu càng khó được đón nhận [3]. Điều mà ta cần là một phương pháp tổng quát và có hệ thống để giải quyết các vấn đề này với một kiến trúc mà có thể điều chỉnh trong tương lai. Tiếp tục đọc

%(count) bình luận

Filed under Mẫu hình IV

Phần I: Trái đất và môi trường

Trở về Mục lục cuốn sách

Trái đất & Môi trường

Lời giới thiệu

Dan Fay | Microsoft Research

Sự thay đổi là không thể tránh khỏi—vũ trụ nở rộng, giới tự nhiên tiến hóa và phát triển, và vì vậy những công cụ khoa học và kĩ thuật ta dùng cũng phải phát triển theo, để đáp ứng được công cuộc truy tìm không khoan nhượng những kiến thức khoa học sâu xa hơn về không gian, Trái đất, và môi trường. Vận hội và thử thách đặt ra là rất nhiều. Những công nghệ tính toán mới như điện toán đám mây và bộ vi xử lý nhiều lõi, dưới hình thức chung, đều không đủ cung cấp một giải pháp tổng thể. Nhưng sự áp dụng đúng thời điểm và hiệu quả của những công nghệ như vậy có thể giúp ta có bước tiến đáng kể về tầm hiểu biết đối với thế giới, bao gồm các thử thách về môi trường, và cách thức ứng phó với chúng. Tiếp tục đọc

%(count) bình luận

Filed under Mẫu hình IV

Jim Gray nói về eScience: một phương pháp khoa học qua chuyển đổi

Trở về Mục lục cuốn sách

Dựa trên băng ghi lại bài thuyết trình của Jim Gray trước NRC_CSTB1 tại Mountain View, CA, ngày 11/1/20072

Biên tập: Tony Hey, Steward Tansley, và Kristin Tolle | Microsoft Research

Chúng ta cần phải thực hiện tốt hơn công việc tạo ra các công cụ hỗ trợ cho toàn bộ quá trình nghiên cứu—từ thu thập dữ liệu, xử lý dữ liệu đến phân tích và hiển thị dữ liệu. Ngày nay, các công cụ để thu thập dữ liệu, kể cả vĩ mô và vi mô đều tuyệt vời. Sau khi thu thập dữ liệu, bạn cần xử lý nó trước khi có thể làm bất kì việc phân tích dữ liệu nào; và chúng ta đang thiếu những công cụ tiện dụng cho cả việc xử lý lẫn phân tích dữ liệu. Sau đó là đến xuất bản các kết quả trong công trình nghiên cứu của bạn, mà những tài liệu đã được công bố chỉ là phần nổi của tảng băng dữ liệu mà thôi. Nói vậy, ý của tôi là chúng ta thu thập rất nhiều dữ liệu rồi chiết xuất thành một vài cột trên trang báo Science hoặc Nature—hoặc thành 10 trang, nếu đó là một bài do người làm khoa học máy tính viết. Vậy tôi nói “tảng băng dữ liệu” nghĩa là có rất nhiều dữ liệu được thu thập nhưng không được xử lý hay xuất bản theo cách có hệ thống. Vẫn có những ngoại lệ, và tôi nghĩ rằng những trường này là nơi thích hợp để ta tìm ra những kinh nghiệm hay. Tôi sẽ nói về cách mà toàn bộ quá trình bình duyệt cần phải thay đổi và cách mà trong đó, tôi nghĩ rằng nó đang thay đổi cùng những việc mà CSTB có thể làm để giúp tất cả chúng ta truy cập được đến việc nghiên cứu của bản thân.

Tiếp tục đọc

%(count) bình luận

Filed under Mẫu hình IV