Mẫu hình thứ tư: Khám phá khoa học thiên về dữ liệu

4th-paradigm

The Fourth Paradigm: Data-Intensive Scientific Discovery

Cuốn sách này trình bày tầm nhìn mở rộng đầu tiên về lĩnh vực mới xuất hiện: khoa học thiên về dữ liệu, với mục đích tạo ảnh hưởng đến cộng đồng khoa học và điện toán toàn thế giới, đồng thời động viên thế hệ các nhà khoa học kế tiếp. Các bước đột phá trong khoa học sẽ ngày càng được tiếp sức bởi khả năng tính toán tiến bộ, giúp cho nhà nghiên cứu xử lý và khám phá những bộ số liệu khổng lồ. Tốc độ tiến bước của bất kì ngành khoa học nào cũng sẽ phụ thuộc vào việc liệu các nhà nghiên cứu hợp tác với nhau, và với các chuyên gia công nghệ hiệu quả đến mức nào, trong các lĩnh vực của khoa học điện toán (eScience) chẳng hạn như các công nghệ cơ sở dữ liệu, quản lý quy trình làm việc, hiển thị số liệu, và điện toán đám mây. Tập hợp các bài viết này sẽ tiếp tục mở rộng tầm nhìn đề xuất bởi nhà khoa học máy tính tiên phong, Jim Gray, về một mẫu hình mới, mẫu hình thứ tư về khám phá dựa trên khoa học thiên về dữ liệu và đề xuất chi tiết cách thức làm hiện thực lý thuyết này. (Lời giới thiệu từ Amazon.com)

Bài viết phát hành theo giấy phép Creative Commons Attribution-ShareAlike 3.0. Bạn có thể phân phối lại và sửa đổi, miễn là ghi nguồn.

Mục lục

Mở đầu: Jim Gray nói về eScience: Một phương pháp khoa học qua chuyển đổi
Phần I: Trái Đất và môi trường
Chương 1: Định luật Gray: tính toán khoa học lấy cơ sở dữ liệu làm trung tâm
Chương 2: Ngành khoa học mới bắt nguồn từ những ứng dụng trong lĩnh vực môi trường
Chương 3: Định nghĩa lại sinh thái học có sử dụng dữ liệu
Chương 4: Tầm nhìn năm 2020 về hải dương học
Chương 5: Kéo bầu trời đêm lại gần hơn: khám phá từ dòng lũ dữ liệu
Chương 6: Lập thiết bị đo đạc Trái đất: khoa học môi trường và các đầu đo thế hệ kế mới

Lời nói đầu

Gordon Bell | Microsoft Research

Cuốn sách này viết về một mẫu hình mới, mẫu hình thứ tư của khoa học dựa vào tính toán thiên về dữ liệu. Theo cách nghiên cứu khoa học này, chúng ta đang ở trong giai đoạn giống như lúc in ấn được phát minh ra. Việc in ấn phát triển suốt một quãng thời gian dài một nghìn năm và biến thành nhiều hình thức như ngày nay. Bằng cách dùng máy tính để có được hiểu biết về dữ liệu được tạo ra và lưu trữ trong ngân hàng dữ liệu điện tử sẽ dường như chỉ mất hàng thập kỉ—hay ngắn hơn. Các tác giả đóng góp bài viết trong cuốn sách này đã thực hiện công việc thật phi thường; đó là giúp định hình một cách hiểu về mẫu hình mới này, dưới những góc nhìn trong các lĩnh vực nghiên cứu khác nhau.

Có nhiều lúc, khoa học chậm hơn lĩnh vực thương mại ở khả năng suy diễn từ dữ liệu và hành động theo ý nghĩa được suy diễn đó. Tuy nhiên, thương mại thì tương đối đơn giản: mọi thứ có thể được mô tả chỉ bằng vài con số hoặc một tên sản phẩm được mua bán. Các lĩnh vực khoa học thì không dễ gì có thể gói gọn trong một số ít những con số và tên gọi dễ hiểu, và hầu hết dữ liệu khoa học không có giá trị kinh tế đủ cao để tiếp sức cho sự phát triển của của khám phá khoa học.

Kepler, nhà thiên văn

Chính là Johannes Kepler, người trợ lý cho Tycho Brahe, đã đọc cuốn ghi chép hệ thống về các quan sát thiên văn, mà tìm ra quy luật chuyển động của các hành tinh. Điều này thiết lập ranh giới phân cách giữa việc sàng lọc, phân tích số liệu ghi lại cẩn thận từ những thí nghiệm, với việc sáng lập ra lý thuyết. Ranh giới ngăn cách này là một khía cạnh của Mẫu hình thứ tư.

Ở thế kỉ 20, dữ liệu mà các lý thuyết khoa học dựa trên thường bị vùi lấp trong các sổ ghi chép khoa học của từng cá nhân, và trong một số lĩnh vực “khoa học lớn”, được lưu trữ trong phương tiện [đĩa/băng] từ mà cuối cùng sẽ đến lúc không còn đọc được nữa. Những dữ liệu như vậy, đặc biệt là của những cá nhân hoặc phòng thí nghiệm nhỏ, đều đa phần không thể truy cập được. Nó dường như sẽ bị bỏ đi một khi nhà khoa học nghỉ hưu, hoặc tốt lắm thì nó cũng chỉ được giữ lại ở một thư viện của cơ sở nghiên cứu đến khi nó bị hủy bỏ. Nguồn gốc của dữ liệu cũng như sự tiếp cận của cộng đồng đến dữ liệu phân tán qua thời gian dài chỉ là một trong số những thử thách đặt ra.

Thật may là có những “khu chứa dữ liệu”, như Trung tâm Quốc gia về Nghiên cứu Khí quyển (National Center for Atmospheric Research, NCAR)1 đã sẵn lòng tài trợ cho các nhà khoa học trái đất tiến hành thí nghiệm bằng cách phân tích những dữ liệu được xử lý sau khi thu thập từ thiết bị đo và các mô hình toán. Như vậy, ở một viện nghiên cứu chúng ta đã có một dây chuyền từ thu thập, xử lý, và phân tích cho cả một lĩnh vực trọn vẹn.

Vào thế kỉ 21, phần nhiều các dữ liệu khoa học thu thập bằng những thiết bị mới suốt ngày đêm, cùng với những thông tin phát sinh từ những mô hình toán do con người tạo ra, dường như sẽ tồn tại mãi mãi đưới hình thức trực tiếp và đa số có sẵn để cộng đồng truy cập được, được xử lý để phục vụ cho việc phân tích tiếp theo. Phân tích này sẽ cho ra kết quả tiến bộ ở nhiều lý thuyết mới! Tôi tin rằng ta sẽ sớm thấy được một lúc nào đó dữ liệu sẽ tồn tại vĩnh viễn trong phương tiện lưu trữ—cũng như lưu trữ văn bản giấy— và mọi người cũng như máy móc sẽ truy cập công cộng được từ các “mây điện toán”. Chỉ đến gần đây ta mới dám xét đến một sự tồn tại lâu dài như vậy của dữ liệu , cũng theo cách giống như ta hình dung về các thứ lưu giữ trong thự viện và bảo tàng quốc gia! Sự tồn tại lâu dài này dường như vẫn quá xa tâm tay cho đến khi bạn nhận thấy rằng việc nắm giữ nguồn gốc dữ liệu, bao gồm các ghi chép của cá nhân các nhà nghiên cứu và đôi khi cả mọi điều về họ, chính là công việc mà những thư viện chú trọng và luôn cố gắng thực hiện. “Đám mây” các phân cực từ mã hóa các dữ liệu và văn bản trong thư viện điện tử sẽ trở thành phương tiện hiện đại, tương đương với loạt giá sách dài hàng dặm đường của thư viện để chứa tài liệu giấy mực

Vào năm 2005, Hội đồng Khoa học Quốc gia thuộc Quỹ Khoa học Quốc gia đã xuất bản cuốn “Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century”, trong đó bắt đầu bằng lời đối thoại về tầm quan trọng của bảo trì dữ liệu cùng việc giới thiệu vấn đề về chăm sóc và tài trợ cho một nhóm mới hình thành, tạm gọi là các “nhà khoa học dữ liệu”:

Mối quan tâm của các nhà khoa học đữ liệu—các nhà khoa học máy tính và thông tin học, các lập trình viên cùng kỹ sư phần mềm và cơ sở dữ liệu, các nhà chuyên gia trong từng lĩnh vực, những người xử lý số liệu và đưa ra nhận định chuyên môn, những thủ thư, người bảo trì dữ liệu, v.v. cần thiết cho sự quản lý được tập hợp dữ liệu số—đều nằm ở chỗ những sáng tạo cũng như đóng góp trí tuệ của họ được ghi nhận đầy đủ. [1]

Mẫu hình IV: Tập trung vào các hệ thống thiên về dữ liệu và sự liên lạc trong khoa học

Trong bài thuyết trình cuối cùng của Jim Gray tại Hội đồng Khoa học máy tính và Truyền thông vào ngày 11/1/2007 [2], ông đã mô tả cái nhìn của bản nhân về mẫu hình thứ tư trong nghiên cứu khoa học. Ông phác thảo một yêu cầu khẩn cấp gồm hai phần, nhằm kêu gọi lập một quỹ trợ giúp việc thu thập dữ liệu, xử lý và phân tích dư liệu, cùng một cơ sở hạ tầng cho việc trao đổi và xuất bản ấn phẩm khoa học. Ông tranh luận về việc xây dựng những khu lưu trữ hiện đại chứa dữ liệu và văn bản ngang hàng với những thư viện truyền thống. Một bản thuyết trình của Jim qua biên tập sẽ được trình bày trong cuốn sách này như một bài viết riêng; nó được dựng lại từ cuốn băng ghi âm và những bản trình chiếu của ông.

Khoa học thiên về dữ liệu bao gồm ba hoạt động cơ bản: thu thập, xử lý và phân tích. Dữ liệu đến dưới mọi hình thái và kích cỡ, bao trùm nhiều thí nghiệm mang tầm quốc tế; giữa những phòng thí nghiệm khác nhau, trong một phòng thí nghiệm, hay những quan sát của từng cá nhân; và có khi diễn ra trong cả đời người.2 Lĩnh vực và quy mô của những thí nghiệm do cá nhân tiến hành, đặc biệt là các tốc độ sản sinh dữ liệu đã khiến cho vấn đề công cụ tiến hành trở nên đáng gờm. Dự án kính thiên văn vô tuyến mang tên Australian Square Kilometre Array,3 Máy gia tốc hạt lớn đặt tại CERN,4 và hệ thống kính thiên văn của Pan-STARR5 có khả năng phá sinh ra hàng petabyte (PB) dữ liệu mỗi ngày, nhưng các kế hoạch hiện thời đều giới hạn chúng không cho phép thu thập số liệu với tốc độ sao cho dễ kiểm soát hơn. Những máy phân tích bản đồ gien hiện đều cho số liệu đầu ra rất khiêm tốn vì lý do chi phí, do vậy chỉ những vùng mã hóa nhất định của bộ gien mới được phân tích chuỗi (25 KB cần cho mỗi vài trăm ngàn cặp cơ sở) trong từng cá thể. Nhưng tình huống này cùng lắm chỉ là tạm thời, đến khi Giải thưởng X PRIZE6 dành cho Di truyền gien trị giá 10 triệu đô-la Mỹ được trao—100 người được hoàn toàn phân tích chuỗi, trong vòng 10 ngày, với chi phí không tới 10.000 đô-la Mỹ mỗi người, với mức độ phân tích 3 tỷ cặp cơ sở cho mỗi bộ gien người.

Việc lập quỹ hỗ trợ là rất cần thiết để tạo ra một bộ công cụ để bao trùm toàn bộ lĩnh vực hoạt động—từ thu thập và thẩm định tính đúng đắn của dữ liệu, đến xử lý, phân tích và cuối cùng là lưu trữ lâu dài. Khâu xử lý bao gồm nhiều công đoạn, từ việc tìm được cấu trúc dữ liệu thích hợp đến việc khớp với những ngân hàng dữ liệu khác nhau. Nó bao gồm các mô hình và dữ liệu cấp cao,7 nhằm phục vụ lưu trữ lâu dài và để kết nối giữa các thiết bị, thí nghiệm, và phòng thí nghiệm khác nhau. Nếu không có mô hình và dữ liệu cao cấp như vậy, việc diễn giải sẽ chỉ là ngầm định và phụ thuộc nhiều vào những chương trình cụ thể dùng để phân tích. Cuối cùng rồi những dữ liệu không được xử lý đó chắc chắn sẽ mất đi. Chúng ta phải suy nghĩ cẩn thận xem những dữ liệu nào cần được duy trì mãi và những dữ liệu cấp cao nào cần được ghi lại để giúp cho việc duy trì được khả thi.

Khâu phân tích số liệu bao trùm một loạt các công đoạn xuyên suốt dây chuyền làm việc, bao gồm việc dùng cơ sở dữ liệu (thay vì một tập hợp các tập tin lẻ mà cơ sở dữ liệu có thể truy cập đến), phân tích và mô phỏng, rồi sau đó là hiển thị dữ liệu. Công thức của Jim Gray để thiết kế một cơ sở dữ liệu cho từng lĩnh vực cụ thể là ở chỗ nó phải trả lời được 20 câu hỏi mấu chốt mà nhà khoa học yêu cầu ở nó. Phần lớn hoạt động khoa học bây giờ dùng các cơ sở dữ liệu chỉ để giữ những khía cạnh khác nhau của dữ liệu thay vì vị trí của bản thân dữ liệu. Có điều này là vì thời gian cần để rà soát tất cả dư liệu là quá lâu khiến cho việc phân tích trở nên không khả thi. Ngay một thập kỉ về trước, việc đọc lại toàn bộ dữ liệu đã là không thể. Vào năm 2010, dung lượng đĩa từ đã lớn hơn 1000 lần, mà tốc độ truy cập nội dung trong đĩa chỉ mới tăng chừng gấp đôi.

Thư viện điện tử để lưu trữ dữ liệu và văn bản: cũng như thư viện giấy thời hiện đại

Sự trao đổi thông tin khoa học, bao gồm cả việc bình duyệt, cũng có những bước chuyển biến cơ bản. Các thư viện điện tử công cụ đang dần thay thế vai trò lưu giữ các ấn bản của các thư viện truyền thống—vì chi phí, yêu cầu về tính kịp thời, và nhu cầu lưu giữ những dữ liệu thực nghiệm và tài liệu chỉ dẫn về dữ liệu này cùng nhau.

Tại thời điểm viết cuốn sách này, các thư viện dữ liệu điện tử vẫn còn ở giai đoạn định hình, với những quy mô, hình thái, và quyết định thành lập khác nhau. Dĩ nhiên, NCAR là một trong những nơi lâu đời nhất phục vụ mô hình hóa, thu thập và xử lý dữ liệu khoa học trái đất. Trung tâm Siêu máy tính San Diego (SDSC) đặt tại Trường đại học California, San Diego, vốn thường đảm nhiệm việc cung cấp công suất tính toán cho cộng đồng khoa học, là một trong những tổ chức sớm nhận thấy nhu cầu phải bổ sung dữ liệu vào mục tiêu hành động của nó. SDSC đã thiết lập một Trung tâm dữ liệu riêng,8 tại đây lưu giữ 27 PB dữ liệu trong hơn 100 cơ sở dữ liệu cụ thể (chẳng hạn cho các ngành tin sinh học và tài nguyên nước). Trong năm 2009, nó đã dành hẳn 400 terabyte (TB) dung lượng đĩa cho cơ sở dữ liệu và tập hợp các dữ liệu công cộng và cấ nhân, nhằm phục vụ một loạt các viện khoa học, bao gồm các phòng thí nghiệm, thư viện và bảo tàng.

Viện Dữ liệu Quốc gia Úc (Australian National Data Service, ANDS)9 đã bắt đầu cung cấp các dịch vụ bắt nguồn từ dịch vụ có tên Register My Data, một cuốn sổ lưu các thẻ ghi các thông tin nhận diện, cấu trúc, tên và vị trí (địa chỉ IP) của mọi cơ sở dữ liệu, gồm cả những cơ sở dữ liệu của cá nhân. Việc đăng kí đơn giản này sẽ có ích để hướng đến việc lưu trữ lâu dài. Mục tiêu của ANDS là làm cho chính sách quốc gia có ảnh hưởng đến việc quản lý dữ liệu và cung cấp thông tin về những quy tắc thực tế nhất cho việc xử lý dữ liệu, từ đó chuyển đổi những tập hợp các thông tin tách biệt về một một tập hợp có sự gắn kết chặt chẽ những tài nguyên để phục vụ cho nghiên cứu. Ở Anh, Liên hội đồng Hệ thống thông tin (Joint Information Systems Commitee, JISC) đã mở quỹ tài trợ thành lập Trung tâm Xử lý Dữ liệu số (Digital Curation Centre)10 để khám phá vấn đề này. Theo thời gian, ta có thể trông đợi rằng những trung tâm dữ liệu tương tự sẽ xuất hiện. Gần đây, National Science Foundation’s Directorate for Computer and Information Science and Engineering (Ban chỉ đạo Khoa học kỹ thuật tin học và máy tính thuộc Tổ chức Khoa học Quốc gia Hoa Kỳ) đã ban hành lời kêu gọi những đề cương về khoản hỗ trợ dài hạn cho các nhà nghiên cứu trong lĩnh vực tính toán thiên về dữ liệu và lưu trữ dữ liệu lâu dài.

Ở các bài viết thuộc khuôn khổ cuốn sách này, bạn đọc sẽ được giới thiệu đến xem xét nhiều vận hội và thử thách đối với khoa học thiên về dữ liệu, bao gồm cả những hoạt động đào tạo và hợp tác liên ngành, chia sẻ dữ liệu giữa các tổ chức khác nhau nhằm phục vụ “thống nhất dữ liệu khoa học” đến từ nhiều nguồn, việc thiết lập những quá trình và dây chuyền mới, cùng một lộ trình nghiên cứu nhằm khai thác những vận hội cũng như đi trước trận lụt thông tin. Những thử thách trên sẽ yêu cầu chi phí lớn về tiền tài và công sức. Ước mơ thiết lập cơ sở hạ tầng dữ liệu với “thiết bị đo ở mọi nơi” nhằm trợ giúp những dạng hoạt động nghiên cứu khoa học mới sẽ yêu cầu sự hợp tác lớn giữa những cơ quan tài trợ, nhà khoa học và kĩ sư. Ước mơ này phải được hỗ trợ và động viên một cách tích cực.

Tài liệu tham khảo

[1] National Science Board, “Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century,” Technical Report NSB-05-40, National Science Foundation, September 2005, www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf.

[2] Bài thuyết trình của Jim Gray trước NRC-CSTB tại Mountain View, CA, ngày 11/1/2007, http://research.microsoft.com/en-us/um/people/gray/JimGrayTalks.htm. (Một bản được biên tập từ cuốn băng ghi âm cũng kèm theo trong cuốn sách này.)


  1. www.ncar.ucar.edu
  2. http://research.microsoft.com/en-us/projects/mylifebits
  3. www.ska.gov.au
  4. http://public.web.cern.ch/public/en/LHC/LHC-en.html
  5. http://pan-starrs.ifa.hawaii.edu/public
  6. http://genomics.xprize.org
  7. Dữ liệu cấp cao, metadata thường được kèm theo khối lượng dữ liệu đồ sộ, để giải thích cho cấu trúc của khối lượng dữ liệu đó. Chẳng hạn, người ta giao cho bạn một tập tin chứa rất nhiều con số đo lưu lượng xe cộ trên một tuyến đường. Để hiểu được thông tin trong tay (và sau này có thể dùng máy tính để phân tích) thì bạn phải biết các số trong tập tin được xếp theo hàng, cột ra sao, và đơn vị đo của từng con số là gì; đó là các dữ liệu cấp cao.—ND
  8. http://datacentral.sdsc.edu/index.html
  9. www.ands.org.au
  10. www.dcc.ac.uk

8 phản hồi

Filed under Mẫu hình IV

8 responses to “Mẫu hình thứ tư: Khám phá khoa học thiên về dữ liệu

  1. Pingback: Chương 5: Kéo bầu trời đêm lại gần hơn: Khám phá từ dòng lũ dữ liệu | Blog của Chiến

  2. Pingback: Chương 3: Định nghĩa lại sinh thái học có sử dụng dữ liệu | Blog của Chiến

  3. Pingback: Jim Gray nói về eScience: một phương pháp khoa học qua chuyển đổi | Blog của Chiến

  4. Pingback: Chương 1: Định luật Gray: Tính toán khoa học lấy dữ liệu làm trung tâm | Blog của Chiến

  5. Pingback: Phần I: Trái đất và môi trường | Blog của Chiến

  6. Pingback: Chương 2. Ngành khoa học mới bắt nguồn từ những ứng dụng trong lĩnh vực môi trường | Blog của Chiến

  7. Pingback: Chương 4: Tầm nhìn năm 2020 về hải dương học | Blog của Chiến

  8. Pingback: Chương 6: Lập thiết bị đo đạc Trái đất: Khoa học môi trường và mạng lưới đầu đo thế hệ mới | Blog của Chiến

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s