Jim Gray nói về eScience: một phương pháp khoa học qua chuyển đổi

Trở về Mục lục cuốn sách

Dựa trên băng ghi lại bài thuyết trình của Jim Gray trước NRC_CSTB1 tại Mountain View, CA, ngày 11/1/20072

Biên tập: Tony Hey, Steward Tansley, và Kristin Tolle | Microsoft Research

Chúng ta cần phải thực hiện tốt hơn công việc tạo ra các công cụ hỗ trợ cho toàn bộ quá trình nghiên cứu—từ thu thập dữ liệu, xử lý dữ liệu đến phân tích và hiển thị dữ liệu. Ngày nay, các công cụ để thu thập dữ liệu, kể cả vĩ mô và vi mô đều tuyệt vời. Sau khi thu thập dữ liệu, bạn cần xử lý nó trước khi có thể làm bất kì việc phân tích dữ liệu nào; và chúng ta đang thiếu những công cụ tiện dụng cho cả việc xử lý lẫn phân tích dữ liệu. Sau đó là đến xuất bản các kết quả trong công trình nghiên cứu của bạn, mà những tài liệu đã được công bố chỉ là phần nổi của tảng băng dữ liệu mà thôi. Nói vậy, ý của tôi là chúng ta thu thập rất nhiều dữ liệu rồi chiết xuất thành một vài cột trên trang báo Science hoặc Nature—hoặc thành 10 trang, nếu đó là một bài do người làm khoa học máy tính viết. Vậy tôi nói “tảng băng dữ liệu” nghĩa là có rất nhiều dữ liệu được thu thập nhưng không được xử lý hay xuất bản theo cách có hệ thống. Vẫn có những ngoại lệ, và tôi nghĩ rằng những trường này là nơi thích hợp để ta tìm ra những kinh nghiệm hay. Tôi sẽ nói về cách mà toàn bộ quá trình bình duyệt cần phải thay đổi và cách mà trong đó, tôi nghĩ rằng nó đang thay đổi cùng những việc mà CSTB có thể làm để giúp tất cả chúng ta truy cập được đến việc nghiên cứu của bản thân.

Jim Gray

Khoa học điện tử (eScience): đó là gì?

Khoa học điện tử chính là nơi “công nghệ thông tin gặp nhà khoa học”. Các nhà nghiên cứu đang dùng nhiều phương pháp khác nhau để thu thập hoặc phát sinh dữ liệu—từ các đầu đo và CCD đến các siêu máy tính và máy gia tốc hạt. Cuối cùng, khi dữ liệu đã hiện lên trên máy tính, bạn sẽ làm gì với tất cả những thông tin hiện đang nằm trong cái ngăn điện tử này? Mọi người thường liên tục tìm gặp tôi và nói, “Giúp tôi với! Đây là dữ liệu mà tôi đang có. Tôi phải làm gì với chúng? Các bảng tính Excel trên máy đã vượt quá tầm kiểm soát của tôi rồi!” Vậy điều gì sẽ xảy ra tiếp theo? Điều gì sẽ xảy ra khi bạn có 10.000 bảng tính Excel, mỗi bảng có 50 bảng nhỏ trong chúng? Được rồi, vậy tôi đang đặt tên chúng cho có hệ thống, nhưng giờ thì tôi phải làm gì?

Các mẫu hình trong khoa học

các mẫu hình khoa học

Bất cứ trong bài thuyết trình nào, tôi cũng chiếu hình này [Hình 1] lên. Tôi cho rằng chính điều nhận biết này đã khởi phát trong tôi từ một công trình nghiên cứu của CSTB về tương lai của điện toán. Chúng ta nói, “Nhìn kìa, khoa học tính toán là cái chân kiềng thứ ba.” Ban đầu, chỉ có khoa học thực nghiệm, rồi đến khoa học lý thuyết, với các định luật Kepler, định luật Newton về chuyển động, các phương trình Maxwell, v.v. Rồi ở nhiều bài toán, mô hình lý thuyết đã trở nên quá khó để giải được theo cách giải tích, và con người đã phải bắt đầu mô phỏng. Những mô phỏng này đã giúp chúng ta phần nhiều công việc của cả nửa thiên niên kỷ vừa qua. Cho đến lúc này, những mô phỏng đã phát sinh rất nhiều dữ liệu, cùng với sự tăng trưởng vượt bậc của dữ liệu đến từ khoa học thực nghiệm. Con người bây giờ thật ra không nhìn vào kính viễn vọng nữa. Thay vì vậy, họ “nhìn” vào những thiết bị cỡ lớn, phức tạp để chuyển dữ liệu đến các trung tâm dữ liệu, và sau đó thì mới nhìn vào thông tin trên máy tính của mình.

Thế giới khoa học đã thay đổi, điều mà chẳng ai hoài nghi. Mô hình mới này là dành cho dữ liệu được thu thập hoặc phát sinh từ các mô phỏng trước khi được xử lý bởi phần mềm và cho thông tin kết quả hoặc kiến thức được lưu trữ trong máy tính. Trong dây chuyền này, nhà khoa học chỉ phải nhìn vào dữ liệu ở khâu tương đối muộn. Các kĩ thuật và công nghệ cho khoa học thiên về dữ liệu như vậy rất khác; và ta nên tách khoa học thiên về dữ liệu ra khỏi khoa học tính toán, trở thành một mẫu hình mới, mẫu hình thứ tư trong khám phá khoa học. [1]

Các ngành học với tên gọi X-info và Comp-X

tên gọi cho các ngành khoa học mới

Chúng ta đang chứng kiến sự tiến hóa của hai nhánh trong bất kì lĩnh vực nào, như trên hình chiếu tiếp theo [Hình 2]. Nếu bạn nói đến ecology (sinh thái học), thì giờ có cả computational ecology (sinh thái học tính toán), ngành học mô phỏng các hệ sinh thái, và eco-informatics (tin-sinh thái), ngành thu thập và phân tích thông tin sinh thái. Tương tự, ta có bioinformatics (tin-sinh học), trong đó thu thập và phân tích các thông tin từ nhiều thí nghiệm khác nhau, và computational biology (sinh học tính toán), trong đó mô phỏng cơ chế hoạt động của các hệ thống sinh học cũng như các phản ứng trao đổi chất hoặc động thái của tế bào hay cách hình thành protein. Điều này cũng giống như ý tưởng của Jeannette Wing về “tư duy tính toán”, trong đó các kỹ thuật và công nghệ khoa học máy tính được áp dụng cho những lĩnh vực khác nhau. [2]

Mục tiêu của nhiều nhà khoa học là mã hóa các thông tin có được, sao cho họ có thể trao đổi chúng với những nhà khoa học khác. Tại sao cần phải mã hóa thông tin? Vì nếu tôi đưa vài thông tin vào trong máy tính thì cách duy nhất để bạn hiểu được thông tin đó là chương trình máy tính của bạn phải hiểu được thông tin này. Điều này có nghĩa là bạn cần một cách tiêu chuẩn để biểu diễn cho mọi thứ, từ gien đến thiên hà, đến số đo nhiệt độ.

Ngân quỹ dành cho thực nghiệm chỉ là 1/4 so với 1/2 cho phần mềm

Tôi đã đi cùng các nhà thiên văn học suốt khoảng 10 năm qua, và đã đến một số trạm thiên văn của họ. Một trong những điều làm tôi ngạc nhiên là khi trông thấy kính viễn vọng ở đó, thật không thể tin được. Số tiền đầu tư cho thiết bị này cỡ từ 15 đến 20 triệu đô-la, và có khoảng từ 20 đến 50 người vận hành nó. Nhưng bạn phải nể khi biết rằng thật sự có đến hàng nghìn người viết mã lệnh để xử lý các thông tin thu được từ thiết bị này và cần đến hàng triệu dòng mã lệnh để có thể phân tích được toàn bộ những thông tin đó. Thật ra, chi phí dành cho phần mềm chi phối khoản tiền đầu tư! Điều này là có thật tại Sloan Digital Sky Survey (SDSS) và nó cũng còn tiếp tục đúng với các trạm viễn vọng cỡ lớn khác, và nói chung cho các thí nghiệm cỡ lớn. Tôi không chắc rằng chi phí phần mềm lớn như vậy có còn đúng với cộng đồng nghiên cứu vật lý hạt cùng với cỗ máy gia tốc hạt lớn (LHC) hay không, nhưng đối với những thí nghiệm giá tốc hạt thì điều đó chắc chắn đúng.

Ngay cả trong những ngành khoa học “dữ liệu nhỏ”, bạn thấy người ta đi thu thập thông tin và rồi phải dành nhiều công sức vào việc phân tích những thông tin hơn là việc lấy được thông tin ban đầu. Phần mềm nói chung đều quá đặc dụng vì có quá ít công cụ chung mà nhà khoa học thực nghiệm có trong tay để thu thập, phân tích và xử lý dữ liệu. Đây là chỗ mà những nhà khoa học máy tính như chúng ta có thể giúp được bằng cách tạo ra các công cụ chung cho nhà khoa học.

Tôi có một danh sách các đầu việc cho các nhà hoạch định chính sách như CSTB. Điều đầu tiên về cơ bản là để khuyến khích cả việc tạo công cụ và hỗ trợ chúng. Bây giờ NSF đã có một tổ chức cơ sở hạ tầng thông tin, và tôi không muốn nói gì xấu về họ, nhưng vẫn cần những hành động nữa xa hơn việc hỗ trợ cho TerraGrid và tính toán hiệu năng cao. Bây giờ chúng ta biết cách dựng nhóm máy tính Beowulf phục vụ cho tính toán hiệu năng cao với giá rẻ. Nhưng chúng ta không biết dựng một lưới dữ liệu thực thụ hoặc ngân hàng dữ liệu được làm từ những “khối dữ liệu” rẻ tiền, là nơi mà bạn xếp vào đó tất cả dữ liệu rồi phân tích thông tin. Chúng ta đã thật sự có bước tiến khá về mặt công cụ mô phỏng, nhưng không nhiều trong lĩnh vực công cụ phân tích.

Kim tự tháp dự án và góp quỹ kiểu kim tự tháp

Phần này chỉ là một quan sát về cách mà dường như các dự án khoa học hoạt động theo. Có một số dự án quốc tế, và nhiều hơn một chút là các dự án liên trường đại học, rồi có nhiều và rất nhiều các dự án của một phòng thí nghiệm. Như vậy về cơ bản ta có kim tự tháp trang thiết bị Cấp 1, Cấp 2, Cấp 3, mà bạn sẽ còn gặp lại nhiều lần ở những lĩnh vực khác. Các dự án Cấp 1 và Cấp 2 thường được tổ chức và quản lý khá có hệ thống, nhưng chỉ có một ít dự án như vậy. Những dự án lớn này có thể đủ ngân quỹ lớn dành cho phần mềm và phần cứng, và họ bố trí các nhóm nhà khoa học để viết các phần mềm riêng cho việc thí nghiệm. Lấy thí dụ, tôi đã chứng kiến trung tâm quan trắc đại dương Hoa Kỳ- Canada—Project Neptune—bố trí khoảng 30 phần trăm số ngân quỹ dành cho cơ sở hạ tầng thông tin. [3] Làm tròn số, đó là 30 phần trăm của 350 triệu đô-la, hay là khoảng 100 triệu đô-la! Tương tự như vậy, các thí nghiệm của LHC cũng có ngân quỹ khổng lồ dành cho phần mềm, và xu hướng tiến về ngân quỹ phần mềm lớn này cũng rõ nét từ các thí nghiệm BaBar [4,5]. Nhưng nếu bạn là nhà khoa học thực nghiệm ngồi dưới đáy kim tự tháp thì bạn sẽ làm gì để có ngân quỹ phần mềm? Về cơ bản thì bạn sẽ mua MATLAB3 và Excel4 hoặc một phần mềm tương tự rồi tự xoay xở với các công cụ thương mại như vậy. Bạn chẳng thể làm gì nhiều hơn.

Như vậy những dự án khổng lồ đa số đều hoạt động bởi nhu cầu về một tài nguyên cỡ lớn nào đó, như siêu máy tính, kính viễn vọng, hay các thiết bị cỡ lớn khác. Những thiết bị này nói chung đều được dùng bởi một cộng đồng nhiều nhà khoa học và cần được tài trợ đầy đủ từ phía các cơ quan như National Science Foundation hoặc Department of Energy. Các dự án cỡ nhỏ hơn thường lấy quỹ từ nhiều nguồn khác nhau, với cơ quan tài trợ thường gắn với tên một tổ chức nào khác—vốn có thể là chính trường đại học đó. Trong ài báo do Gordon Bell, Alex Szalay, và tôi viết đăng trên IEEE Computer [6], chúng tôi quan sát thấy thiết bị Cấp 1 như LHC được tài trợ bởi một tổ chức quốc tế gồm nhiều cơ quan khác nhau nhưng các thí nghiệm LHC thuộc Cấp 2 và các thiết bị Cấp 3 được tài trợ bởi những nhà nghiên cứu người mang theo họ nguồn tài trợ riêng. Như vậy các cơ quan tài trợ cần phải giúp đỡ hoàn toàn về tài chính cho các dự án Cấp 1 nhưng sau đó điều động nửa còn lại của phần tiền tài trợ cho cơ sở hạ tầng thông tin phục vụ cho các dự án nhỏ hơn.

Hệ thống quản trị thông tin phòng thí nghiệm

Để tóm lược những gì tôi đã nói về phần mềm, thứ mà chúng ta cần đến là “hệ thống quản trị thông tin phòng thí nghiệm” có hiệu quả. Những hệ thống phần mềm như vậy cung cấp một dây chuyền đưa dữ liệu từ thiết bị đo hoặc kết quả mô phỏng đến kho chứa dữ liệu, và chúng ta đang gần đạt được điều này qua một số ví dụ cụ thể mà tôi đã trình bày. Về cơ bản, chúng ta lấy dữ liệu từ một bó thiết bị, đưa vào một dây chuyền mà ở đó kiểm định và “rửa sạch” dữ liệu, bao gồm cả việc điền vào những chỗ trống nếu cần. Sau đó ta “mạng lại”5 thông tin rồi cuối cùng đưa nó vào một cơ sở dữ liệu, từ đó bạn có thể “xuất bản” lên mạng theo ý thích để người đọc được tiếp cận thông tin.

Toàn bộ công việc từ chỗ còn ở công cụ đo cho đến trình duyệt Web đòi hỏi rất nhiều kỹ thuật khác nhau. Nhưng những gì diễn ra thật sự lại rất đơn giản. Ta cần phải tạo được một gói tựa như Beowulf và một số bản mẫu cho phép những người đang nhúng tay vào thí nghiệm trong phòng chỉ phải thu thập dữ liệu, nhập nó vào cơ sở dữ liệu, và công bố chúng. Điều này có thể thực hiện được bằng cách thiết lập một số mô hình mẫu và viết tài liệu hướng dẫn sử dụng. Để làm việc này thì sẽ mất vài năm, nhưng sẽ mang lại dấu ấn lớn về cách mà khoa học được thực hiện.

Như tôi đã nói, dây chuyền phần mềm như vậy được gọi là Hệ thống quản trị thông tin phòng thí nghiệm, hay LIMS (Laboratory Information Management Systems). Xin được nói thêm, cũng có những hệ thống được bán trên thị trường rồi, mà bạn có thể mua và dùng ngay. Vấn đề là ở chỗ chúng thường hướng về phía những người tương đối giàu và hoạt động trong lĩnh vực công nghiệp. Chúng cũng khá riêng biệt cho từng mục đích cụ thể của những cộng đồng nghiên cứu đặc biệt—chẳng hạn như lấy dữ liệu từ máy gián đoạn chuỗi hoặc máy phổ khối lượng, truyền dữ liệu vào hệ thống, rồi lấy kết quả ở đầu ra.

Quản trị thông tin và phân tích dữ liệu

Sau đây là một tình huống điển hình. Người ta đang thu thập dữ liệu hoặc là từ thiết bị hay đầu đo, hoặc là từ chương trình mô phỏng. Và không lâu sau họ đã có trong tay hàng triệu tập tin, và không có cách nào dễ dàng để quản lý hay phân tích dữ liệu thu được. Tôi đã từng đi từ phòng này sang phòng khác để xem các nhà khoa học làm việc thế nào. Nhìn chung, họ làm một trong hai công việc sau—hoặc là tìm kim trong đống rơm hoặc là tự tìm lấy đống rơm. Việc tìm kiếm cây kim trong đống rơm thực ra lại rất dễ—bạn tìm kiếm những điều dị thường cụ thể trong đống dữ liệu, và thường bạn biết được đặc điểm mà mình đang đi tìm. Các nhà vật lý hạt đang đi tìm hạt Higgs ở máy LHC, và họ đã xác định rõ được sự phân rã của loại hạt nặng này sẽ trông như thế nào trên các tín hiệu thu được từ đầu đo. Những mạng máy tính gồm những nhóm máy tính chung sẽ rất hợp để giải các bài toán kiểu tìm kim trong đống rơm, nhưng những mạng máy tính như vậy lại rất dở trong việc phân tích xu hướng, phân lớp thống kê, và phát hiện các mẫu điển hình trong dữ liệu.

Thực tế là ta cần những thuật toán tốt hơn nhiều để giải bài toán phân lớp, và cho khai phá dữ liệu. Thật không may là các thuật toán phân lớp không phải có độ phức tạp là N hay N log N mà thường là N lập phương, vì vậy khi N quá lớn thì phương pháp này sẽ không dùng được nữa. Do đó ta buộc phát minh ra những thuật toán mới, và bạn phải sống chung với những lời giải xấp xỉ. Chẳng hạn, dùng một giá trị median (trung vị) được ước lượng hóa ra lại rất tốt. Và ai đã đoán như vậy? Không phải tôi!

Đa số các nhà phân tích thống kê đều phải tạo ra các mẫu đồng đều, thực hiện sàng lọc dữ liệu, bao gồm hoặc so sánh một số mô phỏng Monte Carlo, vân vân; tất cả đều tạo ra khối lượng tập tin khổng lồ. Và vấn đề với mỗi tập tin là nó chứa một đống byte dữ liệu. Nếu tôi đưa bạn tập tin này, bạn phải rất vất vả mới hình dung được dữ liệu trong tập tin này có ý nghĩa gì. Vì vậy, điều quan trọng là các tập tin này phải tự lý giải được. Khi người ta nói cơ sở dữ liệu, về cơ bản họ muốn nói rằng dữ liệu phải tự lý giải được và có một mô hình. Đó thật sự là tất cả những gì mà từ cơ sở dữ liệu hàm ý. Vì vậy, nếu tôi đưa bạn một tập hợp thông tin nhất định, bạn có thể nhìn vào đó và nói, “Tôi muốn tất cả những gien nào có thuộc tính này”, hoặc “Tôi muốn tất cả những vì sao nào nào có thuộc tính này” hoặc “Tôi muốn tất cả những thiên hà nào có thuộc tính này”. Nhưng nếu tôi chỉ cho bạn một bó các tập tin, bạn chẳng thể dùng được khái niệm về một thiên hà và phải mò mẫm để tự hình dung ra được đâu là mô hình hiệu quả cho dữ liệu trong tập tin đó. Nếu bạn đã có một mô hình cho mọi thứ rồi, thì bạn có thể chỉ định dữ liệu, có thể gộp dữ liệu, có thể dùng phép tìm kiếm song song trên dữ liệu, có thể đặt yêu cầu tìm kiếm tự phát trên dữ liệu, và việc thiết lập một số công cụ hiển thị chung sẽ dễ hơn nhiều.

Để công bằng, tôi cũng công nhận rằng cộng đồng khoa học đã phát minh ra một loạt các định dạng mà tôi cho rằng chúng được xếp vào loại cơ sở dữ liệu. HDF6 (Hierarchical Data Format) là một kiểu định dạng như vậy, và NetCDF7 (Network Common Data Form) là một dạng khác. Những kiểu định dạng trên được dùng để trao đổi dữ liệu và chúng mang theo mô hình dữ liệu trong quá trình được trao đổi. Nhưng toàn bộ lĩnh vực khoa học cần những công cụ tốt hơn cả HDF và NetCDF để làm cho dữ liệu có được tính tự định nghĩa.

Phân phát dữ liệu: rào cản không thể vượt qua

Một vấn đề then chốt khác là khi tập hợp dữ liệu lớn lên thì ta không còn thu hồi chúng bằng cách FTP hoặc grep8 được nữa. Một petabyte dữ liệu thì rất khó FTP được! Vì vậy đến lúc nào đó, bạn cần phải đánh chỉ số cho dữ liệu và truy cập dữ liệu một cách song song, và đây là lúc mà cơ sở dữ liệu có thể giúp được bạn. Để thực hiện phân tích dữ liệu, một khả năng là chuyển dữ liệu đến chỗ bạn, nhưng còn khả năng khác là chuyển lời truy vấn (yêu cầu) từ bạn đến chỗ dữ liệu. Bạn có thể di chuyển câu hỏi hoặc chuyển dữ liệu. Thường thì thực tế cho thấy việc chuyển câu hỏi có hiệu quả hơn.

Nhu cầu dùng công cụ xử lý dữ liệu: trăm hoa đua nở

Điều mà tôi đang gợi ý là những công cụ quản trị dữ liệu mà giờ chúng ta đang nắm trong tay đều rất tệ xét về khả năng phục vụ đa số các lĩnh vực khoa học. Những tổ chức thương mại như Walmart có thể đủ tiền chi trả để xây dựng phần mềm quản trị dữ liệu riêng cho họ, nhưng trong khoa học thì ta không giàu được như vậy. Hiện nay, hầu như chúng ta không có công cụ phân tích và hiển thị. Một số cộng đồng nghiên cứu dùng MATLAB chẳng hạn, nhưng các cơ quan tài trợ ở Mỹ cũng như các nơi khác cần phải làm nhiều hơn nữa để khuyến khích việc xây dựng bộ công cụ giúp các nhà khoa học nâng cao năng suất nghiên cứu. Khi bạn ra ngoài và nhìn các nhà khoa học phân tích dữ liệu không ngừng nghỉ, thật là khủng khiếp. Và tôi ngờ rằng nhiều bạn cũng giống tôi ở chỗ chỉ có trong tay những công cụ như MATLAB và Excel!

Chúng ta có một số công cụ tốt như nhóm Beowulf,9 ở đó ta có thể tính toán với hiệu năng cao với chi phí hợp lý, bằng cách kết hợp rất nhiều máy tính rẻ tiền. Chúng ta có một số phần mềm như Condor10 cho phép tận dụng năng lực xử lý của các máy đặt ở cùng cơ sở nghiên cứu. Tương tự, chúng ta có phần mềm BOINC11 (Berkeley Open Infrastructure for Network Computing) cho phép tận dụng năng lực xử lý của máy tính trong dự án SETI@Home. Và chúng ta có một số các phần mềm thương mại như MATLAB. Tất cả những công cụ này đều nảy sinh từ cộng đồng nghiên cứu, và tôi không hình dung được tại sao cụ thể những công cụ ấy lại thành công.

Chúng ta cũng có Linux và FreeBSD Unix. FreeBSD có trước Linux, nhưng bằng cách nào đó Linux đã cất cánh còn FreeBSD thì không. Tôi nghĩ rằng điều này phần nhiều liên quan đến cộng đồng, cá tính con người, và thời gian. Vì vậy tôi đề nghị rằng chúng ta nên có nhiều thứ. Chúng ta có các công cụ thương mại chẳng hạn như LabVIEW,12 nhưng cũng nên tạo ra một vài hệ thống khác kiểu như vậy. Và chúng ta chỉ cần phải hi vọng rằng một vài công cụ trong số đó sẽ cất cánh. Sẽ không mất quá nhiều kinh phí để ươm mầm nhiều dự án như vậy.

Đợt cách mạng trước mắt về liên lạc khoa học

Tôi đã kết thúc phần đầu của bài nói: nội dung phần này là nhu cầu về những công cụ giúp cho nhà khoa học thu thập dữ liệu đo đạc, xử lý chúng, phân tích chúng, và cuối cùng là hiển thị chúng. Phần thứ hai của bài nói là về liên lạc trong khoa học. Khoảng ba năm trước, Quốc hội đã ban hành điều luật gợi ý rằng nếu bạn nhận tài trợ của NIH (National Institute of Health / Bộ Y tế Hoa Kỳ) để thực hiện nghiên cứu, thì bạn phải nộp báo cáo nghiên cứu về cho Thư viện Dược Quốc gia (National Library of Medicine, NLM) để cho toàn văn bài báo của bạn được người dân có thể xem được. Việc tuân thủ tự nguyện điều luật này chỉ đạt mức 3 phần trăm, vì vậy mọi thứ sắp sửa sẽ thay đổi. Dường như chúng ta đang thấy rằng tất cả các văn bản khoa học được tài trợ bởi cộng đồng đều được đưa lên mạng, dưới sự bắt buộc của cơ quan tài trợ. Hiện đang có một hóa đơn tài trợ bởi Senators Cornyn và Lieberman trong đó sẽ bắt buộc những người nhận bổng NIH phải nộp bài báo nghiên cứu vào trong thư viện trung tâm PubMed của NLM.13 Ở Anh, Wellcome Trust đã ban hành một điều lệnh tương tự đối với những người nhận quỹ nghiên cứu, và đã tạo ra một bản sao của thư viện trung tâm PubMed ở NLM.

Lợi ích của việc công bố trực tuyến

Nhưng Internet có thể làm nhiều hơn là chỉ đăng lên toàn văn bài báo nghiên cứu. Về nguyên tắc, nó có thể thống nhất toàn bộ các dữ liệu khoa học với tất cả văn bản để tạo thành một thế giới trong đó dữ liệu và văn bản tương tác được với nhau [Hình 3]. Bạn có thể đọc một bài báo do ai đó viết và rời mắt để nhìn sang dữ liệu gốc của họ. Thậm chí bạn còn có thể làm lại việc phân tích của họ. Hoặc bạn có thể nhìn vào một dữ liệu nào đó rồi rời mắt để đi tìm các tài liệu liên quan đến dữ liệu đó. Tính năng như vậy sẽ làm tăng “vận tốc thông tin” của khoa học và sẽ nâng cao năng suất khoa học của các nhà nghiên cứu. Và tôi tin rằng đây sẽ là một bước phát triển rất tốt!

Hãy lấy thí dụ như ai đó đang làm việc cho Bộ Y tế—vốn là trường hợp ta đang bàn đến ở đây—và viết được một báo cáo. Giả dụ như anh ấy phát hiện được đặc điểm gì về căn bệnh X. Bạn đến khám bệnh và bảo bác sĩ: “Thưa bác sĩ, tôi không được khỏe.” và anh trả lời: “Andy, chúng ta sẽ tiến hành xét nghiệm anh.” rồi khám người bạn với một loạt xét nghiệm. Ngày hôm sau anh ấy gọi bạn và nói: “Sức khỏe anh vẫn bình thường. Hãy uống hai viên aspirin, và đi nghỉ ngơi cho thoải mái.” Một năm sau bạn quay trở về và khám bệnh như vậy. Ba năm sau, anh gọi bạn đến và nói: “Andy, anh đã mắc bệnh X! Chúng tôi đã tìm ra rồi!” Bạn hỏi: “X là gì?” Anh ấy trả lời: “Tôi cũng không biết. Đó là một căn bệnh hiếm, nhưng có người này ở New York biết rõ về căn bệnh.” Và thế là bạn tra Google14 và gõ vào tất cả những triệu chứng bạn gặp phải. Ở trang kết quả đầu tiên, cái tên X xuất hiện. Bạn kích chuột vào đó và được dẫn đến PubMed Central với thông tin tóm tắt “Tất cả điều đã biết về X.” Bạn kích chuột vào đó, và được dẫn đến New England Journal of Medicine, với lời nhắc, “Hãy nộp phí $100 rồi tôi sẽ cho bạn đọc bài về X.” Bạn nhìn vào và thấy rằng ông tác giả làm việc ở Bộ Y tế. Những đồng đô-la của bạn được đóng thuế để trả cho việc này. Vì vậy Lieberman15 và những người khác đã nói, “Điều này quá tệ. Những thông tin khoa học bây giờ được bình duyệt và xuất bản để mọi người truy cập được—nhưng chỉ theo nghĩa là ai trả tiền thì người ấy đọc. Thế để làm gì? Chúng tôi đã trả tiền cho các ấn phẩm đó rồi.”

Các nhà xuất bản khoa học có cung cấp dịch vụ tổ chức bình duyệt, in ấn, và phân phối thông tin đến thư viện. Nhưng bây giờ Internet là công cụ phân phối của chúng ta và nó gần như miễn phí. Điều này tất cả đều gắn với quá trình suy nghĩ mà xã hội đang trải qua, đó là về điểm bắt đầu và kết thúc của tài sản trí tuệ. Các tài liệu khoa học, và tài liệu được bình duyệt nói riêng, có lẽ là một trong những điểm kết thúc của tài sản trí tuệ. Nếu bạn muốn biết thêm về X, có thể bạn sẽ tìm thấy rằng hột quả đào chính là phương thuốc chữa bệnh X. Nhưng thông tin này không đến từ tài liệu đã qua bình duyệt mà chỉ sẵn ở đó vì có người muốn bán hột đào cho bạn để chữa bệnh X. Vì vậy những người đã đi tiên phong trong bước chuyển biến đến chế độ truy cập mở chính là những người dân trong lĩnh vực y tế, vì thông tin y tế hữu ích thì bị khóa chặt và thông tin y tế bậy bạ thì có trên Internet.

Thư viện điện tử mới

Thư viện mới làm việc như thế nào? À, đó là thư viện tự do vì việc đăng một trang hay một bài báo lên Internet là khá dễ dàng. Một mình bạn có thể tự trả tiền đăng bài trên PubMed Central. Chi phí chỉ tầm vài nghìn đô-la cho máy tính—nhưng lượng truy cập mà bạn sẽ thu hút thì tôi không biết được! Song việc xử lý thông tin thì không rẻ. Đưa được bài vào trong máy tính, thiết lập các mối tra cứu chéo với các bài báo khác, tất cả công đoạn kiểu như vậy, sẽ tiêu tốn của Thư viện Dược Quốc gia khoảng $100 cho mỗi bài báo được xử lý và đăng lên. Nếu mỗi năm thư viện nhận vào 1 triệu bài báo, con số xấp xỉ với mức được trông đợi, thì sẽ tốn 100 triệu đô-la mỗi năm chỉ để cho việc xử lý khối lượng thông tin đó. Đây chính là nguyên nhân tại sao ta cần phải tự động hóa toàn bộ quá trình xử lý.

Bây giờ thì PubMed Central, bản thân là bộ phận điện tử của Thư viện Dược Quốc gia, đã trở nên tự chuyển dịch được. Có các phiên bản của PubMed Central hoạt động ở Anh, Ý, Nam Phi, Nhật, và Trung Quốc. Hệ thống ở Anh vừa mới xuất hiện trực tuyến vào tuần trước. Tôi đoán rằng bạn có thể thấy được là, chẳng hạn, người Pháp không muốn Thư viện Dược của họ xuất hiện ở Bethesda, Maryland, hay được đăng bằng tiếng Anh. Và người Anh thì không muốn bài báo đăng kiểu tiếng Mỹ, vì vậy ở phiên bản tiếng Anh sẽ dùng một số đặc điểm phiên âm kiểu Anh trên giao diện Web. Nhưng về cơ bản thì bạn có thể xếp một tài liệu vào bất cứ kho lưu trữ nào rồi cuối cùng nó vẫn được sao ra cho tất cả các kho khác. Chi phí vận hành cho một kho dữ liệu như vậy còn tương đối rẻ, song các thử thách lớn nằm ở khâu xử lý và bình duyệt.

Tạp chí sưu tầm

Sau đây là cách mà tôi nghĩ sẽ có thể hoạt động được. Tất cả được dựa vào khái niệm tạp chí sưu tầm. Ý tưởng ở đây là bạn có kho dữ liệu và kho tài liệu. Các bài báo được xếp vào kho tài liệu, còn dữ liệu thì tất nhiên ở kho kia. Tiếp theo là có một hệ thống quản lý tạp chí mà ai đó đã lập sẵn để chúng ta hình thành một tạp chí về X. Chúng ta cho mọi người nộp các bài báo đến tạp chí mới này bằng cách đặt chúng vào kho chứa. Ta bình duyệt chúng và với những bài báo ưa thích, viết thêm một trang tiêu đề có ghi “Đây là những bài báo chúng tôi thích” rồi cũng đưa danh sách này vào trong kho. Lúc này, một máy tìm kiếm đến nơi và quay cần nâng thứ hạng cho các bài báo mà được coi là hay vì chúng được nhắc đến từ trang đầu quan trọng này. Dĩ nhiên là những bài báo đó sẽ chỉ về dữ liệu. Sau đó sẽ có một hệ thống hợp tác để cho phép con người đánh dấu và ghi chú vào các bài báo. Những lời ghi chú này không được lưu vào trong kho bình duyệt nhưng ở bên cạnh, bởi bài báo vẫn chưa được bình duyệt—mặc dù chúng có thể được theo dõi.

Thư viện Dược Quốc gia sẽ tiến hành làm những việc này cho cộng đồng sinh dược, nhưng với các cộng đồng khoa học khác thì điều này vẫn chưa xảy ra. Đối với các bạn, những thành viên của CSTB, cộng đồng khoa học máy tính có thể giúp thực hiện điều này bằng cách cung cấp những công cụ phù hợp cho các lĩnh vực khoa học khác.

Có một phần mềm nào đó mà chúng tôi đã tạo ra ở Microsoft Research được gọi là Công cụ quản lý hội thảo (Conference Management Tool, CMT). Chúng tôi đã điều hành hơn 300 hội thảo có dùng công cụ này, và dịch vụ CMT giúp bạn tổ chức một cuộc hội thảo rất dễ dàng. Nó hỗ trợ toàn bộ guồng máy hoạt động từ việc hình thành ủy ban, lập Website, tiếp nhận bản thảo, chọn những bài được chấp nhận, hình thành chương trình hội thảo, báo tin cho các tác giả, thực hiện khâu duyệt bản thảo, vân vân. Bây giờ chúng tôi đang thực hiện tính năng cho phép đặt các bài báo này vào trong arXiv.org hoặc PubMed Central và đồng thời kèm thêm một trang tiêu đề. Bằng cách này chúng tôi có thể nắm bắt các hội thảo và lớp đào tạo ngắn hạn một cách dễ dàng. Nhưng nó cũng sẽ cho phép bạn điều hành một tạp chí trực tuyến. Cơ chế này sẽ giúp ta tạo ra tạp chí sưu tầm rất dễ dàng.

Lúc trước có người hỏi tôi rằng liệu điều này có làm khó các nhà xuất bản khoa học không. Và câu trả lời là có. Nhưng chẳng phải điều này cũng sẽ khó đối với IEEE hay ACM? Câu trả lời là các hiệp hội chuyên nghiệp này sẽ phát hoảng lên vì nếu họ không có báo để gửi cho bạn thì bạn sẽ không gia nhập hội. Tôi nghĩ rằng họ sắp phải đương đầu với vấn đề này ở mức độ nào đó vì tôi nghĩ rằng việc truy cập mở sắp diễn ra. Nhìn quanh phòng, tôi thấy rằng đa số chúng ta đều đã già và không phải là người thế hệ X [những người sinh từ giữa thập niên 60 đến giữa thập niên 70, được giáo dục tử tế nhưng khó tìm việc]. Đa phần chúng ta tham gia những tổ chức này vì chỉ nghĩ rằng đó là một phần để trở thành người chuyên gia trong lĩnh vực. Vấn đề là những người thế hệ X thì không tham gia tổ chức nào.

Điều gì xảy đến với việc bình duyệt

Đây không phải là câu hỏi đáng để bạn bận tâm, nhưng nhiều người đã hỏi rằng, “Tại sao chúng ta lại cần việc bình duyệt? Tại sao chúng ta không dùng một wiki?” Và tôi nghĩ rằng câu trả lời là ở chỗ bình duyệt rất khác. Nó rất có cấu trúc, nó được theo dõi, và có một mức độ đảm bảo về những gì mà người ta nói ra. còn wiki thì bình đẳng hơn rất nhiều. Tôi nghĩ rằng wiki có ích cho việc thu thập các lời bình luận về bài báo sau khi được xuất bản. Ta cần có cấu trúc nào đó, như cấu trúc mà CMT cung cấp cho quá trình bình duyệt.

Công bố dữ liệu

Tôi nên nói nhanh hơn và sẽ lướt qua khâu xuất bản dữ liệu. Tôi đã trình bày về xuất bản tài liệu, nhưng nếu kết quả bằng 42, thì đơn vị của nó là gì? Bạn đưa một số dữ liệu trong tập tin lên Internet, nhưng điều này lại đưa ta trở về vấn đề đối với tập tin. Cái bản ghi quan trọng để chỉ ra công sức lao động của bạn trong trường hợp này được gọi là nguồn gốc dữ liệu. Bằng cách nào mà bạn thu được con số 42?

Sau đây là một thử nghiệm tưởng tượng. Bạn đã nghiên cứu một vấn đề khoa học, và muốn công bố nó. Bằng cách nào mà bạn công bố để cho mọi người khác đều đọc được và tái lập lại kết quả của bạn trong vòng một trăm năm? Mendel đã làm được điều này. Darwin cũng vậy, nhưng suýt nữa đã không thể. Chúng ta đang tụt sau Mendel và Darwin xét về những kĩ thuật công bố như vậy. Đây là một sự đảo lộn, và ta phải giải quyết vấn đề này.

Dữ liệu, thông tin và kiến thức: bản thể luận và ngữ nghĩa

Chúng tôi đang cố gắng làm kiến thức trở nên khách quan. Chúng tôi có thể giúp những điều đơn giản như đơn vị, và thế nào là đo đạc, ai thực hiện đo đạc, và đo đạc được tiến hành khi nào. Đó là những thứ chung nhất và áp dụng được cho mọi ngành. Tại đây [Microsoft Research] chúng tôi nghiên cứu khoa học máy tính. Thế khi nói đến hành tinh, sao, và thiên hà ta có ý gì? Đó là thiên văn. Thế còn gien? Đó là sinh học. Như vậy đâu là những vật thể, những đối tượng, những thuộc tính trong các đối tượng kể trên? Và cũng xin nói thêm rằng, Internet đang thực sự trở thành một hệ thống hướng đối tượng trong đó con người thu nhặt các đối tượng. Trong thế giới kinh doanh, họ đang thực hiện đối tượng hóa các khách hàng, các hóa đơn, vân vân. Trong khoa học, chẳng hạn, ta cần phải làm đối tượng hóa theo cách tương tự; mỗi gien với vai trò một đối tượng sẽ là gì—đó chính là công việc mà GenBank16 đang làm.

Và ở đây chúng ta cần lời cảnh báo rằng khi đi xa hơn, bạn sẽ bắt gặp chữ O của từ “ontology” (bản thể luận), chữ S của từ “schema” (mô hình), và các “từ vựng được kiểm soát”. Nói thế có nghĩa là, khi đi theo con đường này, bạn sắp bắt đầu nói về các ngữ nghĩa, tức là “Mọi vật mang nghĩa gì?” Và dĩ nhiên mỗi người có một ý kiến riêng khi lý giải ý nghĩa của sự vật và hiện tượng, nên cuộc đối thoại có thể kéo dài vô tận.

Ví dụ hay nhất cho tất cả những điều trên là Entrez,17 máy tìm kiếm trong ngành khoa học sự sống, do Trung tâm Quốc gia về Thông tin Công nghệ sinh học chế tạo cho NLM. Entrez cho phép tìm kiếm khắp PubMed Central, vốn là phần tài liệu, nhưng họ cũng có cả dữ liệu về phát sinh học, họ có chuỗi nucleotide, họ có chuỗi protein và các cấu trúc 3 chiều, và rồi họ có GenBank. Đó thật sự là một hệ thống rất ấn tượng. Họ cũng thiết lập được cơ sở dữ liệu PubChem và nhiều thứ khác nữa. Tất cả mọi điều trên là ví dụ về sự tương tác giữa dữ liệu và tài liệu. Bạn có thể nhìn vào một bài báo, xem đến dữ liệu gien, lần theo gien để đi tới căn bệnh, trở lại xem tài liệu, rồi cứ như vậy. Thật là ấn tượng!

Như vậy hiện nay theo thông lệ ta vẫn có tác giả, nhà xuất bản, người hiệu đính, và người đọc. Trong tương lai, các nhà khoa học sẽ hợp tác với nhau, và các tạp chí sẽ trở thành Web site chứa dữ liệu và các chi tiết khác của thí nghiệm. Những người hiệu đinh sẽ quản lý những kho dữ liệu số khổng lồ, và thứ duy nhất còn tồn tại như cũ chỉ là cá nhân từng nhà khoa học. Đây thực sự là sự thay đổi cơ bản về cách mà ta nghiên cứu khoa học.

Có một vấn đề là mọi dự án đến lúc nào đó đều kết thúc và số phận của dữ liệu không biết sẽ ra sao. Ở bất cứ quy mô nào cũng có dữ liệu. Có nhà nhân chủng học thu thập thông tin và ghi vào sổ tay. Rồi có những nhà vật lý hạt tại LHC. Hầu hết các byte máy tính đều ở cấp cao, còn tập hợp dữ liệu thì ở cấp thấp. Bây giờ chúng ta bắt đầu thấy có sự trộn lẫn: người ta lấy dữ liệu từ các nơi khác nhau và xâu chúng lại để tạo thành một tập hợp dữ liệu mới. Chính vì điều này mà ta cần các kho chứa các ấn bản của tạp chí, ta cần kho chứa dữ liệu.

Điều khuyến nghị cuối cùng của tôi gửi đến CSTB: hãy khuyến khích các thư viện dữ liệu số. Phải nói thật là những cố gắng của Thư viện số NSF tất cả chỉ là dữ liệu cấp cao cho các thư viện mà không phải là thư viện điện tử thực thụ. Chúng ta cần tạo dựng các thư viện số thực thụ cho cả dữ liệu và tài liệu.

Tóm tắt

Tôi muốn chỉ ra rằng hầu hết mọi thứ về khoa học đang thay đổi dưới sự tác động của công nghệ thông tin. Các nhánh khoa học thực nghiệm, lý thuyết, và tính toán đều chịu ảnh hưởng bởi hiện tượng lụt dữ liệu, và một mẫu hình khoa học thứ tư, mẫu hình “thiên về dữ liệu” đang nổi lên. Mục đích là nhằm có một môi trường trong đó tất cả văn bản khoa học được công bố trực tuyến, và chúng tương tác được lẫn nhau. Để làm điều này trở thành hiện thực cần có nhiều công cụ mới.

Lời ban biên tập

Toàn bộ băng ghi âm và bản trình chiếu PowerPoint về bài nói của Jim đều được đăng trên Web site “Fourth Paradigm”.18 Các câu hỏi và trả lời trong buổi nói chuyện đã được tách khỏi bài viết này và bạn có thể xem chúng tại Web site. (Lưu ý rằng những người đặt câu hỏi đều được giấu tên.) Bài viết này được chỉnh sửa một số tiểu tiết để dễ đọc hơn; đồng thời chúng tôi cũng thêm vào các ghi chú và cung cấp danh mục tài liệu tham khảo; song chúng tôi tin rằng nó hoàn toàn trung thực với nội dung mà Jim đã thuyết trình.

Tài liệu tham khảo

[1] G. Bell, T. Hey, and A. Szalay, “Beyond the Data Deluge,” Science, vol. 323, no. 5919, pp. 1297–1298, 2009, doi: 10.1126/science.1170411.

[2] J. Wing, “Computational Thinking,” Comm. ACM, vol. 49, no. 3, Mar. 2006, doi: 10.1145/1118178.1118215.

[3] NSF Regional Scale Nodes, http://rsn.apl.washington.edu.

[4] Large Hadron Collider (LHC) experiments, http://public.web.cern.ch/Public/en/LHC/ LHCExperiments-en.html.

[5] BaBar, http://www.slac.stanford.edu/BFROOT.

[6] G. Bell, J. Gray, and A. Szalay, “Petascale Computational Systems,” IEEE Computer, pp. 110–112, vol. 39, 2006, doi: 10.1109/MC.2006.29.


  1. National Research Council, http://sites.nationalacademies.org/NRC/index.htm; Computer Science and Telecom-munications Board, http://sites.nationalacademies.org/cstb/index.htm.
  2. Bài thuyết trình này, thật trớ trêu, lại là bài cuối cùng được đưa lên trang Web của Jim tại Microsoft Research trước khi ông bị mất tích trên biển vào ngày 28/1/2007—http://research.microsoft.com/en-us/um/people/gray/talks/NRC-CSTB_eScience.ppt.
  3. http://www.mathworks.com
  4. http://office.microsoft.com/en-us/excel/default.aspx
  5. Nghĩa là “làm trật tự” tổ chức thông tin về dạng mỗi đơn vị dữ liệu chiếm một dòng, giống như trong việc chuẩn hóa cơ sở dữ liệu quan hệ.
  6. www.hdfgroup.org
  7. www.unidata.ucar.edu/software/netcdf
  8. Lệnh grep trong UNIX dùng để tìm kiếm chuỗi kí tự trong tập tin văn bản.
  9. www.beowulf.org
  10. www.cs.wisc.edu/condor
  11. http://boinc.berkeley.edu
  12. www.ni.com/labview
  13. Xem bài của Peter Suber đăng trên bản tin Open Access để nắm qua tình hình: www.earlham.edu/\~peters/fos/newsletter/01-02-08.htm.
  14. Nếu là ngày nay thì có thể Jim đã nói Bing.
  15. Luật truy cập công cộng đến sản phẩm nghiên cứu trong liên bang (Federal Research Public Access Act, 2006) (Cornyn-Lieberman).
  16. www.ncbi.nlm.nih.gov/Genbank
  17. www.ncbi.nlm.nih.gov/Entrez
  18. www.fourthparadigm.org

1 phản hồi

Đăng trong Mẫu hình IV

One response to “Jim Gray nói về eScience: một phương pháp khoa học qua chuyển đổi

  1. Pingback: Mẫu hình thứ tư: Khám phá khoa học thiên về dữ liệu | Blog của Chiến

Gửi phản hồi

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Thay đổi )

Twitter picture

You are commenting using your Twitter account. Log Out / Thay đổi )

Facebook photo

You are commenting using your Facebook account. Log Out / Thay đổi )

Google+ photo

You are commenting using your Google+ account. Log Out / Thay đổi )

Connecting to %s