Chương 5: Kéo bầu trời đêm lại gần hơn: Khám phá từ dòng lũ dữ liệu

Trở về Mục lục cuốn sách

Alyssa A. Goodman | Harvard University
Curtis G. Wong | Microsoft Research

Trong suốt lịch sử, các nhà thiên văn đã quen với dữ liệu đến từ bầu trời. Nhưng các khả năng tương đối mới của chúng ta cho phép lưu trữ dữ liệu bầu trời vào trong các “đám mây” mở ra những phương pháp mới và thú vị để truy cập, phân phối, sử dụng và phân tích dữ liệu, cả trong nghiên cứu lẫn giáo dục. Ở đây ta xét đến ba câu hỏi có liên quan lẫn nhau: (1) Những xu hướng nào mà ta đã và sắp thấy về mức độ tăng trưởng của việc thu thập dữ liệu từ kính viễn vọng? (2) Liệu ta sẽ có lời giải nào cho thử thách ngày một lớn lên của việc tìm thấy cây kim điển hình trong đống rơm dữ liệu này nhằm tiến hành khám phá khoa học? (3) Những vận hội nào ta sẽ nắm được trong tương lai xét về phân tích tính toán và hiển thị số liệu?

Xu hướng về độ tăng trưởng dữ liệu

Các nhà thiên văn đã có cả lịch sử trong việc thu thập số liệu, trải từ thời xưa ít nhất là từ khi các tượng đài đá [Stonehenge] được dựng nên chừng 3 thiên niên kỉ trước. Theo thời gian, dạng thức thông tin được các nhà thiên văn ghi lại có sự thay đổi, từ khắc chữ vào đá đến các bản viết chép tay cùng hình vẽ, rồi đến chụp ảnh và các phương tiện điện tử.

Dù kính viễn vọng (khoảng năm 1600) và sự mở rộng của phổ sóng điện từ (khoảng năm 1940) vượt ngoài vùng nhìn thấy đã dẫn đến những thay đổi định tính về bản chất khám phá thiên văn, song chúng không làm tăng được nhiều số liệu thu được như trong Thời đại thông tin.

Các thiết bị CCD (charge-coupled device), vốn được đưa vào sử dụng rộng rãi từ những năm 1980, và các đầu đo tương ứng hoạt động trên vùng bước sóng không nhìn thấy đã trở nên hiệu quả hơn nhiều so với các phương tiện tương tự (như các tấm nhiếp ảnh). Sự tăng vọt về tốc độ thu thập ảnh dẫn đến thực tế là ngày nay (và cũng có thể là còn tiếp diễn mãi trong tương lai) dữ liệu càng sẵn có với các nhà thiên văn. Thiết bị điện tử dùng để xử lý tín hiệu, lưu giữ phân tích số liệu ngày càng có tính năng mạnh hơn và giá thành rẻ hơn, kết hợp với World Wide Web ngày càng mở rộng, đã biến thiên văn học từ một ngành khoa học quan sát trở thành khoa học tính toán bằng thiết bị điện tử.

Chẳng hạn, kính viễn vọng Large Synoptic Survey Telescope (LSST) sẽ xuất hiện trong thập kỉ tới, sẽ sản sinh ra 1,28 petabyte trong mỗi năm—nghĩa là nhiều dữ liệu hơn đáng kể so với bất kì một kính thiên văn nào cho đến giờ. LSST sẽ hoàn tất màn trình diễn này bằng cách dùng các CCD rất nhạy với số lượng khổng lồ các điểm ảnh trên một kính viễn vọng khá lớn với optics [sic] rất nhanh (f/1,234) và trường quan sát rộng (9,6 độ vuông); ngoài ra, bằng cách lấy một loạt các ảnh chụp với thời gian mở kính ngắn hơn (so với cách làm truyền thống cần phải mở kính lâu) cho phép ta nghiên cứu động thái theo thời gian của các thiên thể. Và trong khi LSST, Pan-STARRS, cũng như các siêu dự án thiên văn sắp tới—nhiều dự án hoạt động trên bước sóng không nhìn thấy—sẽ tạo ra những bộ số liệu khổng lồ bao trùm khắp bầu trời thì các nhóm và cá nhân nghiên cứu khác sẽ tiếp tục bổ sung những bộ số liệu họ tìm được, có quy mô nhỏ hơn nhưng tiềm năng tập trung cao hơn.

Trong phần còn lại của bài báo này, chúng ta sẽ giả sử rằng thử thách trong việc quản lý sự bùng nổ số liệu này sẽ được giải quyết (nhiều khả năng qua việc khéo léo sử dụng “đám mây” lưu trữ và các cấu trúc dữ liệu mới), và thay vào đó chúng ta sẽ tập trùng về cách nêu ra những công cụ tốt hơn và những phương pháp phân tích xã hội [sic] và kĩ thuật mới để giúp ta hiểu rõ hơn về vũ trụ.

Một số những xu hướng có thể giúp ta tìm được “cây kim trong đống rơm” dữ liệu có trên Internet, bao gồm vận động quần chúng thực hiện nghiên cứu (crowdsourcing), dân chủ hóa việc truy cập dữ liệu bằng những kĩ thuật duyệt web mới, và sự tăng trưởng của tốc độ máy tính.

Vận động quần chúng

Dự án Sloan Digital Sky Survey được tiến hành để chụp hình và đo đạc phổ của hàng triệu thiên hà. Hầu hết các bức ảnh đều chưa từng được con người xem đến vì chúng được kết xuất từ những bức ảnh trường rộng rút gọn bằng cách dùng dây chuyền công nghệ tự động. Để kiểm tra giả thuyết rằng có nhiều thiên hà quay theo chiều ngược kim đồng hồ so với số các thiên hà quay thuận chiều kim đồng hồ, nhóm Sloan đã dùng mã lệnh tự chế để tạo nên trang Web hiển thị những tấm hình chụp thiên hà để những thành viên công chúng sẵn lòng chơi trò Galaxy Zoo (Vườn thú thiên hà) trực tuyến, với nội dung cơ bản là phân loại chiều quay của thiên hà. Những thuật toán khéo léo trong “Vườn thú” hiển thị cùng một thiên hà đến cho nghiều người như một phép kiểm tra tham khảo và cũng để kiểm tra người chơi xem họ chính xác đến đâu. Kết quả từ việc phân loại thiên hà tổng hợp trong năm thứ nhất tiến hành bởi công chúng đã cho thấy mức đúng đắn cũng ngang với kết quả tiến hành bởi các nhà thiên văn. Hơn 50 triệu phép phân loại của một triệu thiên hà đợc tiến hành bởi công chúng trong năm đầu tiên, và giả thuyêt về sự thiên lệch trái/phải cuối cùng đã bị bác bỏ. Trong lúc đó, Hanny Van Arkel, một giáo viên phổ thông ở Hà Lan, đã tìm ra một thiên hà mà cho đến nay là thiên hà xanh nhất được biết trong vũ trụ. Điều này đã được kiểm chứng gắt gao bằng các kính viễn vọng lớn, trong đó có kính viễn vọng radio Very Large Array (VLA), và sẽ sớm được kiểm chứng bởi Kính viễn vọng Hubble Space.

Sự dân chủ hóa việc tiếp cận thông tin bằng những công nghệ duyệt dữ liệu mới

Thời gian cần thiết để tiếp nhận thông tin từ bất kì thiên thể nào tăng nhanh ở mức ít nhất là bằng bình phương của khoảng cách đến thiên thể đó, vì vậy nếu một kĩ thuật nào có thể thu gom những tập hợp riêng của những tấm ảnh đã chụp và dữ liệu thu được thì sẽ thực sự giúp cho việc đưa bầu trời lại gần hơn. Việc dùng số liệu được lưu trữ trực tuyến trên một “đám mây dữ liệu” được đảm nhiệm bởi những công cụ phần mềm mới, chẳng hạn như WorldWide Telescope (WWT) của Microsoft. Công cụ này cung cấp một cách trực quan đường dẫn đến dữ liệu ảnh bầu trời đêm mà những nhà thiên văn phải vận hành kính viễn vọng hàng nghìn giờ đồng hồ mới chụp được.

Bằng cách dùng WWT (HÌnh 1), bất kì người nào cũng có thể di chuyển và phóng to hình của bầu trời, ở các mức bước sóng khác nhau từ sóng radio đến tia X, và ai cũng có thể thám hiểm trong mô hình 3 chiều của vũ trụ, được lập nên từ những kết quả quan trắc thực sự, chỉ để xem có gì trong đó. Ai cũng có thể nhận thất một sự tương đồng rât bất thường giữa các đặc điểm ở nhiều bước sóng khác nhau tại một vị trí nào đó trong bầu trời và click chuột để tìm những bài báo khoa học thảo luận về vị trí đó. Ai cũng có thể nối một kính viễn vọng vào máy tính đang chạy WWT và xếp chồng các hình mới chụp, trực tiếp, lên trên những hình trực tuyến của cùng một vùng trời, ở gần như bất kì bước sóng nào. Ai cũng có thể được hướng dẫn để thấm hiểm qua những “tour” có thuyết minh do những người dùng WWT dàn dựng. Khi càng nhiều tour được phát hành, WWT sẽ trở nên một “trình duyệt bầu trời” thực thụ, với bầu trời làm nền cho những cuộc đối thoại về vũ trụ. Các nhà thám hiểm sẽ dò theo những lối đi cắt qua những thiên thể được quan tâm, kết nối các ý tưởng và con người lại với nhau. Bây giờ việc nhảy từ tour này sang tour khác sẽ giống như lướt từ trang web này sang trang web khác.

Nhưng sức mạnh của WWT còn xa hơn cả khả năng đứng độc lập của nó. WWT đang là, và sẽ tiếp tục là một phần trong hệ sinh thái của thiên văn trực tuyến vốn sẽ đẩy nhanh tiến độ của cả khoa học “quần chúng” lẫn “chuyên nghiệp” trong những năm tới.

worldwide-telescope

Hình 1. Màn hình WorldWide Telescope chiếu vùng 30 Doradus gần Đám mây Magellan Lớn. Hình ảnh được sự cho phép của National Optical Astronomy Observatory/National Science Foundation.

Microsoft, thông qua WWT, và Google, thông qua Google Sky, đều đã tạo ra các môi trường API (giao diện lập trình ứng dụng) cho phép các phần mềm duyệt có thể hoạt động được trong một trang web. Các API này cho phép tạo ra mọi thứ từ các môi trường giáo dục thiếu nhi đến các trang web “khoa học đại chúng” và trang web phân phối dữ liệu cho các cuộc điều tra thiên văn chuyên nghiệp.

Các công cụ như Galaxy Zoo giờ đây đã dễ thực hiện, nhờ vào API. Vì vậy bây giờ những cộng đồng khoa học và thiên văn học đều thất bại trong việc tận dụng lòng nhiệt tính của công chúng để giúp dò tìm trong đống dữ liệu ngày càng lớn. Các học sinh trung học bây giờ có thể dùng dữ liệu vệ tinh mà chưa có ai từng phân tích trước, để tạo ra những khám phá thực sự về vũ trụ, thay vì chỉ trượt các khối vật thể theo mặt phẳng nghiêng trong giờ học vật lý trên lớp. Các nhà thiên văn nghiệp dư có thể thu thập dữ liệu theo nhu cầu để điền vào chỗ thông tin còn thiếu mà các sinh viên, chuyên gia, và các nhà thiên văn khác yêu cầu từ trực tuyến. Những khả năng hợp tác và giáo dục thực sự là không có giới hạn.

Vai trò của WWT và những công cụ như vậy trong cộng đồng thiên văn chuyên nghiệp sẽ tiếp tục mở rộng. WWT nói riêng đã trở thành một phương tiện tốt để tiếp cận các cuộc điều tra bầu trời hơn là bât kì công cụ chuyên nghiệp hiện có nào khác. WWT, với vai trò là bộ phận của nỗ lực thiết lập một “đài quan sát ảo”, dang được nối liền với các công cụ định tính và nghiên cứu mà các nhà thiên văn học đã quen với, để nhằm cung cấp một công cụ xem xét thông tin theo ngữ cảnh đẹp, vốn thường cung cấp cho người dùng thông tin ít một. Và nó đã bắt đầu khôi phục các loại quan sát tổng thể dữ liệu mà nhà thiên văn đã quen thuộc trước khi Kỉ nguyên Số chi nhỏ bầu trời thành nhiều mảnh bé và với các định dạng không tương thích nhau.

Công suất tính toán được nâng cao

Trong 10 năm, các bộ xử lý nhiều nhân sẽ tăng cường công suất tính toán lên gấp 2 hoặc 3 cấp độ lớn so với các máy tính ngày nay. Vậy tất cả những công suất tính toán này sẽ giúp giải quyết vấn đề tràn ngập dữ liệu thế nào? Các máy tính nhanh hơn và có dung lượng cùng băng thông lớn hơn dĩ nhiên sẽ tăng cường những cách tiếp cận đương thời để mở rộng cho các bộ dữ liệu lớn hơn. Ngoài ra, những cách làm hoàn toàn mới giúp quản lý và phân tích dữ liệu sẽ được đưa vào hoạt động. Chẳng hạn, những kĩ thuật nhìn máy (computer vision) đã xuât hiện trong các máy ảnh số dành cho người tiêu dùng, với khả năng nhận diện khuân mặt đã trở nên quen thuộc.

Thêm công suất tính toán sẽ cho phép chúng ta phân loại và có thể là nhận diện những đối tượng và sự kiện duy nhất, các điểm dữ liệu biệt lập ngay khi chúng mới được phát hiện và chuyển chúng đến mạng lưới các nhà khoa học đại chúng để khẳng định lại. Việc đón nhận các nhà khoa học đại chúng trong mạng lưới báo động cho khâu phát hiện “cứu cánh” này có thể được tối ưu hóa qua những giao diện được thiết kế tốt hơn sao cho cáo thể chuyển đổi từ công việc sang trò chơi được. Giao diện có thể giúp việc kết nối khâu xác nhận thiên thể do người thực hiện với các mạng lưới trò chơi và mô phỏng trên toàn cầu trở thành hiện thực; ở đó dữ liệu được phân phối rộng rãi và tích hợp vào những trò chơi trực tuyến nhiều người đồng thời tham dự; và việc nhận diện đúng các thiên thể được kết nối với điểm dành cho người chơi. Những trò chơi như vậy có thể trao cơ hội cho trẻ em nâng cao vị thế xã hội của chúng giữa những người cùng chơi, trong khi vẫn đóng góp có ý nghĩa cho khoa học.

Kĩ thuật hiển thị và phân tích cho tương lai

WWT mở ra cái nhìn sơ lược về tương lai. Khi độ đa dạng và quy mô của dữ liệu thu được mở rộng, các phần mềm sẽ phải trở nên phức tạp hơn xét về cách mà nó tiếp cận dữ liệu, trong khi vẫn nâng cao tính trực quan, cho phép sửa đổi được, và tính tương thích. Cách cải thiện các công cụ như WWT có vẻ sẽ được gắn liền với một thử thách lón hơn: cách cải thiện công cụ phân tích và hiển thị dữ liệu dùng trong tất cả các lĩnh vực—không riêng gì thiên văn học.

Những thử thách về mặt hIển thị và phân tích thường gặp giữa các ngành khoa học, thay vì là thử thách riêng của từng ngành. Chẳng hạn, hãy hình dung một nhà thiên văn và nhà kí tượng học làm việc song song vơi snhau. Cả hai đều muốn nghiên cứu thuộc tính của các hệ vật lý như được khảo sát trong một hệ tọa độ cầu. Cả hai đều muốn thuận tiện chuyển qua lại giữa, chẳng hạn, kết quả quan sát đường phổ từ một nguồn nào đó tại một vị trị cụ thể trên mặt cầu (chẳng hạn nghiên cứu thành phần tầng ngoài của một ngôi sao hoặc nghiên cứu CO2 của khí quyển Trái đất), điều kiện của các vị trí này trên mặt cầu thiên văn, và những bài báo và thảo luận trên mạng về những hiện tượng này.

Ngày nay, ngay cả trong một lĩnh vực, các nhà khoa học đã phải đối mặt với nhiều sự lựa chọn phương pháp hoàn thành những nhiệm vụ phân tích nho nhỏ, nhưng không có gói phần mềm có thể giải quyết tất cả những nhiệm vụ nhỏ theo cách bạn mong muốn. Tương lai đang hứa hẹn các nhà khoa học và nhà phân tích dữ liệu làm việc cùng, sẽ thiết kế phần mêm cho riêng họ bằng cách kết nối các ứng dụng chuyên biệt, như các mô-đun khác nhau. theo yêu cầu. Vì vậy, chẳng hạn, nhà thiên văn học và nhà khí tượng học có thể sử dụng một phiên bản tổng quát của WWT như một phần trong hệ thống riêng biệt, được điều chỉnh phù hợp; từ đó sẽ kết nối với các gói phần mềm chuyên ngành của học phục vụ những công việc như là phân tích đường phổ.

Kết luận

Câu hỏi liên kết ba chủ đề ta đã bàn luận ở đây có thể đặt ra là: “Bằng cách nào ta có thể thiết kế những công cụ mới để nâng cao khả năng khám phá trong dòng lũ dữ liệu sắp tràn tới trong lĩnh vực thiên văn?” Lời giải đáp có vẻ xoay quanh tăng cường mối liên kết giữa các nguồn tài nguyên sẵn có—bao gồm giới khoa học quần chúng sẵn lòng giúp phân tích dữ liệu; các trình duyệt ảnh mà ta tiếp cận được như WWT; và các công cụ hiển thị được điều chỉnh tốt hơn dựa trên việc chế biến từ các thành phần thông dụng. Cách tiếp cận này, vốn tìm kiếm (và tái sử dụng) nhiều thành phần hoạt động ăn khớp nhau, dường như sẽ trở nên thông dụng hơn trong nhiều ngành khoa học—không chỉ riêng thiên văn học—trong thập kỉ tới.

1 Phản hồi

Filed under Mẫu hình IV

One response to “Chương 5: Kéo bầu trời đêm lại gần hơn: Khám phá từ dòng lũ dữ liệu

  1. Pingback: Mẫu hình thứ tư: Khám phá khoa học thiên về dữ liệu | Blog của Chiến

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s