Chương 3: Định nghĩa lại sinh thái học có sử dụng dữ liệu

Trở về Mục lục cuốn sách

James R. Hunt | University of California, Berkeley and the Berkeley Water Center
Dennis D. Baldocchi | University of California, Berkeley
Catharine van Ingen | Microsoft Research

Sinh thái học là ngành nghiên cứu về sự sống và tương tác của nó với môi trường vật lý xung quanh. Vì tình hình biến đổi khí hậu yêu cầu sự thích nghi nhanh chóng, nên các công cụ phân tích mới đóng vai trò thiết yếu để định lượng những thay đổi đó trong số những biến động tự nhiên vốn có. Sinh thái là ngành khoa học trong đó nghiên cứu thường được thực hiện bởi nhóm nhỏ các cá nhân, với dữ liệu ghi chép trong sổ tay. Nhưng ngày nay các nghiên cứu tổng hợp cỡ lớn đang được nỗ lực thực hiện bởi sự hợp tác giữa hàng trăm nhà khoa học. Những nỗ lực lớn hơn này là rất cần thiết vì hiện giờ có hai sự phát triển: một là khoa học được thực hiện bằng cách nào, và hai là những câu hỏi về quản lý tài nguyên được đặt ra. Dù những nghiên cứu tổng hợp có sự hợp tác vẫn còn đang trong giai đoạn hình thành nhưng tầm quan trọng ngày càng tăng của chúng đã rõ ràng. Sự hỗ trợ của máy tính luôn gắn liền với những hình thức hợp tác như vậy và là then chốt đối với quá trình nghiên cứu.

Các biến đổi quy mô toàn cầu đang làm thay đổi sinh thái học như thế nào

Khí hậu toàn cầu và cảnh quan Trái đất đang biến đổi, và các nhà khoa học phải định lượng những mối liên hệ giữa các quá trình khí quyển, đại dương, và lục địa để nghiên cứu các hiện tượng một cách đúng đắn. Chẳng hạn, bây giờ các nhà khoa học đang đặt câu hỏi là những biến động khí hậu về nhiệt độ, mưa, bức xạ mặt trời, độ dài mùa mưa, và các hiện tượng thời tiết khắc nghiệt như hạn hán có ảnh hưởng như thế nào đối với tổng lượng các-bon trao đổi giữa thực vật và khí quyển. Câu hỏi này trải rộng trên nhiều lĩnh vực khoa học Trái đất với những dữ liệu, mô hình, và giả thiết riêng.

Những biến đổi đó yêu cầu một cách tiếp cận mới để giải quyết các câu hỏi về quản lý tài nguyên. Trong một vài thập kỉ trước mắt, hệ sinh thái sẽ không thể hồi phục về trạng thái cũ. Chẳng hạn, với khí hậu đang dần ấm lên ở bờ biển miền Tây nước Mỹ, liệu số liệu quá khứ đo trên các lưu vực duyên hải của miền Nam bang California có thể dùng được để ước đoán về quần thể cá ở các lưu vực duyên hải miền Bắc California không? Tương tự, công nghệ viễn thám có thể cho chúng ta biết điều gì về nạn phá rừng? Việc nhận định những thử thách trên yêu cầu một sự tổng hợp dữ liệu và mô hình với quy mô trải rộng từ tầm địa phương (sông ngòi) cho đến toàn cầu (dòng chảy đại dương) và trải rộng theo thời gian từ cỡ hàng chục mili giây đến hàng thế kỉ.

Một ví dụ về tổng hợp sinh thái

lượng bốc hơi trung bình hằng nămHình 1. Cán cân nước theo năm được dùng để ước tính lượng bốc thoát hơi nước ở những lưu vực chân núi Sierra Nevada. Đường đứt nét biểu thị cho lượng bốc thoát hơi nước bằng 400 mm/năm.

Hình 1 cho thấy một ví dụ kết hợp khoa học về một nghiên cứu tổng hợp. Đồ thị này so sánh lượng dòng chảy hằng năm từ những lưu vực tương đối nhỏ ở chân núi Sierra Nevada thuộc bang California với lượng mưa năm trong khoảng thời gian nhiều năm. Lượng dòng chảy năm được thu thập từ dữ liệu của U.S. Geological Survey (USGS) với ba trạm đo dọc theo Dry Creek và số liệu đo đạc thực địa của Schubert University of California.1 Số liệu mưa dài hạn từ những trạm đo gần đó được thu thập từ National Climatic Data Center.2 Lượng mưa không tham gia vào dòng chảy sẽ bốc lên dưới dạng hơi nước, và quá trình này bị chi phối nhiều bởi thảm phủ thực vật trên lưu vực. Ở những lưu vực như vậy, một giá trị bằng 400 mm được quan sát thấy qua nhiều năm. Cũng một giá trị lượng bốc hơi hàng năm trung bình được ghi nhận từ những số liệu đo đạc của các đầu đo khí tượng theo dõi một hệ sinh thái sa-va-na sồi tại AmeriFlux Tonzi Ranch tower.3 Việc tổng hợp dữ liệu trong quá khứ này sẽ xác lập một mô hình lưu vực phù hợp với các điều kiện trong quá khứ và đóng vai trò làm mốc so sánh cho những nhận định về hiệu ứng do thay đổi khí hậu trong một hệ thống biến động mạnh mẽ.

Dòng lũ thông tin về sinh thái đang đến gần

Những nghiên cứu tổng hợp mới này được phát sinh từ sự hội tụ của những đầu đo giá rẻ, công nghệ viễn thám, sự kết nối Internet, và tài nguyên máy tính. Việc triển khai các đầu đo được các nhóm nghiên cứu chuyển từ những chiến dịch ngắn sang việc quan trắc dài hạn với độ chi tiết cao hơn bằng những thiết bị đa dạng hơn. Các vệ tinh cho ta ảnh chụp bề mặt toàn cầu, đặc biệt hữu ích với những vùng xa xôi hoặc do điều kiện khắc nghiệt mà việc điều tra thực địa gặp khó khăn do cản trở về mặt tự nhiên và địa giới hành chính. Kết nối Internet đang cho phép dữ liệu được chia sẻ giữa các tổ chức hoặc giữa các ngành. Kết quả của ba yếu tố đầu nói trên đã tạo thành một cơn lũ dữ liệu. Tài nguyên máy tính thì cho ta một phần giải pháp, bằng cách cho phép tận dụng lượng dữ liệu dồi dào này với các mô hình với cơ chế vật lý và sinh thái, đồng thời cũng cho phép các mô hình khác nhau liên kết lại để kéo dài khoảng thời gian và không gian cần nghiên cứu.

Cơn lũ dữ liệu sinh thái và sự tổng hợp trong sinh thái học đã đặt ra những thử thách và vận hội mới cho các cơ sở hạ tầng máy tính. Khác với các ngành khoa học như vật lý hoặc thiên văn, trong đó các thiết bị đo được dùng chung, thì trong khoa học sinh thái dữ liệu được ghi lại bởi rất nhiều nhóm nhà nghiên cứu dùng nhiều phương pháp lấy mẫu hoặc mô phỏng và những chuẩn dữ liệu khác nhau. Như đã chỉ ra trên Hình 1, việc dùng dữ liệu công bố từ hai nguồn khác nhau là cần thiết để tính được lượng bốc thoát hơi nước. Việc tổng hợp này yêu cầu truy cập đến biểu dữ liệu dài hạn và xử lý riêng rẽ từng tập dữ liệu trên để tính được lượng bốc hơi, rồi cuối cùng là kiểm định với dữ liệu đo được độc lập từ tháp đo. Các hoạt động tổng hợp khác sẽ yêu cầu phải truy cập đến nguồn tài liệu đang phát triển từ các tổ chức như NASA hay USGS, các dự án hợp tác như National Ecological Observatory Network và WATERS Network,4 các nhóm nghiên cứu riêng của từng trường đại học như Life Under Your Feet,5 và thậm chí cả các nhóm khoa học đại chúng như Community Collaborative Rain, Hail and Snow Network6 và USA National Phenology Network.7

Trong khi phần lớn dữ liệu đều bắt nguồn dưới dạng điện tử, thu thập từ đầu đo đặt tại thực địa, ra-đa, hoặc vệ tinh, thì các dữ liệu trong quá khứ và đo đạc thủ công ngoài hiện trường, vốn rất quan trọng đối với nghiên cứu, mới đang được số hóa. Các dữ liệu dạng đang số hóa này không phải lúc nào cũng được đo đều theo thời gian; chúng có thể bao gồm ngày cây trổ lá, hoặc các bức ảnh hàng không với các bước sóng và độ phân giải khác nhau để đánh giá những đặc trưng định lượng như độ ẩm, thảm phủ thực vật và tình hình sử dụng đất trên lưu vực. Việc rút ra các đại lượng từ dữ liệu viễn thám vẫn đang là một lĩnh vực nghiên cứu được tiến hành; theo đó, các dữ liệu đo đạc hiện trường vốn rất vất vả mới có được thường hình thành cơ sở kiểm định cần thiết cho việc xây dựng các thuật toán biến đổi. Những quan trắc hiện trường do quần chúng thực hiện, chẳng hạn kiểm kê các loài cây, sự tăng trưởng của cây (ví dụ ngày trổ mầm và đếm số vòng gỗ thân cây) và đếm các loài chim và cá, đang ngày một quan trọng hơn. Việc tích hợp các thông tin đa đạng như vậy là một thử thách ngày càng lớn dối với phân tích khoa học.

Chèo lái giữa dòng lũ dữ liệu sinh thái

Bước đầu tiên cho bất kì việc phân tích sinh thái nào là khâu khám phá và kết hợp hài hòa dữ liệu. Ngày nay ta có thể khám phá những tập dữ liệu lớn; các tập dữ liệu nhỏ và dữ liệu trong quá khứ thường được tìm thấy qua thông tin truyền miệng. Vì các nhà xuất bản dữ liệu rất đa dạng nên không có một hình thức trình bày nào chung cho tất cả các dữ liệu. Việc chuyển đổi đơn vị, đổi phép chiếu bản đồ và chuẩn hóa độ dài thời gian hoặc không gian là việc thường phải làm. Những tập lưu trữ dữ liệu khoa học như SciScope8 hoặc các dịch vụ Web với mô hình dữ liệu chung như Open Geospatial Consortium9 đang được phát triển.

Phần quan trọng phải có trong trang tìm kiếm dữ liệu khoa học là kiến thức về các đặc điểm không gian địa lý và điều chỉnh khác biệt giữa các tên gọi. Yếu tố thứ nhất cho phép tìm kiếm trên nhiều lưu vực hoặc địa đới được nghiên cứu, và có thể cả trong những vùng được khoanh trên bản đồ. Yếu tố thứ hai cho phép tìm kiếm theo nhiều cụm từ—như lượng mưa tiếng Anh có thể viết là “rainfall”, “precipitation” hay “precip”—trên nhiều kho dữ liệu trong đó quy ước tên gọi khác nhau. Một thế hệ mới các danh sách dữ liệu cấp cao có dùng đến công nghệ Web ngữ nghĩa sẽ cho phép ta tìm được nhiều kết quả hơn đồng thời tự động thực hiện chuyển đổi tên và đơn vị. Sự kết hợp giữa cả hai hướng phát triển sẽ giúp việc tìm kiếm dữ liệu khoa học như “Tôi cần tìm dữ liệu về lượng dòng chảy trong sông theo ngày và lưu lượng bùn cát của tất cả các lưu vực nào trong bang Washington hứng lượng mưa vượt quá 30 inch hằng năm.”

Di chuyển dữ liệu sinh thái tổng hợp lên đám mây điện tử

Các tập dữ liệu tổng hợp lớn cũng dẫn đến việc di chuyển từ tính toán từ máy cá nhân lên điện toán đám mây. Phần lớn các tập dữ liệu sinh thái đều là tạp hợp các file. Một ví dụ là tập dữ liệu tổng hợp LaThuile trên Fluxnet, bao gồm 966 đợt quan trắc hằng năm thu được từ đầu đo ở 253 trạm trên toàn thế giới. Dữ liệu cho mỗi năm quan trắc tại từng trạm được công bố dưới dạng file số được phân cách bởi dấu phẩy, hoặc dạng file MATLAB gồm số liệu hoặc là được tổng cộng theo từng ngày hay theo nửa giờ. Hầu hết các nhà khoa học tải về một vài hoặc tất cả file rồi sau đó tự phân tích trên máy cá nhân. Một số nhà khoa học khác đang dùng một dịch vụ đám mây khác để kết nối MATLAB trên máy cá nhân với dữ khối liệu dạng SQL Server Analysis Services trên đám mây. Dữ liệu dường như trên máy cá nhân, nhưng nhà khoa học không cần phải lo lắng về việc quản lý từng file. Việc tải về và thao tác dữ liệu viễn thám trên máy kết hợp với dữ liệu đầu đo là không thực tế đối với nhiều nhà khoa học. Việc tính toán trên đám mây đang trong giai đoạn phát triển bằng cả hai nguồn dữ liệu để tính toán sự thay đổi về lượng bốc thoát hơi nước trên toàn lãnh thổ Hoa Kỳ trong suốt 10 năm vừa qua sẽ tải về 3 terabyte ảnh dữ liệu và 4000 giờ chạy máy để xử lý và xuất ra dưới 100 MB kết quả. Thực hiện phân tích bên ngoài máy tính cá nhân sẽ nâng cao băng thông và dung lượng lưu trữ tạm thời, và tiềm lực tính toán trên đám mây.

Các nghiên cứu tổng hợp cũng hình thành nhu cầu về các công cụ để hợp tác trên đám mây. Dữ liệu khoa học có giá trị đối với các nhà nghiên cứu sở hữu nó, dưới dạng bài báo được công bố, tiền tài trợ, uy tín, và sinh viên được hướng dẫn. Việc chia sẻ dữ liệu với những nguồn khác sẽ làm tăng chứ không giảm các giá trị đó. Việc xác định rõ trích dẫn nguồn, lời cảm ơn và/hoặc nguyên tắc đồng tác giả với các bài báo tổng hợp vẫn còn là một chủ đề mở để tranh luận đối với các dự án hợp tác lớn như Fluxnet10 và North American Carbon Program.11 Các hạn chế về quyền tác giả và diện tích đăng bài trong tạp chí khoa học vẫn là vấn đề quan trọng trong các thảo luận như vậy. Việc nhận định câu hỏi về phạm trù đạo đức: thế nào là đồng tác giả, là cốt yếu. Liệu việc đóng góp dữ liệu có đủ giúp cho cá nhân đứng tên làm đồng tác giả không, khi đóng góp đó dựa trên nỗ lực lớn về cả công sức lẫn trí tuệ? Một khi đã thống nhất được chính sách về vấn đề đó thì các công cụ giúp hợp tác của điện toán đám mây sẽ làm giảm đáng kể việc liên lạc trong quá trình công bố bài báo, cung cấp một địa chỉ cho những phát kiến mới của tập thể tác giả, và giúp nhà nghiên cứu dõi xem dữ liệu của họ được dùng ra sao.

Cơ sở hạ tầng thông tin đã làm thay đổi sinh thái học như thế nào?

Dòng lũ dữ liệu sinh thái sẽ công phá thành trì khoa học và mở ra một thế hệ nghiên cứu khoa học mới. Vai trò của việc hiểu được những biến đổi khí hậu đang thúc đẩy những nghiên cứu liên ngành như sinh lý cây trồng, khoa học đất, khí tượng học, hải dương học, thủy văn học và địa mạo sông ngòi. Việc kết nối những đối tượng nghiên cứu với quy mô thời gian và không gian khác nhau sẽ yêu cầu một tập hợp các mô hình hợp tác. Việc tổng hợp các quan trắc tại hiện trường và những kết quả mô hình ở quy mô cần thiết là thiết yếu đối với việc phát triển và thẩm định những mô hình như vậy.

Sự đa dạng về kích cỡ của tập dữ liệu sinh thái, ý nghĩa của tập dữ liệu và khâu công bố dữ liệu, tất cả tạo thành một thử thách đối với cơ sở hạ tầng thông tin cần giải quyết trong một vài năm tới. Nghiên cứu tổng hợp thúc đẩy không chỉ việc đối thoại trực tiếp mà còn đối thoại qua mạng giữa các nhà khoa học liên ngành. Những bước tiến trong việc thể hiện dữ liệu cấp cao có thể xóa đi rào cản về ngữ nghĩa và hình thức giữa nội dung khoa học cần trao đổi. Việc hiển thị dữ liệu đi từ hợp nhất dữ liệu đơn giản cho đến các hệ môi trường ảo cũng là các yếu tố quan trọng của nội dung trao đổi nêu trên. Việc điện toán đám mây cho phép truy cập và khám phá những tập dữ liệu phân tán và thậm chí quan trọng hơn là cho phép tính toán trên đám mây ngay tại vị trí lưu trữ số liệu sẽ hình thành nên một thế hệ khoa học liên ngành mới.

1 Phản hồi

Filed under Mẫu hình IV

One response to “Chương 3: Định nghĩa lại sinh thái học có sử dụng dữ liệu

  1. Pingback: Mẫu hình thứ tư: Khám phá khoa học thiên về dữ liệu | Blog của Chiến

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s