Tag Archives: cơ sở dữ liệu

Chương 4: Xử lý dữ liệu

Trở lại Mục lục cuốn sách

Giới thiệu

Các chương trình GIS kết nối những file dữ liệu với các bản đồ số. Chương trước đã đề cập đến khía cạnh bản đồ của mối liên hệ này. Bây giờ ta hãy tập trung vào các file dữ liệu thuộc tính. Giống như chương trước, chương này xem xét những khái niệm then chốt và đề cập đến khâu tiền xử lý dữ liệu GIS bạn đang có, nhưng sẽ tập trung cụ thể vào các thuộc tính, file dữ liệu, và khâu soạn thảo dữ liệu thuộc tính bạn có. Những khái niệm này tập trung vào dữ liệu thuộc tính và những nguyên lý trong việc quản trị cơ sở dữ liệu raster và vector. Hiểu được những khái niệm này, bạn sẽ biên tập và quản lý một cách hiệu quả những dữ liệu thuộc tính hiện có.  Toàn bộ chương này đề cập đến những chức năng tiền xử lý bao gồm thêm và xóa các trường, xóa các bản ghi, nối các file dữ liệu, lựa chọn và sắp xếp các các bản ghi, tính toán những thuộc tính, và mã hóa địa lý (geocoding).  Chương này kết thúc bằng một thảo luận ngắn về việc thẩm định thuộc tính.  Tiếp tục đọc

Advertisements

%(count) bình luận

Filed under Commons

Chương 1: Định luật Gray: Tính toán khoa học lấy dữ liệu làm trung tâm

Trở về Mục lục cuốn sách

Alexander S. Szalay | The Johns Hopkins University
José A. Blakeley | Microsoft

Sự bùng nổ dữ liệu khoa học đã tạo ra một thử thách lớn đối với các dự án khoa học hiện đại. Với những tập hợp dữ liệu vượt ngoài phạm vi hàng chục terabyte, các nhà khoa học không có những giải pháp sẵn có nào để quản trị và xử lý dữ liệu ngay được [1]. Các dự án thành công đến giờ đều bố trí kết hợp những tập tin rời và cơ sở dữ liệu [2]. Tuy nhiên, phần lớn các giải pháp này đều được chỉnh lại cho từng dự án cụ thể và không thể dễ dàng khái quát hóa hay dãn ra để phù hợp với các thí nghiệm thế hệ mới được. Hơn nữa, các kiến trúc máy tính hiện đại ngày càng mất cân đối; khoảng cách về độ trễ giữa các bộ vi xử lý nhiều lõi với các ổ cứng cơ học càng nới rộng theo từng năm, làm cho thử thách đối với tính toán thiên về dữ liệu càng khó được đón nhận [3]. Điều mà ta cần là một phương pháp tổng quát và có hệ thống để giải quyết các vấn đề này với một kiến trúc mà có thể điều chỉnh trong tương lai. Tiếp tục đọc

%(count) bình luận

Filed under Mẫu hình IV

Phần I: Trái đất và môi trường

Trở về Mục lục cuốn sách

Trái đất & Môi trường

Lời giới thiệu

Dan Fay | Microsoft Research

Sự thay đổi là không thể tránh khỏi—vũ trụ nở rộng, giới tự nhiên tiến hóa và phát triển, và vì vậy những công cụ khoa học và kĩ thuật ta dùng cũng phải phát triển theo, để đáp ứng được công cuộc truy tìm không khoan nhượng những kiến thức khoa học sâu xa hơn về không gian, Trái đất, và môi trường. Vận hội và thử thách đặt ra là rất nhiều. Những công nghệ tính toán mới như điện toán đám mây và bộ vi xử lý nhiều lõi, dưới hình thức chung, đều không đủ cung cấp một giải pháp tổng thể. Nhưng sự áp dụng đúng thời điểm và hiệu quả của những công nghệ như vậy có thể giúp ta có bước tiến đáng kể về tầm hiểu biết đối với thế giới, bao gồm các thử thách về môi trường, và cách thức ứng phó với chúng. Tiếp tục đọc

%(count) bình luận

Filed under Mẫu hình IV

Jim Gray nói về eScience: một phương pháp khoa học qua chuyển đổi

Trở về Mục lục cuốn sách

Dựa trên băng ghi lại bài thuyết trình của Jim Gray trước NRC_CSTB1 tại Mountain View, CA, ngày 11/1/20072

Biên tập: Tony Hey, Steward Tansley, và Kristin Tolle | Microsoft Research

Chúng ta cần phải thực hiện tốt hơn công việc tạo ra các công cụ hỗ trợ cho toàn bộ quá trình nghiên cứu—từ thu thập dữ liệu, xử lý dữ liệu đến phân tích và hiển thị dữ liệu. Ngày nay, các công cụ để thu thập dữ liệu, kể cả vĩ mô và vi mô đều tuyệt vời. Sau khi thu thập dữ liệu, bạn cần xử lý nó trước khi có thể làm bất kì việc phân tích dữ liệu nào; và chúng ta đang thiếu những công cụ tiện dụng cho cả việc xử lý lẫn phân tích dữ liệu. Sau đó là đến xuất bản các kết quả trong công trình nghiên cứu của bạn, mà những tài liệu đã được công bố chỉ là phần nổi của tảng băng dữ liệu mà thôi. Nói vậy, ý của tôi là chúng ta thu thập rất nhiều dữ liệu rồi chiết xuất thành một vài cột trên trang báo Science hoặc Nature—hoặc thành 10 trang, nếu đó là một bài do người làm khoa học máy tính viết. Vậy tôi nói “tảng băng dữ liệu” nghĩa là có rất nhiều dữ liệu được thu thập nhưng không được xử lý hay xuất bản theo cách có hệ thống. Vẫn có những ngoại lệ, và tôi nghĩ rằng những trường này là nơi thích hợp để ta tìm ra những kinh nghiệm hay. Tôi sẽ nói về cách mà toàn bộ quá trình bình duyệt cần phải thay đổi và cách mà trong đó, tôi nghĩ rằng nó đang thay đổi cùng những việc mà CSTB có thể làm để giúp tất cả chúng ta truy cập được đến việc nghiên cứu của bản thân.

Tiếp tục đọc

%(count) bình luận

Filed under Mẫu hình IV