Chương 5: Phân tích

Trở về Mục lục cuốn sách

Giới thiệu

Khi quá trình phân tích nhập dữ liệu đầu vào đã xong và các lớp GIS được tiền xử lý, bạn có thể bắt đầu giai đoạn phân tích. Việc phân tích dữ liệu địa lý đòi hỏi suy luận và tư duy phê phán. Bạn tìm kiếm các dạng mẫu, những hình thức gắn bó, mối liên kết, tương tác, và bằng chứng của sự thay đổi theo thời gian và trong không gian. GIS giúp bạn phân tích tập dữ liệu và kiểm tra những quan hệ không gian, nhưng nó không thể thay thế bạn tư duy một cách không gian. Trước hết, bạn phải hình dung được những mối quan hệ và dạng mẫu không gian có thể xảy ra. Chương này cho bạn một cái nhìn trông quan về những chức năng tính toán chung nhất và tiếp tục bàn luận về phân tích không gian như đã mở ra ở Chương 1.

Bằng cách tổng hợp các lớp bản đồ GIS, bạn có thể đặt ra những câu hỏi không gian đã vạch nên ở Chương 1: “Có gì tại…?”, “Nó ở đâu…?”, “Đã có gì thay đổi kể từ khi đó?”, “Có những dạng mẫu không gian nào tồn tại?”, và “Sẽ ra sao nếu…?” (câu hỏi kịch bản).  Hai cầu hỏi đầu trong số này chỉ tìm kiếm trong tập hợp các địa vật và kiểm tra rất ít về vị trí và quan hệ giữa các địa vật. Ba câu hỏi sau thì phức tạp hơn. Để trả lời những câu hỏi này, bạn phải kết nối một số các hàm phân tích mà bạn sẽ học trong chương này. Các hàm phân tích cụ thể—và thứ tự tìm hiểu—là do tùy bạn chọn.

Chương này tập trung vào các hàm GIS sẽ giúp đỡ bạn trong việc phân tích—nghĩa là giúp bạn đánh giá, ước lượng, dự đoán, diễn giải, và hiểu dữ liệu không gian. Chương này chia các hàm kể trên thành bốn loại như ở Hình 5.1:

Hình 5.1:  Các loại hàm phân tích.

Hình 5.1: Các loại hàm phân tích.

Nhiều công việc phân tích cụ thể có trong những hạng mục trên mang nhiều tên gọi cho cùng một hàm. Chương này dùng những thuật ngữ thông dụng nhất, những cũng cố gắng đề cập đến những cụm từ đồng nghĩa. Cũng cần lưu ý rằng liệu quá trình phân tích đó là dựa trên véc-tơ, dựa trên raster, hay dùng được với cả hai mô hình dữ liệu này.

Lựa chọn và đo đạc

Trong thể loại này, phần lựa chọn của thể loại này thật ít có lý do được giới thiệu ở đây. Lựa chọn không phải là một hàm phân tích, nhưng nó là một bước đầu quan trọng đối với nhiều hàm phân tích. Vì lý do nó được dùng nhiều trong quá trình phân tích như vậy mà chúng tôi xếp nó vào thể loại.  Hai cách lựa chọn sau đây, truy vấn thuộc tính và truy vấn không gian, phần nào đã được thảo luận đến từ trước. Phần thứ hai của thể loại, đo đạc, thì có nhiều lý do được xếp vào công việc phân tích vì bằng những hàm này ta tính được con số mô tả các địa vật.

Truy vấn thuộc tính (Lựa chọn Boole)
Như đã mô tả ở Chương 4, truy vấn thuộc tính nhằm lựa chọn những địa vật dựa trên các giá trị thuộc tính của chúng.  Việc này đi chọn các địa vật dựa trên những biểu thức truy vấn, vốn dùng đại số Boole (and, or, not), đại số tập hợp (>, <, =, >=, <=), các toán tử (=, -, *, /), và những giá trị do người dùng quy định. Đơn giản là, chương trình GIS so sánh các giá trị của một trường thuộc tính với một biểu thức truy vấn mà bạn đặt ra. Chẳng hạn, trên Hình 5.2, nếu bạn muốn chọn mọi nhà hàng có giá được coi như ở mức rẻ, thì bạn có thể truy vấn với biểu thức kiểu như “PRICE = $” (trong đó “PRICE” là trường thuộc tính cần xét, “=” là toán tử đại số tập hợp, còn “$” là giá trị).  Phần mềm sẽ tìm những giá trị bằng với số tiền $ trong trường PRICE của mỗi bản ghi, rồi chỉ chọn những bản ghi thỏa mãn phương trình đó. Trên Hình 5.2, có 50 trong số 112 nhà hàng thỏa mãn biểu thức truy vấn và được lựa chọn trong file thuộc tính.  Chúng được tô màu đồng loạt trên bản đồ.

Hình 5.2:  Selecting by attribute.  Ở ví dụ này, các nhà hàng are selected on their price being inexpensive (PRICE = ‘$’).  The results are displayed both on the map and in the attribute table (highlighted in orange).

Hình 5.2: Lựa chọn theo thuộc tính. Ở ví dụ này, các nhà hàng được chọn theo giá rẻ (PRICE = ‘$’). Những kết quả được hiển thị trên cả bản đồ lẫn bảng thuộc tính (các dòng tô màu da cam).

Các truy vấn thuộc tính có thể phức tạp. Biểu thức truy vấn, giống như cái trên đây, có thể được xâu chuỗi lại để hình thành nên những phương trình dài có chứa bất kì toán tử nào đã kể trên và bất kì trường nào trong số các trường thuộc tính sẵn có. Một khi đã chọn được các địa vật mong muốn, bạn có thể thực hiện nhiều công đoạn tính toán đối với những địa vật được chọn, hoặc một cách khác là bạn có thể lưu những địa vật được đánh dấu vào một lớp bản đồ mới.

Truy vấn thuộc tính là một công đoạn vector, nhưng tái phân loại (đã thảo luận đến với vai trò một chức năng tiền xử lý ở Chương 3) thì giống một công đoạn dựa trên raster.

Lựa chọn không gian (tìm kiếm không gian)
Nếu như các truy vấn thuộc tính thực hiện lựa chọn địa vật bằng cách sắp xếp các bản ghi trong một file dữ liệu, thì lựa chọn không gian lại chọn lựa những địa vật từ giao diện bản đồ. Trong đa số các trường hợp, cách làm này lựa chọn trong lớp bản đồ thứ nhất những địa vật nào nằm trong hoặc tiếp xúc với cạnh của những địa vật đa giác thuộc lớp thứ hai (hoặc một đa giác được người dùng trực tiếp vẽ nên).   Hình 5.3 là một ví dụ trong đó có dùng chính lớp bản đồ nhà hàng như hình vẽ trước đó. Một lần nữa, lớp thứ nhất chứa các nhà hàng, một vài trong số chúng mà bạn muốn lựa chọn. Lớp thứ hai được hợp thành từ những đa giác tỏa ra từ những điểm cần quan tâm. Sau quá trình chọn lựa, những khách hàng rơi vào trong các đa giác xếp chồng được hiển thị chọn lựa. Có 90 trong số 112 nhà hàng thỏa mãn biểu thức truy vấn và được lựa chọn trong file thuộc tính đồng thời cả trên bản đồ.

Hình 5.3: Lựa chọn không gian. Chỉ những nhà hàng nào rơi vào trong đa giác màu xanh lam mới được chọn.

Hình 5.3: Lựa chọn không gian. Chỉ những nhà hàng nào rơi vào trong đa giác màu xanh lam mới được chọn.

Có nhiều kiểu lựa chọn không gian.  Điểm nằm trong đa giác, có lẽ thông dụng nhất, là cách chọn các điểm của một lớp nếu như chúng nằm trong một (hoặc nhiều) đa giác của một lớp khác (hoặc hình vẽ). Đường thẳng trong đa giác, một cách tương tự, là lựa chọn các địa vật đường nằm trọn, hoặc một phần nằm trong một đa giác thuộc lớp khác. Đa giác trong đa giác là một dạng khác, theo đó thực hiện lựa chọn các địa vật đa giác nằm trong (hoặc đè lên) các đa giác được chọn trong một lớp thứ hai. Một loại khác trong lựa chọn không gian là khoảng cách điểm (và cũng có khoảng cách đường thẳng và khoảng cách đa giác) để tìm ra tất cả những điểm trong một lớp mà nằm trong phạm vi một khoảng cách định trước so với một điểm thuộc lớp khác. Cũng như bất kì dạng lựa chọn nào, bạn có thể thực hiện xử lý tính toán đối với những địa vật được đánh dấu hoặc lưu chúng vào một lớp mới.

Bạn có thể trộn lẫn khâu lựa chọn không gian và các truy vấn thuộc tính với nhau.  Ở đây bạn có thể trước hết là chọn địa vật theo không gian, rồi mới chọn địa vật từ file thuộc tính, bạn sẽ lược bớt (hoặc bổ sung) so với số lượng bản ghi đã chọn thông qua những biểu thức truy vấn thuộc tính.  Hình 5.4 là một ví dụ dùng chính dữ liệu nhà hàng như trên. Có 37 trong tổng số 112 nhà hàng thỏa mãn biểu thức truy vấn và rơi vào trong những đa giác chồng xếp. Các nhà hàng này được đánh đấu cả trong file thuộc tính lẫn trên bản đồ.

Hình 5.4: Kết hợp lựa chọn không gian và thuộc tính. Ở ví dụ này, các nhà hàng rơi vào trong những đa giác xanh lam, đồng thời giá rẻ (PRICE = $) được đánh dấu màu da cam.

Hình 5.4: Kết hợp lựa chọn không gian và thuộc tính. Ở ví dụ này, các nhà hàng rơi vào trong những đa giác xanh lam, đồng thời giá rẻ (PRICE = $) được đánh dấu màu da cam.

Lựa chọn không gian là thao tác vector, nhưng khi bạn kết hợp tái phân loại (đã thảo luận ở Chương 3) và xếp chồng (phần sau chương này sẽ đề cập đến), thì việc kết hợp sẽ tạo nên một dạng raster của lựa chọn không gian.

Đo khoảng cách
Có nhiều cách để đo khoảng cách. Hầu hết các chương trình GIS, cả raster lẫn vector, đều có nút chức năng thước kẻ để bạn đo khoảng cách trên bản đồ. Sau khi ấn nút này, bạn chỉ lên bản đồ nơi bắt đầu đo, rồi nhấn chuột tại điểm cuối (hoặc những điểm gãy trên tuyến đường gấp khúc cần đo).

Nhiều hệ thống GIS dựa trên vector thực hiện đo khoảng cách dọc theo mạng lưới đường vector sẵn có, như các tuyến phố, đường ống cống, và đường ray. Kiểu đo khoảng cách này dựa vào quan hệ mạng lưới tô-pô, mà ta sẽ thảo luận sau này. (Xem mục Phân tích tính liên thông). Ngoài ra, một số hệ GIS vector khác tự độ phát sinh những số đo chiều dài của các địa vật đường ngay khi bạn nhập chúng vào.  Hệ thống sẽ lưu trữ kết quả độ dài vào một trường thuộc tính bên trong file dữ liệu của lớp. Những hệ thống nào không có tính năng tự động này thường sẽ cung cấp cách làm để ta tính độ dài đường địa vật rồi lưu trữ kết quả vào một trường thuộc tính mà ta định nghĩa.  Sau khi tính toán và lưu trữ kết quả, bạn có thể tìm tổng chiều dài của nhiều địa vật đường bằng cách chọn chúng rồi tính tổng (xem mục Tính toán thống kê mô tả dưới đây).

Các hệ thống GIS dựa trên raster cho phép bạn phát sinh ra số đo khoảng cách theo mọi hướng từ một điểm ảnh hoặc một nhóm các điểm ảnh.  Những con số khoảng cách này được đặt vào một lớp mới ở đó giá trị của từng ô biểu thị khoảng cách từ ô đó đến điểm ảnh được chọn gần nhất. Những lớp “khoảng cách” này thường được dùng cho các hàm rải (xem mục Hàm rải sau này).

Đo diện tích / chu vi
Nhiều hệ vector tự động phát sinh những số đo diện tích và chu vi của các địa vật đa giác rồi lưu những giá trị này vào các trường định sẵn. Các hệ thống không có chức năng tự động này thì cung cấp cho người dùng cách nhập vào diện tích và chu vi rồi lưu kết quả vào các trường được người dùng định sẵn. Ví dụ như ở Hình 5.5.  Một khi đã tính toán và lưu dữ liệu xong, bạn có thể chọn nhiều địa vật đa giác rồi cộng diện tích cũng như chu vi của chúng lại (xem mục Tính toán thống kê mô tả dưới đây).

Hình 5.5: Diện tích và chu vi được lưu dưới dạng các thuộc tính trong file dữ liệu của lớp.

Hình 5.5: Diện tích và chu vi được lưu dưới dạng các thuộc tính trong file dữ liệu của lớp.

Việc tính diện tích và chu vi được thực hiện theo cách khác trong hệ raster. Thay vì đo diện tích và chu vi của từng đa giác và lưu trữ kết quả này vào các điểm ảnh của từng địa vật, thì hệ raster đã biết kích thước—hay là diện tích che phủ—bởi một điểm ảnh.  Để tính diện tích, chỉ cần đơn giản là cộng lại được số các điểm ảnh với một thuộc tính định trước rồi đem nhân số này với diện tích của mỗi điểm ảnh. Phép toán này dễ. Chẳng hạn, bạn có trong tay lớp bản đồ với 100 đa giác thuộc về một trong số 12 loại đất khác nhau. Chương trình máy tìm xem các điểm ảnh thuộc từng loại đất xuất hiện bao nhiêu lần (ngay cả những điểm ảnh rời nhau) rồi lấy tổng diện tích và chu vi cho từng loại đất. Việc xác định chu vi cũng dễ nếu như các điểm ảnh đều là hình vuông, và đại đa số trường hợp đều như vậy. Các con số đo đạc này được cho trong bảng thông thường, hoặc trong những lớp mới ở đó các điểm ảnh biểu thị tổng của diện tích và chu vi của loại đất mà ban đầu điểm ảnh đó thuộc về.

Tính toán thống kê mô tả
Thống kê mô tả có tác dụng tóm lược dữ liệu thuộc tính. Thống kê làm giảm độ phức tạp từ rất nhiều giá trị riêng lẻ về một vài con số có ý nghĩa để mô tả tập hợp các địa vật riêng rẽ. Các con số thống kê mô tả được quy vào hai nhóm: đo xu hướng trung tâm và đo xu hướng phân tán.

Xu hướng trung tâm mô tả trung tâm của phân bố dữ liệu thuộc tính. Các số đo thông thường gồm có: trị trung bình, trung vị, và số đông (mode), nhưng số đo mà bạn cần chọn phụ thuộc nhiều vào cấp độ đo của thuộc tính (đã đề cập ở Chương 2).  Hình 5.6 phác họa ba số đo xu hướng trung tâm với các giá trị thuộc tính của một trường.

  • Số đo thường được dùng nhất là trị trung bình, vốn được tính bằng cách cộng lại các giá trị thuộc tính của từng địa vật rồi đem chia cho số các địa vật. Chẳng hạn, nếu bạn muốn đặc trưng cho tuổi của người đọc cuốn sách này, bạn sẽ lấy tổng tuổi của từng người đọc rồi chia cho tổng số người đọc. Kết quả là trị trung bình. Nó—cũng như tất cả số đo của xu hướng trung tâm—là một giá trị thay thế dùng để mô tả toàn bộ các giá trị trong một trường. Số đo này đòi hỏi dữ liệu phải là dạng khoảng hoặc tỉ số.
  • Nếu ta xếp các giá trị thuộc tính theo thứ tự tăng dần hoặc giảm dần, thì trung vị đứng ở vị trí chính giữa trong phân phối (điều này áp dụng được cho trường hợp số giá trị là lẻ). Nói cách khác, một nửa số các giá trị thuộc tính đứng trên và một nửa đứng dưới giá trị trung vị này. Đối với phân phối có số giá trị là chẵn, thì trung vị bằng trung bình cộng hai giá trị đứng giữa. Trung vị được dùng cho dữ liệu thứ tự và dữ điệu suy diễn (tổng hợp).
  • Số đông là số thường xảy ra nhất trong một phân phối. Dĩ nhiên, có những loại phân phối không có số đông nếu không có giá trị nào lặp lại. Đôi khi, giá trị duy nhất trùng lặp lại nằm ở đầu cao hoặc đầu thấp của phân bố, khiến cho số đo này trở nên phần nào kém tin cậy và chắc chắn là không trung tâm. Tuy nhiên, số đo này giúp ích trong việc mô tả các thể loại chiếm ưu thế (chẳng hạn khi xét các đảng phái chính trị). Đây là số đo duy nhất dùng được để mô tả xu hướng trung tâm của dữ liệu định danh.
Các giá trị thuộc tính: 24, 25, 30, 39, 40, 45, 45, 45, 45, 45, 48, 50, 50, 55, 58, 60, 61, 65, 65, 65, 70, 72, 75, 200, 205
Trị trung bình 63,28
Trung vị 50
Số đông 45

Hình 5.6: Các số đo xu hướng trung tâm. Các giá trị thuộc tính này nhận được từ một trường thuộc tính của lớp vector hoặc từ các điểm ảnh chọn từ lớp raster.

Độ phân tán, nhóm thứ hai của thống kê mô tả, thì xét đến độ rải rác của dữ liệu thuộc tính. Các số đo của nó (bao gồm phạm vi, phương sai, và độ lệch chuẩn) mô tả mức độ mà các giá trị thuộc tính biến đổi quanh giá trị trung tâm của phân bố (tức là các số đo xu hướng trung tâm).  Liệu các giá trị này có chụm lại một chỗ hay rải rác? Những độ đo này giúp ta đánh giá xem xu hướng trung tâm tốt đến mức nào trong việc đặc trưng cho các giá trị trong trường thuộc tính. Nếu độ đo phân tán là nhỏ, thì các giá trị tụm lại và số đo xu hướn trung tâm đã mô tả tốt phân phối đang xét. Có vài loại số đo độ phân tán (xem thêm Hình 5.7):

  • Số đếmtần số không phải là các số đo độ phân tán, ,nhưng là những đại lượng cơ bản để tóm lược dữ liệu. Số đếm chỉ là đặc trưng về lượng. Tần số là số lần mà một trường thuộc tính nhận một giá trị cụ thể nào đó. Một phân bố tần số, thường được cho dưới dạng histogram, mô tả hình dạng (hay cấu trúc) của dữ liệu thuộc tính bằng cách lập bảng các tần suất của từng giá trị (hoặc một khoảng các giá trị).
  • Phạm vi là khoảng cách giữa các giá trị thuộc tính nhỏ nhất và lớn nhất. Để tìm được nó, chỉ cần trừ giá trị lớn nhất đi giá trị nhỏ nhất. Nó là số đo đơn giản nhất về độ phân tán, nhưng dễ bị ảnh hưởng bởi các điểm biệt lập (các điểm dị thường khác hẳn những giá trị thuộc tính còn lại).  Nếu bạn nghĩ rằng điểm biệt lập ảnh hưởng đến phạm vi, thì hãy dùng khoảng tứ phân vị để thay thế. Theo cách này, phân phối được sắp xếp từ nhỏ đến lớn, rồi được chia thành bốn phần, mỗi phần chiếm 25% các giá trị thuộc tính, khi đó khoảng tứ phân vị là khoảng cách giữa các giá trị ở vị trí thứ 25 và 75 phần trăm.
  • Phương sai xét đến hiệu số giữa các giá trị trong phân phối với số đo xu hướng trung tâm của nó (trong trường hợp này là trị trung bình). Nó phức tạp hơn so với tính trung bình cộng các độ lệch giữa giá trị thuộc tính và trị trung bình. Việc tính một độ đo như thế không đủ nhấn mạnh đến các giá trị thuộc tính ở phần thấp và cao của phân bố. Phương sai giúp khắc phục điều này bằng cách nâng các độ lệch lên bình phương, rồi mới cộng lại và chia cho số đếm.
  • Độ lệch chuẩn là căn bậc hai của phương sai.  Cũng như phương sai, nó mô tả sự phân tán xung quanh trị trung bình và cho phép ta định lượng xem các số trong tập dữ liệu gói gọn quanh trị trung bình đến mức nào. (Nói cách khác, trị trung bình tốt đến đâu trong việc mô tả hoặc tóm tắt tập hợp các số). Tương tự, độ lệch chuẩn càng nhỏ thì các giá trị càng sát gần với số đo xu hướng trung tâm. Tuy vậy, khác với phương sai có giá trị cao hơn, độ lệch chuẩn lại dùng những số có cùng đơn vị với tập dữ liệu gốc. Tuy vậy bản chất giữa hai số đo này cũng tương tự nhau.
Các giá trị thuộc tính: 24, 25, 30, 39, 40, 45, 45, 45, 45, 45, 48, 50, 50, 55, 58, 60, 61, 65, 65, 65, 70, 72, 75, 200, 205
Số đếm 25
Phạm vi 205 – 24 = 181
Phương sai 1866,4416
Độ lệch chuẩn 43,2023

Hình 5.7: Các số đo mức độ phân tán.

Ở các hệ thống vector, thống kê mô tả thường được phát sinh từ ngay trong giao diện file thuộc tính.  Ở các hệ thống raster, các chức năng trong trình đơn cho phép xử lý thống kê mô tả.  Mỗi trường thuộc tính có thể được tóm tắt với toàn bộ số liệu hoặc chỉ giới hạn trong những bản ghi hay những điểm ảnh được chọn. Việc những đại lượng thống kê mô tả nào được tính thì phụ thuộc vào cấp độ đo của số liệu thuộc tính. (Hình 5.8).

  Cấp độ đo
Kiểu thống kê mô tả Định danh Thứ tự Khoảng Tỉ số
Số đông, số đếm, tần số
Trung vị, cực tiểu, cực đại, khoảng Không
Trung bình, phương sai, độ lệch chuẩn Không Không

Hình 5.8: Những đại lượng thống kê mô tả nào có thể dùng được với những cấp độ dữ liệu khác nhau?

Phân tích chồng xếp

Chồng xếp là một trong số những chức năng thông dụng và mạnh nhất của GIS. Nó kiểm tra tính kết hợp không gian của các địa vật bằng cách xếp các lớp bản đồ địa vật lên nhau để xem xét những dạng mẫu địa lý và xác định các địa điểm thỏa mãn những tiêu chí cụ thể.

Đó là chức năng được biết đến nhiều nhất của GIS, nhưng ví dụ về chồng xếp bản đồ có trước cả máy tính và GIS. Một ví dụ đơn giản nhưng hữu hiệu đã được mô tả ở Chương 1:  Bác sĩ Snow đã chồng xếp lớp bản đồ trạm máy bơm lên trên bản đồ những ca chết vì bệnh tả, để thấy một dạng mẫu không gian rồi suy ra mối liên hệ giữa nước và dịch bệnh. Những phân tích chồng xếp khác, phức tạp hơn, cũng đã có trước khi GIS ra đời.  Vào thập niên 1960, Ian McHarg tìm thấy một cách tốt hơn trong việc quy hoạch sử dụng đất, có xét đến yếu tố môi trường thiên nhiên và con người. Trong cuốn sách Design with Nature (1969), McHarg đã định hình công việc quy hoạch địa phương dựa trên các lớp bản đồ trong suốt đặt chồng lên nhau. Ông đã tạo ra các tờ bản đồ trong suốt cho những yếu tố xã hội (giá trị lịch sử, khung cảnh, chi phí xã hội, v.v.) và tự nhiên (độ dốc, khả năng thoát nước bề mặt, vùng bờ sông, khả năng tổn hại do xói lở, v.v). Mỗi lớp bản đồ trong suốt được tô màu từ đậm (những vùng có giá trị cao) đến nhạt (vùng có giá trị thấp). Các tấm bản đồ này được đặt lên nhau và trên bản đồ nền vùng nghiên cứu. Một hệ thống bản đồ như vậy sẽ thể hiện màu tối ở những chỗ mà nhiều lớp cùng có giá trị cao (tác động mạnh) và nhạt ở những chỗ có giá trị tác động thấp. McHarg cho rằng nhà quy hoạch cần dựa vào quá trình này để xác định xem nơi nào cần được để tự nhiên và nơi nào thích hợp cho việc phát triển. Cuốn sách do ông viết cùng phương pháp này đã phổ cập đến mức nhiều dự án GIS thời gian đầu đều cố gắng định hình kĩ thuật này bằng GIS.

Ngày nay, có nhiều kiểu lớp bản đồ GIS để chồng xếp.  Các mô hình vector và raster đều thực hiện chồng xếp được, nhưng chức năng chồng xếp của chúng khác nhau rõ rệt và do đó sẽ được thảo luận riêng.

Xếp chồng vector (logic)
Xếp chồng vector chủ yếu là chồng xếp các đa giác ở lớp này lên các đa giác ở lớp khác, nhưng cũng có thể được dùng để chồng xếp các địa vật điểm hoặc đường lên các lớp đa giác. Đôi khi còn được gọi là chồng xếp tô-pô hay chồng xếp logic, nó phức tạp hơn cả về khái niệm lẫn toán học so với xếp chồng raster.  Có ba loại phép toán xếp chồng vector:

Đa giác lên đa giác, trong đó một lớp đa giác được chồng lên lớp đa giác khác để tạo ra một lớp đa giác mới làm kết quả đầu ra. Những đa giác kế quả này có thể chứa một số, hoặc tất cả thuộc tính của những đa giác được tạo. Có vài loại xếp chồng đa giác lên đa giác, gồm giao (A và B), hội (A hoặc B), và cắt bớt (A trừ B).  Những toán tử Boole này áp dụng được cả với bảng thuộc tính lẫn về địa lý.

  • Phép giao tính phần giao hình học của tất cả những đa giác trong các lớp dữ liệu đầu vào (xem Hình 5.9).  Chỉ những địa vật nào có chung phần diện tích địa lý mới được giữ nguyên ở lớp đầu ra.  Bất kì đa giác, hoặc phần của đa giác nào rơi ra ngoài diện tích chung thì đều bị loại bỏ khỏi lớp đầu ra.  Lớp đa giác mới có thể giữ các dữ liệu thuộc tính của các địa vật trong các lớp đầu vào.
Hình 5.9:  Intersection of hai lớp bản đồ.

Hình 5.9: Giao của hai lớp bản đồ.

  • Phép hội kết hợp các địa vật của các lớp đa giác đầu vào (xem Hình 5.10).  Tất cả đa giác trong các lớp đầu vào đều có mặt ở lớp đa giác đầu ra. Lớp đầu ra có thể chứa dữ liệu thuộc tính kết hợp của các lớp đầu vào.
Hình 5.10:  Hội của hai lớp bản đồ.

Hình 5.10: Hội của hai lớp bản đồ.

  • Phép trừ xóa bỏ những địa vật (hoặc phần địa vật) nào đó trong lớp đa giác đầu vào, mà bị chồng lên những đa giác địa vật của một lớp khác (lớp để trừ) (Hình 5.11).  Lớp địa vật để trừ đóng vai trò giống như cái dụng cụ tỉa bánh (khuôn bánh để cắt những phần thừa ra ngoài khuôn đó).
Hình 5.11:  Clipping one layer from another.

Hình 5.11: Trừ một lớp cho lớp khác.

Tìm điểm trong đa giác là thao tác thực hiện trong trường hợp một lớp các địa vật điểm được xếp chồng lên một lớp các địa vật đa giác. Hai lớp bản đồ này tạo ra một lớp địa vật điểm bao gồm các thuộc tính từ những đa giác của lớp địa vật đầu vào (Hình 5.12).  Một cách khác là bạn có thể đếm số các địa vật điểm rơi vào trong mỗi đa giác rồi lưu kết quả tổng cộng như là một thuộc tính mới trong lớp đa giác. Các thuộc tính khác của điểm có thể được tổng hợp (cộng, lấy trung bình, v.v.) và đưa kèm vào làm thuộc tính trong file dữ liệu chứa đa giác.  Việc chuyển các thuộc tính dựa theo vị trí địa lý của chúng được gọi là kết nối không gian.

Hình 5.12:  Point in Polygon.

Hình 5.12: Tìm điểm trong đa giác.

Tìm đường trong đa giác cũng tương tự với tìm điểm trong đa giác, nhưng các đường được xếp chồng lên trên đa giác. Dạng kết nối không gian này hoặc là bổ sung các thuộc tính đa giác cho các địa vật đường lọt vào bên trong chúng, hoặc đếm và tổng hợp các dữ liệu thuộc tính của đường rồi bổ sung vào file dữ liệu của lớp đa giác.

Xếp chồng raster (số học)
Xếp chồng raster là cách đặt chồng lên nhau ít nhất là hai lớp raster đầu vào để tạo nên một lớp đầu ra.  Từng ô của lớp đầu ra được tính từ các điểm ảnh tương ứng thuộc các lớp đầu vào.  Để làm điều này, các lớp bản đồ phải khớp nhau hoàn toàn; chúng phải có cùng độ phân giải điểm ảnh và cùng phạm vi không gian. Nếu chúng không xếp khớp nhau, thì vẫn có thể chỉnh cho khớp được bằng những hàm (chức năng) đã được thảo luận ở Chương 3.  Khi đã được tiền xử lý rồi thì phép xếp chồng raster rất linh hoạt, hiệu quả, nhanh chóng, và cho ta nhiều khả năng xếp chồng hơn so với thao tác xếp chồng trên các lớp vector.

Xếp chồng raster, thường được gọi là đại số bản đồ, được dựa trên những tính toán có dùng đến các biểu thức số học cùng các phép toán đại số tập hợp và Boole để xử lý các lớp đầu vào nhằm tạo nên một lớp đầu ra.  Những phép toán thông dụng nhất là cộng, trừ, nhân, và chia song các phép toán khác cũng thường gặp là cực đại, cực tiểu, trung bình, giao, hội, và trừ tập hợp.  Nói ngắn gọn, xếp chồng raster sử dụng các toán tử số học để tính những ô tương ứng của hai hay nhiều lớp đầu vào với nhau, dùng đại số Boole như giao hoặc hội để tìm các điểm ảnh thỏa mãn một mệnh đề truy vấn cụ thể, hoặc thực hiện kiểm định thống kê như tương quan và hồi quy đối với các lớp đầu vào (xem Hình 5.13).

Hình 5.13:  xếp chồng raster.  Using layers 1 and 2, all sorts of overlay are possible.

Hình 5.13: Xếp chồng raster. Bằng cách dùng các lớp 1 và 2, tất cả các dạng xếp chồng đều có thể.

Tương quan và hồi quy
Tương quan và hồi quy là hai cách để tính độ gắn kết giữa hai lớp (đôi khi còn nhiều hơn).  Với tương quan, bạn không thể giả thiết có một mối quan hệ nhân-quả. Nói cách khác, một lớp này không ảnh hưởng đến dạng mẫu không gian của lớp kia.  Các dạng mẫu có thể tương tự, nhưng không ngụ ý bất cứ mối quan hệ nhân-quả nào.

Hồi quy thì khác; bạn giả sử rằng một lớp (cùng biến số của nó) ảnh hưởng đến lớp kia. Bạn chỉ định một lớp biến số độc lập (đôi khi là nhiều lớp) có ảnh hưởng đến lớp biến số phụ thuộc.  Hình 5.14 cho thấy biến số lượng mưa (phụ thuộc) và độ cao (độc lập) dưới dạng các lớp bản đồ.

Hình 5.14:  Liệu có một mối quan hệ không gian giữa hai lớp bản đồ này? Các phép kiểm tra tương quan và hồi quy giúp ta xếp chồng các lớp bản đồ để kiểm tra mối quan hệ không gian giữa chúng.

Hình 5.14: Liệu có một mối quan hệ không gian giữa hai lớp bản đồ này? Các phép kiểm tra tương quan và hồi quy giúp ta xếp chồng các lớp bản đồ để kiểm tra mối quan hệ không gian giữa chúng.

Với cả hai loại kiểm định thống kê, bạn đi tính một hệ số tương quan, vốn chạy trong khoảng từ -1 đến +1.  Những hệ số dương cho thấy rằng các biến số của hai lớp có liên hệ với nhau theo cùng hướng. Khi một biến số này tăng, thì biến số kia cũng tăng (và hai biến số cùng giảm).  Các giá trị hệ số tương quan sát +1 biểu thị mối liên hệ mạnh mẽ hơn so với trường hợp giá trị sát với 0. Một hệ số âm cho thấy các biến số của hai lớp có liên hệ nhưng theo hướng khác nhau. Những giá trị sát với -1 biểu thị liên hệ âm mạnh mẽ. Nếu hệ số tương quan sát với 0, sẽ có ít hoặc không có liên hệ. Cả hai cách làm tương quan và hồi quy đều dựa trên raster.

Phép toán lân cận

Những phép toán lân cận, còn gọi là phân tích độ liền kề, xét đến đặc tính của nhũng khu vực giáp với một địa điểm cụ thể. Các chức năng này hoặc là thay đổi những địa vật có sẵn, hoặc là tạo nên các lớp địa vật mới, phần nào bị ảnh hưởng tính theo khoảng cách từ các địa vật sẵn có. Tất cả các chương trình GIS đều cung cấp một số phép phân tích lân cận, bao gồm tạo vùng đệm, nội suy, đa giác Theissen, và các hàm địa hình khác nhau.

Tạo vùng đệm
Chức năng này nhằm tạo ra các vùng bao quanh địa vật.  Những “Vùng đệm” này thường được dựa theo các khoảng cách thẳng cụ thể tính đến địa vật được xét (như trên Hình 5.15).  Vùng đệm, cả đối với hệ raster và vector, được tạo nên quanh những địa vật điểm, đường, hoặc đa giác. Những vùng đệm này được lưu vào một lớp đầu ra có kiểu địa vật đa giác. Khi đã hoàn thành, các lớp vùng đệm được dùng để xác định xem những địa vật nào (ở các lớp khác) tồn tại bên trong hoặc bên ngoài vùng đệm (truy vấn không gian), để thực hiện xếp chồng, hoặc để đo diện tích của vùng đệm. Đó là phép toán lân cận thông dụng nhất.

Hình 5.15:  Buffering around a selected line feature.

Hình 5.15: Tạo vùng đệm qaunh một địa vật dạng đường đã chọn.

Đa số các vùng đệm đều dùng bề rộng cố định để tạo nên các vùng, nhưng một số vùng đệm có bề rộng biến đổi tùy thuộc vào các giá trị thuộc tính của địa vật.  Ví dụ, hình vẽ bên phải biểu thị vùng đệm khoảng cách biến đổi theo số âm lượng (đề-xi-ben) phát ra từ một sân bay.

Nội suy
Nội suy là phương pháp dự đoán hoặc ước tính các giá trị điểm ảnh tại những vị trí chưa được lấy mẫu dựa trên các giá trị đã biệt của các điểm ảnh lân cận (xem Hình 5.16).  Vì việc đo đạc tại tất cả vị trí trong khu vực nghiên cứu là bất khả thi do hạn chế về tiền bạc, thời gian, hạn chế kể cả về điều kiện tự nhiên lẫn pháp lý, nên bạn cần nội suy giữa các giá trị điểm ảnh đã biết (các vị trí đã lấy mẫu).  Với nội suy, bạn tạo nên một bề mặt liên tục như độ cao, nhiệt độ, và đặc tính đất có ở bất kì chỗ nào. Bởi tính chất liên tục của nó, nội suy chỉ thực hiện được trong hệ raster.

Hình 5.16:  Nội suy giữa các địa vật điểm .  The red dots are the points where values are known.  The gray cells are the estimated data based on the known values.

Hình 5.16: Nội suy giữa các địa vật điểm. Các chấm đỏ là các điểm đã biết giá trị. Các ô màu xám là những dữ liệu ước tính dựa trên các giá trị đã biết.

Có nhiều kiểu nội suy khác nhau:  nội suy tuyến tính, dạng đơn giản nhất, coi rằng giá trị biến đổi theo khoảng cách tính từ các điểm ảnh ghi được là đều. Nói cách khác, giá trị thay đổi trên mỗi điểm ảnh là không đổi giữa hai điểm đã biết. Phương pháp nội suy này không phải lúc nào cũng thích hợp, vì vậy mà có những phương pháp khác bao gồm Trung bình địa phương với bán kính cố định, Trọng số nghịch đảo khoảng cách (Inverse Distance Weighted), Bề mặt khuynh hướng (Trend Surface), Splines, và Kriging.  Tất cả những phương pháp nội suy này đều dựa vào các giá trị của những điểm ảnh được ghi nhận để tạo nên giá trị của điểm ảnh rơi vào giữa chúng.  Những phương pháp kể trên khác nhau ở cách lấy trọng số những thuộc tính ghi nhận và ở số điểm đo được dùng trong từng phương pháp. Không có phương pháp nào là chính xác cho từng trường hợp.

Đa giác Theissen (voronoi hay đa giác lân cận)
Đa giác Theissen là những đường biên tạo nên xung quanh những điểm nằm trong một lớp địa vật điểm (xem Hình 5.17).  Các đa giác tạo nên hình thành xung quanh các điểm, và chúng phân định lãnh thổ sao cho bất cứ chỗ nào trong đa giác cũng gần địa vật điểm được chọn hơn là các địa vật điểm khác trong lớp. Các thuộc tính gắn với từng điểm được gán cho đa giác tạo thành. Đây là quá trình vector và raster, nhưng với nhiều hơn một thuộc tính, thì các hệ raster phải dùng nhiều lớp khác nhau.

Hình 5.17:  Creating Đa giác Theissen from các địa vật điểm .

Hình 5.17: Tạo nên đa giác Theissen từ các địa vật điểm .

Các hàm địa hình
Các hàm địa hình dùng Mô hình số hóa độ cao (Digital Elevation Model, DEM) để minh họa cho bề mặt đất.  DEM là các lớp raster chứa dữ liệu cao độ trên từng điểm ảnh. Từ những giá trị này, bạn lập nên lớp đầu ra để phản ánh độ dốc (góc nghiêng), phương vị (hướng), và bóng núi (xem Hình 5.18).  Những hàm địa hình này là các quá trình lân cận điển hình, từng điểm ảnh của lớp tạo nên là kết quả của giá trị độ cao bản thân nó cùng với các giá trị lân cận.

  • Độ dốc thể hiện độ nghiêng của bề mặt đất. Đó là mức thay đổi về độ cao dọc theo một chiều dài định sẵn.
  • Phương vị là hướng la bàn (Đông/Tây/Nam/Bắc) mà mặt dốc hướng đến. Tính từ phương Bắc, góc phương vị thường đo theo chiều kim đồng hồ từ 0 đến 360 độ.
  • Bóng núi, là hiệu ứng chiếu sáng nhằm phỏng theo ánh mặt trời chiếu vào những ngọn núi và thung lũng. Có những nơi sẽ được chiếu sáng và những nơi khuất dưới bóng.
Hình 5.18:  Các hàm địa hình.  Mô hình DEM tạo nên các lớp độ dốc, phương vị, và bóng núi.

Hình 5.18: Các hàm địa hình. Mô hình DEM tạo nên các lớp độ dốc, phương vị, và bóng núi.

Dù những hàm này là các thao tác với raster, đa số chúng đều phỏng lại được trong môi trường vector bằng mạng lưới tam giác (Triangulated Irregular Networks, TIN).  Ngoài ra, các hàm địa hình cũng có thể tính ra được đường đồng mức dạng vector.

Phân tích liên thông

Việc phân tích liên thông dùng các hàm để tích lũy các giá trị trên một diện tích được rà soát. Thường gặp nhất là các phân tích bề mặt và mạng lưới. Trong phân tích liên thông có phân tích mạng lưới, các hàm rải, và phân tích khuất/thấy (hay tầm nhìn). Nhóm các hàm tính toán này ít được phát triển nhất trong số các phần mềm GIS thương mại, nhưng xu hướng này đang thay đổi vì nhu cầu thương mại đối với các tính năng này đang tăng cao.

Các hệ dựa trên vector nói chung là dựa vào những tính năng phân tích mạng lưới.  Các hệ dựa trên raster thì cung cấp chức năng phân tích khuất/thấy và các hàm rải phức tạp.

Hàm rải (Phân tích bề mặt)
Hàm rải là những kĩ thuật tính toán trên raster nhằm xác định đường đi qua không gian bằng cách xác định xem hiện tượng (gồm cả địa vật) rải rác ra sao trên một vùng theo mọi hướng nhưng với sức cản khác nhau. Bạn bắt đầu từ một điểm nguồn hoặc một lớp ban đầu (một điểm nơi mà đường đi sẽ bắt đầu) và một lớp sức cản, để biểu thị việc di chuyển sẽ khó khăn ở mức nào qua mỗi ô thuộc lớp đó. Từ hai lớp bản đồ này, một lớp mới sẽ được hình thành để cho thấy mức độ cản trở lan truyền sẽ là bao nhiêu nếu sự lan truyền xảy ra theo mọi hướng (xem Hình 5.19).

Thêm vào một lớp đích, và bạn có thể xác định đường đi với “chi phí nhỏ nhất” giữa điểm nguồn và từng điểm trong lớp đích.  “Chi phí nhỏ nhất” có thể là tiền bạc, nhưng cũng có thể là thời gian cần để đi từ một điểm này đến điểm kia, chi phí môi trường khi chọn một tuyến đường, hoặc thậm chí là lượng công sức (ca-lo) cần bỏ ra.

Hình 5.19: Các hàm rải. Ví dụ này cho thấy khoảng cách ngắn nhất không phải luôn luôn là khoảng cách chi phí nhỏ nhất.

Hình 5.19: Các hàm rải. Ví dụ này cho thấy khoảng cách ngắn nhất không phải luôn luôn là khoảng cách chi phí nhỏ nhất.

Mô hình tầm nhìn (Intervisibility Analysis)
Mô hình tầm nhìn sử dụng dác lớp địa hình để chỉ ra những phần diện tích trên bản đồ có thể và không thể nhìn từ một điểm quan sát. Những diện tích không bị chắn khuất hợp thành vùng nhìn thấy. Các vùng nhìn thấy được phát triển từ DEM trong hệ thống raster và từ TIN trong hệ thống vector. Khả năng xác định vùng nhìn thấy (và bằng cách nào để thay đổi nó) là đặc biệt hữu ích đối với người quy hoạch công viên quốc gia và các kiến trúc sư cảnh quan. Hình 5.20 biểu diễn các vùng trong một công viên mà nếu ở đó dựng nên một ăng ten truyền thành thì sẽ nhìn thấy được.

Hình 5.20:  Viewshed Analysis.  Map courtesy of the National Park Service, Department of Interior, 2007.

Hình 5.20: Phân tích vùng nhìn thấy. Nguồn: National Park Service, Department of Interior, 2007.

Phân tích mạng lưới
Phân tích mạng lưới bao gồm việc tính toán luồng trên các mạng lưới—tập hợp các đường và điểm nút (còn gọi là tâm hoặc trạm) nối với nhau.  Những mạng lưới tuyến tính này thường dùng để biểu diễn những địa vật như sông suối, tuyến đường giao thông (đường bộ, đường sắt, thậm chí cả đường không), và tuyến năng lượng (điện, nước, khí đốt), thiết bị viễn thông (điện thoại, cáp), các ống cống, v.v. Những điểm nút thường biểu diễn các điểm thu nhận hoặc trạm cuối, các hộ sử dụng, các trạm chuyển đổi, khóa van, và điểm giao cắt. Luồng chuyển giữa các nút dọc theo địa vật dạng tuyến được định lượng bởi : số người, lưu lượng nước, số gói giao cho khách hàng, số ki-lô-oát, hay các nguyên liệu khác.

Từng địa vật dạng tuyến đều có ảnh hưởng đến luồng nguyên liệu. Chẳng hạn, một đoạn phố có thể chi cho phép luồng chạy theo một hướng (đường một chiều) và với một tốc độ nhất định. Nút cũng có thể ảnh hưởng đến luồng. Một cái van bị kẹt có thể cho quá nhiều nước chảy qua và thoát khỏi nơi cần nước đến. Những công cụ phân tích mạng lưới giúp bạn phân tích “chi phí” di chuyển qua mạng lưới. Cũng như các hàm rải, “chi phí” có thể biểu diễn tiền bạc, thời gian, khoảng cách, hay công sức. Phân tích mạng lưới là những ứng dụng dựa trên vector, song cũng có những hàm rải tương tự đối với hệ thống raster.

Có ba loại chủ yếu của phân tích mạng lưới, bao gồm chọn tuyến (đường tối ưu hoặc đường ngắn nhất), cấp phát nguyên liệu và mô hình hóa mạng lưới.

  • Chọn tuyến nhằm nhận diện tuyến đường có “chi phí” nhỏ nhất. Như đã nêu trên, chi phí có thể được định nghĩa theo nhiều cách. Có thể bạn muốn tìm đường ngắn nhất giữa ngôi nhà bạn và một điểm đến du lịch cuối tuần, hay tuyến có chi phí nhỏ nhất để phân phát các bưu phẩm đến cho người nhận. Trong bất kì chương trình chọn tuyến nào, bạn cũng phải chỉ định hai hoặc nhiều nút, gồm một điểm nút đầu và một điểm nút cuối và chúng phải nối thông với mạng lưới. Đôi khi có rất nhiều tuyến đường đi được. Nhiệm vụ của thuật toán phân tích mạng lưới là đẻ xác định được tuyến có chi phí nhỏ nhất. Nhiều tuyến được kiểm tra đến khi thu được tuyến có chi phí nhỏ nhất nối giữa điểm đầu và điểm cuối.
  • Cấp phát nguyên liệu, dạng cơ bản thứ hai của phân tích mạng lưới, là việc phân phối một mạng lưới đến các nút. Để làm điều này, bạn định nghĩa một hoặc nhiều nút cấp phát trên mạng lưới. Địa phận của những địa vật dạng tuyến, như đường phố, được xác định quanh từng nút cấp phát này. Những địa vật dạng tuyến thường được ấn định cho điểm nút gần nó nhất, trong đó khoảng cách gần-xa được đo bằng thời gian, độ dài, tiền bạc, hay công sức. Hình 5.21 cho thấy thời gian phản hồi 4-phút từ vị trí của 6 trạm cứu hỏa và ba trạm cứu hỏa tiềm năng. Những hình đa giác được vẽ nên quanh từng trạng (kí hiệu tam giác) biểu diễn cho vùng mà từ trạm đó có thể tiếp cận trong vòng 4 phút.
Hình 5.21: Cấp phát tài nguyên. Nguồn:  Tyler Schrag, Bellingham Fire Department, 2006.

Hình 5.21: Cấp phát tài nguyên. Nguồn: Tyler Schrag, Bellingham Fire Department, 2006.

  • Mô hình hóa mạng lưới là việc sử dụng các địa vật dạng tuyến và điểm nút liên thông nhau để tính ra xem nguyên liệu được truyền đi trên mạng lưới như thế nào. Các địa vật dạng tuyến, như đường phố hoặc kênh sông, đều có các thuộc tính có thể quy định tốc độ truyền, số dòng truyền, và lượng vận chuyển. Các nút cũng có những thuộc tính quy định kiểu như khả năng quay xe và chi phí cho từng lần quay. Nguyên liệu như nước hay giao thông được áp dụng cho mạng lưới và sự vận chuyển của chúng được mô hình hóa. Bằng cách này, các vấn đề liên quan đến tải trọng mạng lưới có thể xác định được.
Advertisements

1 phản hồi

Filed under Commons

One response to “Chương 5: Phân tích

  1. Pingback: GIS Commons: Sách giáo trình nhập môn Hệ thống thông tin địa lý | Blog của Chiến

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s