Dự đoán sản lượng nông nghiệp từ ảnh vệ tinh  


Hàng năm, Bộ Nông nghiệp Mỹ (USDA – U.S. Department of Agriculture) thường quy động hàng nghìn người tham gia khảo sát dự đoán về sản lượng các loại nông sản (1). Điều này là cần thiết vì khi sản lượng lúa, ngô, v.v. đạt đến mức tỉ lít hàng năm (2), nếu họ không có được con số đúng thì các công việc lưu trữ nông sản, đầu tư, quản lý có thể sẽ gặp khó khăn. Qui trình khảo sát trước giờ được thực hiện bằng các biện pháp như: nhận mail từ người trồng, gọi điện thoại khảo sát, điền mẫu khảo sát, v.v.

Thay vì sử dụng qui trình thủ công như trên, một nhóm nghiên cứu tại trường đại học Tokyo đã tiến hành sử dụng các giải thuật học máy (machine learning) trên các ảnh vệ tinh để đưa ra con số dự đoán khá chính xác cho sản lượng ngô tại Mỹ (3).

Dữ liệu đầu vào họ cần cho việc dự đoán gồm có ba phần chính: lớp dữ liệu về đất trồng trọt tại Mỹ, lớp dữ liệu về sinh thái thực vật MODIS-EVI (Moderate-resolution Imaging Spectroradiometer Enhanced Vegetation Index) (*) và lớp dữ liệu về thời tiết Daymet. Dựa vào ba lớp dữ liệu trên, cùng với số liệu sản lượng ngô thu hoạch được ở các năm khác nhau do USDA cung cấp, họ tiến hành dùng ba mô hình học máy riêng biệt để thử nghiệm việc ước lượng sản lượng. Trong đó, mô hình support vector machine và mạng nơ-ron nhân tạo sâu (deep neural network) cho ra các kết quả khá tốt với R2 (**) lần lượt là 0.727 và 0.773.

Hình 1: Lớp dữ liệu về đất trồng trọt tại Mỹ. Nguồn: USDA.

Hình 2: Lớp dữ liệu về sinh thái thực vật MODIS-EVI tại Mỹ (18/7/2008). Nguồn: LP DAAC (4).

Trước nhóm nghiên cứu trên cũng đã có nhiều công trình tiến hành phân tích sản lượng cây trồng từ ảnh vệ tinh. Vào năm 2002, một nhóm nghiên cứu của trường Montana, Mỹ, cũng đã thử nghiệm đo năng suất lúa mì dựa vào các ảnh vệ tinh (5). Gần đây hơn, một nhóm liên kết giữa Ý và Tunisia cũng thử nghiệm ước tính năng suất trên giống cây lúa mì cứng (Durum wheat) (6). Các công trình này thường sử dụng ảnh hệ sinh thái thực vật do tính trực quan của loại ảnh này với các vấn đề về nông nghiệp.

Ngoài các công trình kể trên, nhóm khởi nghiệp tại phòng thí nghiệm Descartes, Mỹ, cũng sử dụng học máy trong việc phân tích sản lượng ngô trên đất nước của họ (7). Tuy nhiên, thay vì sử dụng ảnh sinh thái thì họ tiến hành phân tích sản lượng trực tiếp trên ảnh thực chụp từ vệ tinh. Kết quả dự báo của họ trong năm 2015 có độ chính xác cao hơn USDA. Hiện tại, nhóm Descartes chỉ mới thử nghiệm trên các ruộng ngô, nhưng trong tương lai gần họ sẽ mở rộng qui mô ra các loại cây khác.

Hình 3: Ảnh minh họa cho việc phân loại các ruộng ngô bằng giải thuật của nhóm Descartes. (A): ảnh chụp thành phố Le Mars, bang Iowa. (B): ảnh kết quả cho việc phân loại các ruộng ngô. Nguồn: The Verge (7).

Phân tích các yếu tố nông nghiệp từ ảnh chụp ngoài trái đất không phải là vấn đề mới. Có nhiều lí do để các nhóm nghiên cứu tập trung vào phương pháp này. Ngoài việc không cần qui động một lượng nhân lực lớn để khảo sát, phương pháp này còn có ưu điểm là các ảnh vệ tinh có thể cung cấp thông tin chi tiết đến mức từng cây số vuông (3). Nhưng trước đây, do dữ liệu ít, tần suất lấy mẫu thưa, độ phân giải chưa cao, nên việc khai thác còn nhiều khó khăn. Trái lại, trong vài năm gần đây, các dịch vụ cung cấp ảnh vệ tinh như NASA, Planet cho phép ta lấy mẫu hàng ngày với độ phân giải cao, loại ảnh đa dạng (8, 9). Nhờ vào đó, các nhóm nghiên cứu có thể đưa ra các mô hình dự đoán sản lượng nông nghiệp của mình trong thời gian gần với thực tế và chính xác hơn trước.

(*) Moderate-resolution Imaging Spectroradiometer Enhanced Vegetation Index (MODIS-EVI): là một chuẩn ảnh biểu diễn cho mức độ cây xanh tồn tại trong một vùng nào đó, được thu lại bởi cảm biến đặc biệt do NASA thiết kế là Moderate-resolution Imaging Spectroradiometer. Mỗi pixel trong ảnh EVI có thể chứa 250 m2 diện tích mặt đất.

Normalized Difference Vegetation Index (NDVI): cũng là chuẩn ảnh biểu diễn mức độ xanh của một vùng nào đó trên bản đồ. Do sử dụng cảm biến kém hơn MODIS-EVI nên NDVI có độ phân giải thấp hơn. Mỗi pixel của ảnh NDVI chỉ có thể bao quát 1 km2.

(**) R2 (R squared hay R bình phương): chỉ số biểu diễn mức độ phù hợp giữa mô hình hồi qui tìm được so với các biến quan sát. R2 có giá trị từ 0 đến 1. R2 bằng 0 nghĩa là mô hình không giải thích được sự biến thiên giữa các biến phụ thuộc so với trung bình của chúng, R2 bằng 1 thì ngược lại.

Tác giả: Huỳnh Chí Kiên (Đại học Bách Khoa, Tp. Hồ Chí Minh)

Phản biện: Phạm Trần Xuân Minh (NCS, Đại học Nam California, Hoa Kỳ)

Tài liệu tham khảo

  1. “Agricultural Yield”. Available at: https://www.nass.usda.gov/Surveys/Guide_to_NASS_Surveys/Agricultural_Yield/index.php [Accessed August 8, 2016].
  2. “Crop Production”. Available at: http://usda.mannlib.cornell.edu/MannUsda/viewDocumentInfo.do?documentID=1046 [Accessed August 8, 2016].
  3. K. Kuwata and R. Shibasaki (2016): “Eastimating Corn Yield in The United States with MODIS EVI and Machine Learning Methods”. ISPRS Annals of Photogrammetry, Remote Sensing and Spatial Information Sciences, III-8: 131-136.
  4. “Land processes distributed active archive center”. Available at: https://lpdaac.usgs.gov/ [Accessed August 8, 2016].
  5. M. P. Labus et al. (2002): “Wheat yield estimates using multi-temporal NDVI satellite imagery”. International Journal of Remote Sensing, 23: 4169– 4180.
  6. Michele Meroni et al. (2013): “Remote Sensing Based Yield Estimation in a Stochastic Framework — Case Study of Durum Wheat in Tunisia”. Remote Sensing, 5: 539– 557.
  7. “This startup uses machine learning and satellite imagery to predict crop yields”. Available at: http://www.theverge.com/2016/8/4/12369494/descartes-artificial-intelligence-crop-predictions-usda [Accessed August 8, 2016].
  8. “LANCE: NASA Near Real-Time Data and Imagery”. Available at: https://earthdata.nasa.gov/earth-observation-data/near-real-time [Accessed August 8, 2016].
  9. “Planet”. Available at: https://www.planet.com/ [Accessed August 8, 2016].
Category: