자동화 머신런닝 기법을 이용한 농업용 저수지의 시단위 수위 예측 모델 개발 및 적용성 평가

Development and Applicability Assessment of an Hourly Water Level Prediction Model for Agricultural Reservoirs Using Automated Machine Learning

Article information

J Korean Soc Environ Eng. 2024;46(10):602-612
Publication date (electronic) : 2024 October 31
doi : https://doi.org/10.4491/KSEE.2024.46.10.602
1Department of Regional Infrastructure Engineering, Kangwon National University, Republic of Korea
2Rural Research Institute, Korea Rural Community Corporation, Republic of Korea
3Agriculture and Life Sciences Research Institute, Kangwon National University, Republic of Korea
최준영1orcid_icon, 이봉국2orcid_icon, 한정호3,orcid_icon
1강원대학교 농업생명과학대학 지역건설공학과
2한국농어촌공사 농어촌연구원
3강원대학교 농업생명과학연구원
Corresponding author E-mail: hanjeongho24@kangwon.ac.kr Tel: 033-250-6408
Received 2024 September 23; Revised 2024 October 17; Accepted 2024 October 18.

Abstract

목적

본 연구는 농업용 저수지의 시단위 저수위 예측을 위해 자동화 머신러닝(AutoML) 기법인 TPOT을 이용하여 예측 모델을 개발하고, 적용성 평가를 목적으로 한다.

방법

연구는 백록저수지와 백련저수지를 대상으로 수행되었으며, 기상청에서 제공하는 강우 예보 자료와 실측된 강우량, 저수위 데이터를 기반으로 저수위 예측 모델을 구축하였다. 유전 알고리즘을 활용하여 최적의 머신러닝 파이프라인을 자동으로 생성하는 TPOT을 이용하여 모델을 만들었으며, 벤치마크 모델로 Random Forest 모델도 함께 구축하였다. 모델 성능은 NSE(Nash-Sutcliffe Efficiency), R²(coefficient of determination), RMSE(root-mean-square error)를 통해 평가하였다. 예측 시간은 1시간, 3시간, 6시간, 12시간으로 설정하였으며, 각 예측 시간대의 정확도를 평가하였다.

결과 및 토의

TPOT과 RF 모델 모두 선행 시간이 짧을수록 높은 정확도를 보였으며, 1시간 예측에서는 NSE 값이 0.99 이상으로 매우 높은 정확성을 나타냈다. 그러나 선행 시간이 증가할수록 예측값과 실측값 사이에 시간적 지연이 발생하였으며, 특히 12시간 예측에서는 성능 저하가 두드러졌다. 이는 예측 시간이 증가함에 따라 예보 강수량의 정확도도 함께 낮아지기 때문으로 판단되었다. 그럼에도 불구하고 TPOT 모델은 12시간 TPOT 예측 모델 평균 NSE는 0.911로, 단기간(1시간, 3시간)과 장기간 예측(6시간, 12시간) 모두에서 안정적이고 높은 예측 정확도를 유지하였다.

결론

본 연구를 통해 TPOT 기반의 자동화된 머신러닝 기법이 농업용 저수지의 시단위 저수위 예측에 효과적으로 적용될 수 있음을 확인하였다. 향후 연구에서는 긴 예측 시간대에서의 예측 정확도 향상을 위한 방법을 모색하는 것이 필요하다.

Trans Abstract

Objectives

This study aims to develop and evaluate hourly water level prediction models for agricultural reservoirs using an automated machine learning (AutoML) approach, specifically, employing TPOT.

Methods

The study focuses on the Baekrok and Baekryeon reservoirs using rainfall forecast data from the Korea Meteorological Administration, along with observed rainfall and reservoir water level data. TPOT, which utilizes genetic algorithms to automate the generation of optimal machine learning pipelines, was used to build models. Additionally, Random Forest (RF) was implemented as a benchmark to evaluate TPOT’s applicability. Predictions were generated with lead times of 1, 3, 6, and 12 hours, and model accuracy was evaluated using the Nash-Sutcliffe Efficiency (NSE), coefficient of determination (R2), and root-mean-square error (RMSE).

Results and Discussion

The predictions from both TPOT and RF showed high accuracy for shorter lead times, with NSE values exceeding 0.99 for the 1-hour predictions. However, predictive accuracy decreased as lead time increased, likely due to greater uncertainty in rainfall forecast data, particularly for the 12-hour predictions. Despite this trend, TPOT-derived models maintained more stable and accurate performance compared to RF models across all lead times.

Conclusion

This study demonstrates the applicability of TPOT-based AutoML techniques in predicting hourly water levels in agricultural reservoirs. Future work should explore strategies to mitigate the decline in accuracy for longer lead times.

1. 서 론

기후 변화에 따른 극한 강우와 집중호우의 빈도 및 강도가 증가함에 따라[1-3], 농업용 저수지, 양수장, 집수암거, 취입보 등과 같은 수리시설의 관리 필요성이 더욱 중요해지고 있다. 특히 농업용 저수지는 농업용수 공급뿐만 아니라 하류 지역의 홍수 및 가뭄 관리에도 큰 영향을 미치고 있다[4]. 그러나 현재 대다수의 농업용 저수지는 홍수 조절을 위한 수문이 설치되지 않아, 극한 강우 발생 시 홍수 피해를 방지하기 어려운 상황에 처해 있다. 기존의 자연 월류 방식은 홍수 조절 능력이 거의 없으며, 이는 국지적 집중호우와 같은 불규칙한 강우 패턴 변화에 대응하기에 충분하지 않다[5].

이에 따라 농림축산식품부는 2020년 제1차 농업용 저수지 관리계획을 수립하고, 2025년까지 한국농어촌공사의 저수지 3,411개소에 대한 홍수량 조절 수문 설치 및 노후 저수지의 재구축을 계획하고 있다. 또한, ICT 기반의 저수지 관리 시스템을 통해 저수지 둑 변형 및 누수의 사전 감지 체계를 마련하고, 자연재해에 안전한 저수지 관리 방안을 제시하였다[6]. 그러나 현재의 저수지 관리 시스템은 주로 관리자의 경험에 의존하고 있으며, 강우 패턴의 변화나 극한 강우 상황에 대비하는 데 한계가 있다.

전국의 17,000여 개 저수지 중 실시간으로 수위를 측정하고 있는 곳은 일부에 불과하며, 대다수의 소규모 저수지에는 계측 장비가 설치되어 있지 않다. 이를 해결하기 위해 농업용 저수지 관리를 위한 머신러닝(Machine Learning, ML) 적용 연구가 활발히 수행되고 있다. Yang et al. (2021) [7]은 딥러닝(Deep Learning, DL)을 이용하여 저수위 수위자료 이상치 탐지하는 방안을 제안하였고, Choi et al. (2022) [8]은 위성 영상 자료와 인공지능 모델을 통해 농업용 저수지의 수표면을 산출하는 방법을 개발하였다. Kwon et al. (2023)과 Joo et al. (2023) [9,10]는 CCTV 영상과 딥러닝을 이용해 저수위를 인식 모델을 개발하였다.

하지만, 국내에서는 저수위 예측을 위해 머신러닝을 시계열 예측에 적용한 연구가 거의 이루어지지 않았다. 해외의 경우 Zhu et al. (2020) [11]은 딥러닝 모델들을 이용해서 월단위 수위를 예측했으며, Zaji et al. (2019) [12]는 미계측 저수지의 일단위 수위를 예측하기 위해 딥러닝을 활용하는 연구를 진행하였다. 이러한 연구 외에도 머신러닝과 딥러닝을 이용한 다양한 수위 예측 연구가 이루어졌다[13-15]. 하지만 국내의 경우 인공지능을 시계열 예측에 적용한 사례가 거의 없다. 더욱이, 대부분의 해외 연구 사례는 대규모 저수지나 댐을 대상으로 월단위 또는 일단위 예측에 집중하고 있다. 하지만 한국의 농업용 저수지는 대부분 소규모이며, 여름철에 발생하는 집중호우로 인해 단기간 내에 수위가 급격히 변동하는 경우가 많기 때문에 일 단위 이하의 시 단위 예측이 필요하다.

본 연구는 이러한 한계를 극복하고자 자동화 머신러닝(Automated ML, AutoML) 기법인 TPOT(Tree-based Pipeline Optimization Tool) [16]을 활용하여 시단위 예측 모델을 다양한 시간 범위에 걸쳐 개발하고, 이를 평가하여 저수위 예측 측면에서 머신러닝 시계열 예측 기법의 적용 가능성을 평가하였다. TPOT은 유전 알고리즘을 기반으로 하여 다양한 머신러닝 모델을 자동으로 생성하고 최적화하는 도구로, 반복적인 최적화 과정을 자동화함으로써 시간 소모를 줄이고 예측 성능을 향상시킬 수 있다. 이를 통해 저수지의 안전한 운영을 위한 선제적 대응 방안을 마련하고, 극한 강우로 인한 저수지 붕괴와 같은 재해를 예방하는 데 기여할 수 있을 것으로 기대된다.

2. 재료 및 방법

2.1. 연구 대상지

본 연구는 충청북도 보은군 마로면과 화남면에 걸쳐 있는 백록저수지와 전라남도 구례군 구례읍 백련리에 위치한 백련저수지를 대상으로 진행되었다(Fig. 1).

Fig. 1.

Locations and aerial views of the study reservoirs (left: Baekryeon Reservoir, right: Baekrok Reservoir).

두 저수지 모두 여수토에 사전 방류시설을 갖추고 있다. 백록저수지의 사전 방류시설은 너비 3m, 높이 1.5 m의 전도식 수문으로, 수문 바닥의 표고는 157.0EL.m이다. 백련저수지의 방류시설은 너비 2.5 m, 높이 3 m의 인양식 수문으로, 수문 바닥의 표고는 67.9 EL.m이다. 두 저수지 모두 한국 농어촌공사에서 운영 및 관리하고 있다. 백록저수지의 주요 제원은 다음과 같다. 제정고 161.5 EL.m, 홍수위 159.5 EL.m, 만수위 158.5 EL.m, 사수위 151.0 EL.m, 총 저수량 818,100톤, 유효 저수량 765,300톤, 유역면적 1,520 ha, 수혜면적 133.4 ha로, 유역면적 대비 수혜면적 비율(유역배율)은 11.4이다. 백련저수지는 제정고 73.7 EL.m, 홍수위 71.5 EL.m, 만수위 70.9 EL.m, 사수위 64.3 EL.m이며, 총 저수량과 유효 저수량은 각각 250,000톤이다. 유역면적은 447 ha, 수혜면적은 32.7 ha이며, 유역배율은 13.7이다.

2.2. 저수위 예측을 위한 입력자료 수집

저수위 예측을 위한 입력 자료로 저수위와 저수율 데이터를 농촌용수종합정보시스템(RAWRIS)에서 수집하였다.

RAWRIS는 API를 통해 저수위와 저수율 데이터를 제공하지만, 일 단위 자료만 지원하고 있어, 실시간 자료 확보를 위해 웹 크롤링(Web crawling)을 이용하였다. 이를 통해 10분 단위로 갱신되는 기준일시, 저수량(천 m3), 저수위(EL.m) 데이터를 수집하였다. RAWRIS 웹사이트는 동적 페이지로 구성되어 있어, Python 패키지인 Selenium을 사용해 사용자의 동작을 자동화하여 필요한 데이터를 크롤링하였다. 수집된 저수위 자료는 Hampel 필터 기법[17]을 적용하여 결측치와 이상치를 보정하였으며(Window size = 3, sigma = 2), 결측치는 선형 보간법을 사용해 보완하였다. 자료는 2021년 7월 1일부터 2023년 10월 31일까지 수집하였다.

저수위 자료와 함께 모델 입력자료로 실측 및 예보 강수량 자료를 사용하였다. 실측 강수량은 현재 시점의 정확한 강수 정보를 제공하기 위해 활용되었으며, 예보 강수량 자료는 예측 시간별로 향후 강수 정보를 제공하는 역할을 한다. 기상청에서 제공하는 기상예보 자료 중 전국을 5km × 5 km 간격의 격자로 나누어 행정구역별 상세한 날씨 정보를 제공하는 초단기실황, 초단기예보, 단기예보의 강수량 데이터를 사용하였다. 초단기실황은 동네예보 구역(5 km 해상도 격자)에 대한 대표 AWS 관측값을 의미하며, 초단기예보는 예보 시점부터 6시간 이내의 예보를 의미한다. 단기예보는 예보 구역을 시·공간적으로 세분화하여 3시간 간격으로 발표하는 자료로, 예보 시점부터 3일 이내의 기간(+4시간에서 +58~67시간)을 대상으로 한다. 단기예보는 하루에 8회 발표되며, 6시간에서 12시간에 해당하는 1시간 단위 강수량 자료를 사용하였다.

백록저수지의 경우, 저수지가 위치한 충청북도 보은군 마로면과 경상북도 상주시 화남면의 면적 비율(마로면: 0.23, 화남면: 0.77)을 반영하여 강수 자료를 가공하였다. 백련저수지는 전라남도 구례군 구례읍의 강수 자료를 사용하였다.

2021년 7월 1일부터 2023년 10월 31일까지의 자료 수집 결과, 백련저수지와 백록저수지 각각 20,472개의 자료가 확보되었다. 이 중, 각 저수지의 데이터 중 2021년 7월 1일부터 2023년 2월 28일(14,592개, 약 71%)까지는 학습 자료로, 2023년 3월 1일부터 2023년 10월 31일(5,880개, 약 29%)까지는 검증 자료로 이용하였다.

2.3. Tree-based Pipeline Optimization Tool (TPOT)

본 연구는 저수지별 저수위 예측을 위한 최적의 머신러닝 모델을 선정하고 구축하기 위해 Python 기반의 자동화 머신러닝(Automated Machine Learning; AutoML) 라이브러리인 TPOT(Tree-based Pipeline Optimization Tool)을 사용했다. TPOT은 데이터 전처리, 모델 선택 및 하이퍼파라미터 튜닝 등 머신러닝 파이프라인 전반을 자동으로 설계함으로써 머신러닝의 성능을 최대화하기 위한 도구이다. TPOT은 유전 알고리즘을 사용하여 최적의 파이프라인을 도출한다(Fig. 2).

Fig. 2.

An example machine learning pipeline including processes automated by TPOT.

TPOT은 선형 모델, 의사결정 트리, 랜덤 포레스트, 그래디언트 부스팅 등 다양한 모델을 지원하며, 단일 모델뿐만 아니라 앙상블 모델을 포함하여 다양한 조합을 탐색한다[18,19]. 이를 통해 주어진 문제에 가장 적합한 모델 구성을 자동으로 찾아내어 제공한다.

2.4. TPOT 기반 저수위 예측 모델 개발

본 연구에서는 TPOT을 이용하여 백록저수지와 백련저수지의 수위 예측을 위한 머신러닝 모델을 각각 구축하였다. 두 저수지에 대해 동일한 매개변수 설정을 적용하였다. 모델 선정을 위한 generations 값으로 20을 사용하였고, population_size에도 20을 사용하였다. 최적의 모델을 선정하는 기준으로는 수문학 분야에서 모델 평가 시 널리 사용되는 NSE(Nash-Sutcliffe Efficiency; 공식 (1)) 지표를 scoring 기준으로 삼았다. 또한 성능이 일정기간 동안 개선되지 않을 경우 중단하는 early_stop 기능을 10으로 설정하여, 10 세대(generations) 동안 성능 개선이 없으면 훈련을 중단하고 최적의 모델을 도출하도록 하였다. TPOT은 모델 성능 검증은 시계열자료를 교차검정하기 위해 사용되는 TimeSeriesSplit(n_split=5) 방법을 사용하였다. TPOT을 사용하여 1시간, 3시간, 6시간, 12시간 후 저수위 예측을 위한 최적 파이프라인을 도출하였으며, 각 시간별로 도출된 최적의 파이프라인 중 하나의 대표 알고리즘을 저수지별로 선정하여 예측에 적용하였다. 모형에 사용된 변수는 총 17개이며, 입력 변수와 해당 변수에 대한 설명은 Table 1에 정리하였다. 여기서 ACC_PCP_n은 시간 t를 기준으로 t+1시간부터 목표 선행 시간(1, 3, 6, 12)까지의 예보된 누적 강수량을 의미한다. 이때 초단기예보는 최대 6시간까지의 예보만 제공되므로, 6시간과 12시간 저수위 예측 모델에서는 1~5시간 예측에는 초단기예보 값을, 6시간 이후(6시간, 12시간) 예측은 단기 예보 값을 누적하여 사용하였다. 모델을 훈련시키기 위해 2021년 7월 1일부터 2023년 2월 28일까지의 데이터를 학습 자료로 사용하였고, 2023년 3월 1일부터 2023년 10월 31일까지의 데이터를 예측 자료로 활용하여 수위 예측을 수행하였다.

Input variables for reservoir water level prediction model.

모델의 정확도는 그래프 분석과 통계 지표 두 가지 방법을 통해 평가하였다. 그래프 분석을 위해 실제 저수위와 TPOT을 통해 도출된 모델로 예측한 저수위를 시계열로 나열하고, 이를 비교하였다. 통계 지표로는 NSE, R2(coefficient of determination), RMSE(root-mean-square error)를 사용하였다. NSE는 수문학 분야에서 예측과 실측의 일치도를 평가하는 지표로 값의 범위는 -∞에서 1까지이다. NSE 값이 1에 가까울수록 모델의 예측값이 관측값과 더 일치함을 의미한다. R2는 모델의 설명력을 나타내는 지표로 0에서 1까지의 범위를 갖는다. R2 값이 1에 가까울수록 모델이 데이터를 잘 설명하는 것을 의미한다. RMSE는 예측값과 관측값 사이의 차이를 나타내는 지표로, 값이 작을수록 예측과 실제 값의 차이가 적고, 값이 클수록 예측 성능이 떨어짐을 의미한다.

(1) NSE=1-i=1nOBSi-SIMi2i=1nSIMi-OBS¯2

여기서, OBSiSIMi는 각각 관측값과 모의된 값이며, OBS는 모든 관측값의 평균이다.

2.5. Random Forest (RF)

본 연구에서는 TPOT 모델과의 성능 비교를 위한 기준 모델로 다양한 분야에서 높은 예측 성능이 증명된 Random Forest (RF) [20] 알고리즘을 선정하였다. RF는 다수의 결정 트리를 생성하고 이들의 예측 결과를 평균하여 최종 예측을 도출하는 앙상블 기법으로, 데이터 과적합을 방지하면서도 높은 예측 성능을 유지하는 특징이 있다[21]. 각 트리들은 서로 다른 랜덤 샘플링과 변수 선택 과정을 거치면서 데이터의 다양한 패턴을 학습하고, 이를 통해 예측 성능을 최적화한다. 또한, RF는 데이터에 대한 가중치를 자동으로 조정하여 이상치에 대한 민감도를 낮추는 동시에, 안정적인 예측을 가능하게 한다.

본 연구에서는 TPOT 모델과 동일한 입력 데이터를 사용하여 RF 모델을 구축하였으며, 저수지별 각 예측 시간대(1시간, 3시간, 6시간, 12시간)에 대한 저수위 예측 성능을 비교 평가하였다. 이를 통해 TPOT의 자동화된 모델 선택과 최적화를 통해 최종적으로 선정된 최적 모델의 효율성을 검증하였다.

3. 결과 및 고찰

3.1. 특성 중요도 분석 결과

본 연구에서는 백록저수지와 백련저수지의 선행 시간(1시간, 3시간, 6시간, 12시간)별로 RF 모델의 내장 속성인 ‘feature_importances_’를 이용하여 각 변수들의 상대적 중요도를 평가하였다(Fig. 3). 백록저수지와 백련저수지 모두에서 현재 시간에서 관측된 저수지 수위(OBS_WL)는 모든 선행 시간대에서 평균 중요도 95% 이상의 값을 나타내며 가장 중요한 변수로 나타났다. 이는 현재 저수위가 시간별 저수위 변동 예측시 중요한 인자라는 것을 시사한다.

Fig. 3.

Feature importance across different lead times.

또한, 선행 시간이 길어질수록 과거 수위(PREV_WL_nH) 변수의 중요도가 증가하는 경향을 보였다. 백록저수지에서는 12시간 후 예측에서 PREV_WL_12H가 중요한 변수로 작용하였고, 백련저수지에서는 OBS_WL 다음으로 PREV_WL_1H가 지속적으로 중요도를 나타냈다. 이는 장기 예측에서 과거 수위가 예측에 미치는 영향이 크다는 것을 보여준다. 반면, 강수량 예보(ACC_PCP_Hn)는 선행 시간이 길어질수록 중요도가 높아지는 경향을 보였으나, 다른 변수들에 비해 상대적으로 중요도는 매우 낮은 값을 나타냈다. 이는 저수지 수위 변동이 강우보다는 과거 수위와 더 밀접한 연관이 있음을 암시한다. 이러한 결과는 실제 수문학적 프로세스와 상반되는 결과로, 데이터 기반 모델(data-driven model)인 머신러닝의 한계일 수 있다. 일반적으로 시단위와 같이 짧은 기간내에서의 저수지 수위 변동은 강우량이나 방류가 주요 원인이지만, 본 연구의 학습자료에서는 전체 기간 중 강우 기간이 상대적으로 짧아 이러한 상관관계가 충분히 반영되지 못하였다. 실제 본 연구의 학습 자료(14,592개) 중 강우에 해당하는 자료는 백록저수지와 백련저수지 각각 616(4.2%), 542(3.7%)로 매우 작은 부분을 차지하였다. 따라서 본 연구에서 도출된 특성 중요도 분석 결과는 실제 수문학적 현상과는 차이를 보이는 데이터 기반 예측 모델의 특성일 수 있다.

3.2. TPOT 모델 선정 결과

본 연구에서는 TPOT 모델을 실행하여 1시간, 3시간, 6시간, 12시간 후 저수위 예측 모델을 각각 구축하였다. 각 저수지별로 예측 시간대별로 서로 다른 최적 파이프라인이 생성되었지만, 동일한 저수지 내에서도 예측 시간에 따라 다양한 머신러닝 알고리즘이 사용되면 예측 저수위의 불규칙한 변동을 초래할 수 있다[18]. 따라서 본 연구에서는 TPOT을 통해 생성된 최적 파이프라인 중에서 저수지별로 대표적으로 적용할 수 있는 공통적인 머신러닝 알고리즘을 최종적으로 선정하였다. 저수지별로 선정된 최종 파이프라인은 정확도를 기준으로 선정했으며, 선정 결과는 Table 2에 제시하였다.

Results of the best pipeline for each reservoir water level prediction.

백록저수지의 경우 RidgeCV(Ridge regression with built-in cross-validation) 알고리즘이 최적 모델로 선정되었다. 이 모델은 입력 데이터에 대해 Standard Scaler를 적용하여 표준화를 수행한 후, SelectPercentile(percentile=54)을 사용해 17개의 변수 중 54%만을 선택할 때 성능이 가장 뛰어났다. 이 파이프 라인은 RidgeCV 알고리즘과 TimeSeriesSplit 교차 검증을 통해 최종 예측 모델로 선정되었다.

반면, 백련저수지의 경우에는 LassoLarsCV(Cross-validated Lasso, using the LARS algorithm) 알고리즘이 최적 모델로 선정되었다. 전처리로 Standard Scaler는 적용하지 않고, 17개의 변수 중 54%의 변수를 선택(SelectPercentile(percentile=54))할 경우 알고리즘의 성능이 가장 뛰어났다. LassoLarsCV 또한 TimeSeriesSplit으로 교차 검증을 수행하여 최종 예측 모델로 채택되었다.

3.3. 저수위 예측 모델 정확도 평가

본 연구에서는 TPOT 모델과 RF 모델을 테스트 기간인 2023년 3월 1일부터 2023년 10월 31일까지에 적용하여 저수위 예측 성능을 비교하였다. 백록저수지와 백련저수지 모두에서 선행 시간 1시간, 3시간, 6시간, 12시간에 대해서 개별적으로 모델을 학습시켰으며, 동일한 기간에 대하여 NSE, R2, RMSE를 이용하여 모델 성능을 평가하였다. 각 통계 지표들 값은 Table 3에 정리되어 있으며, 직관적인 비교를 위하여 Fig. 4에 그래프를 추가하였다.

Statistical analysis results to compare performance of RF and TPOT producing models.

Fig. 4.

Statistical analysis results to compare performance of RF and TPOT producing models.

백록저수지에서 1시간 예측의 경우, TPOT 모델과 RF 모델은 NSE와 R2 모두 0.999로 매우 높은 정확도를 나타냈으나, RMSE 값에서 TPOT이 0.006 m로 RF의 0.013 m보다 낮은 값을 나타내며 미세하게 높은 정확도를 보였다. 3시간 예측에서도 두 모델은 동일한 NSE와 R2 값을 기록했으나, TPOT 모델의 RMSE가 0.017 m로 RF 모델(0.031 m)보다 낮아 더 정확한 것으로 나타났다. 6시간 예측에서는 TPOT 모델이 RF보다 NSE는 0.004 낮은 값을 나타냈으나, R2는 0.009 더 높았고, RMSE는 0.003 m 더 낮게 나와 종합적으로 TPOT 모델이 더 정확한 것으로 나타났다. 12시간 예측에서도 선행 시간 6시간의 결과와 유사한 결과가 나타났다. TPOT 모델의 NSE는 RF보다 0.015 낮은 0.932를 나타냈으나, R2는 0.042 더 높았고, RMSE는 0.006 m 더 낮은 값을 나타내며 종합적으로 더 우수한 성능을 보였다.

백련저수지에서 1시간 예측에서는 TPOT 모델이 RF 모델보다 모든 지표에서 더 높은 정확도를 보였다. TPOT 모델은 NSE와 R2에서 각각 0.992를 기록하며, RF 모델(0.977)보다 우수한 성능을 보였고, RMSE 또한 TPOT이 0.015 m로 RF 모델(0.153 m)보다 낮았다. 3시간 예측에서도 TPOT 모델의 NSE와 R2는 0.984로 RF(0.963) 보다 높았으며, RMSE는 각각 0.033 m, 0.345 m로 TPOT이 더 정확하였다. 6시간과 12시간에서도 TPOT 모델은 RF 모델보다 뛰어난 정확도는 나타냈으며, 특히 12시간 예측에서 TPOT 모델과 RF 모델의 성능 차이가 두드러졌다. 즉, TPOT이 장기 예측에서 RF보다 안정적이고 정확한 결과를 제공하는 것으로 나타났다.

이와 같은 결과는 TPOT 모델이 모든 예측 시간대에서 높은 성능을 보여줌을 의미하며, 특히 백련 저수지와 같이 장기 예측(12시간)에서도 TPOT 모델이 RF 모델보다 안정적이고 정확한 예측을 할 수 있음을 시사한다. 이는 TPOT의 자동화된 모델 선택과 최적화 과정이 다양한 머신러닝 모델을 고려하여 각 예측 시간대에 맞는 최적의 모델 구성을 자동으로 찾아내기 때문에, TPOT 모델이 RF 모델보다 더 우수한 예측 성능을 제공한 것으로 판단된다. 다만 두 모델 모두 선행시간 1시간과 3시간 예측에서는 큰 성능 차이는 없으나, 6시간에서 12시간으로 예측 시간이 증가할수록 성능이 감소하는 경향이 관찰되었다(Fig. 4).

3.4. 시계열분석 그래프를 통한 예측 성능 분석

Fig. 56은 백록저수지와 백련저수지의 1시간, 3시간, 6시간, 12시간 후 저수위 예측 결과를 실측 저수위 및 강수량 자료와 함께 시계열로 나타낸 것이다. 통계적 분석 결과에서 드러났듯이, 1시간, 3시간, 6시간 예측에서 TPOT과 RF 모델 모두 실측 저수위의 변동을 정확히 모의했다. 특히, 강우 이벤트 직후 저수위 변동까지 잘 예측된 점에서 두 모델의 성능이 우수한 것으로 나타났다. 하지만 백록저수지에서 TPOT모델은 저수위가 갑작스럽게 감소하는 구간(Fig. 5에서 파란색 타원)에서 실측 저수위보다 다소 높은 값을 예측하는 경향이 나타났다(Fig. 5에서 주황색 타원).

Fig. 5.

Comparison of forecasted water levels in Baekrok reservoir by lead times.

Fig. 6.

Comparison of forecasted water levels in Baekryeon reservoir by lead times.

백련저수지에서는 모든 선행 시간에 대해 안정적인 성능을 유지한 TPOT 모델과 달리, RF 모델은 12시간 예측에서 예측값의 급변이 빈번히 나타났다. 또한 RF 모델은 테스트 기간 중 가장 낮은 저수위 구간(Fig. 6에서 주황색 타원)에서는 저수위를 과대평가하였고, 가장 높은 저수위 구간(Fig. 6에서 주황색 타원)에서는 과소평가하는 듯 불안정한 예측 정확도가 관측되었다. 이는 1시간 예측에서도 나타난 현상으로, 백련저수지에 대한 RF 모델은 예측 값에 큰 오차를 나타냈다.

이러한 결과를 통해 TPOT 모델이 강우 이벤트를 포함한 모든 기간에 대해 저수위 변동을 안정적으로 예측할 수 있음을 확인하였다. 다만 TPOT 모델도 저수지별로 오차 패턴이 상이하게 나타나는 점을 고려할 때, 동일한 입력 특성(input feature) 사용에도 불구하고 저수지의 특성에 따라 모델의 예측 성능이 달라질 수 있음을 알 수 있다.

3.5. 예보 강수량 정확도에 따른 예측 성능 저하 원인 분석

예측 시간이 증가함에 따라 정확도가 감소하는 패턴은 다양한 시계열 예측 연구에서 관찰된 바 있다[22-25]. 이러한 현상은 예측 대상 변수의 특성, 입력 자료의 불확실성, 특히 강수 예보의 정확도에 크게 좌우될 수 있다. 따라서 본 연구에서는 예보 강수량의 정확도가 저수위 예측 성능 저하에 미치는 영향을 평가하기 위해, 백록저수지와 백련저수지에서 1시간 및 12시간 예보 강수량과 실측 강수량을 비교 분석하였다. Fig. 7은 각 예보 시간대의 예보 강수량이 실측 강수량과 얼마나 일치하는지 나타내는 산점도이다.

Fig. 7.

Comparison of forecasted and measured precipitation by lead times.

1시간 예보에서 예보 강수량이 실측 강수량의 상관계수(r)는 백록저수지와 백련저수지에 대하여 각각 0.64, 0.58로 준수한 상관관계를 나타냈다. 반면, 12시간 예보 강수량에서는 실측과의 불일치가 증가하며 정확도가 낮아지는 경향을 보였다. 특히, 실측 또는 예보 강수량이 커질수록 두 강수량 값은 매우 큰 차이를 나타냈다. 이러한 장기 예보 강수량 자료의 정확도의 감소는 장기 예측 저수위 모델의 성능 저하 원인으로 작용할 수 있다. 예보 강수량이 부정확할 경우, 이를 입력 자료로 사용하여 예측한 저수위가 실측 저수위와의 차이를 보이게 되며, 특히 선행 시간이 길어질수록 그 영향이 크게 나타난다. 따라서, TPOT 및 RF 모델의 성능이 선행 시간이 증가할수록 감소하는 현상은 예보 강수량의 정확도가 저수위 예측 성능에 직접적인 영향을 미치는 것으로 판단된다. 추후 연구에서는 예보 강수량의 정확도를 개선하거나, 강수 예보 불확실성을 반영한 보정 방법을 추가하여 저수위 예측 모델의 정확성을 높이는 방안이 필요할 것이다.

추가적으로, 시간 지연 문제를 완화하기 위해, 저수지와 유역의 고유한 물리적 특성을 반영하는 지역 인자들을 모델에 추가하는 것도 하나의 방안이 될 수 있을 것으로 사료된다. 유역의 지형, 토양, 식생 및 토지 이용 특성 등은 저수지로 유입되는 강우의 반응 속도와 유출 특성에 영향을 미친다. 이러한 인자들을 포함시키면, 기상 예보만을 기반으로 하는 예측에서 발생할 수 있는 시간 지연 문제를 일정부분 완화할 수 있을 것이다. 이러한 유역 특성 인자들을 효율적으로 활용하기위해서는 다양한 환경 특성을 나타내는 저수지들을 하나로 통합한 대규모 학습이 필요할 것으로 판단되며, 이렇게 도출된 범용 모델은 다양한 저수지에 추가적인 학습과 최적화 과정 없이 실시간 적용이 가능할 것으로 판단된다.

4. 결론

본 연구에서는 농업용 저수지의 저수위 예측 성능을 향상시키기 위해 TPOT을 이용한 자동화 머신러닝 모델과 전통적인 RF 모델을 비교하여 분석하였다. 백록저수지와 백련저수지의 실측 자료를 이용하여 각각의 모델을 구축하고, 다양한 선행 시간대(1시간, 3시간, 6시간, 12시간)에 대해 NSE, R2, RMSE 등의 성능 지표를 활용해 예측 정확도를 평가하였다.

TPOT 모델은 모든 선행 시간대에서 RF 모델보다 높은 성능을 보였으며, 특히 장기 예측에서 더욱 안정적이고 정확한 결과를 제공하였다. TPOT의 자동화된 모델 선택 및 최적화 과정은 예측 성능 향상에 유리하게 작용하며, 각 시간대에 적합한 머신러닝 알고리즘을 자동으로 선정함으로써 RF 모델 대비 더욱 우수한 결과를 나타냈다. 시계열 그래프 분석에서는 TPOT 모델이 강우 이벤트를 포함한 모든 기간에 대해 안정적인 예측을 제공함을 확인할 수 있었다. 반면, RF 모델은 장기 예측에서 실측 자료와의 불일치가 자주 나타났으며, 특히 예보 강수량과 실측 강수량의 상관성이 낮아질 때 오차가 크게 발생했다.

또한, 예보 강수량의 정확도가 예측 성능에 미치는 영향을 분석한 결과, 선행 시간이 길어질수록 예보 강수량과 실측 강수량 간의 상관성이 낮아져 저수위 예측 성능이 감소하는 경향이 발견되었다. 이러한 결과는 향후 예보 강수량의 정확성을 개선하거나, 예보 불확실성을 반영한 모델 보정 방법의 도입이 필요함을 시사한다. 향후 본 연구에서 제시한 모델과 같이 높은 정확도와 안정적인 성능의 저수위 예측 모델을 활용한 저수지 운전 대응책을 수립한다면, 실시간 예측을 활용한 신속한 수위 조절이 가능할 것이다. 즉, 단기 예보 모델의 예측 결과에 따라 저수지의 현재 수위와 예상 강우량을 종합적으로 분석하고, 비상 상황에 대비해 사전에 배수 조치를 결정하는 것이 가능할 것으로 판단된다. 이러한 운전 대응책을 통해 강우로 인한 잠재적 리스크를 줄이고, 보다 효율적인 저수지 운영이 이루어질 수 있을 것으로 기대된다. 이를 통해 극한 강우나 국지성 호우로 인한 저수지 붕괴 위험을 사전에 예측하고, 이를 통해 저수지의 안전한 운영에 기여할 수 있을 것이다.

Acknowledgements

본 연구는 한국농어촌공사 농어촌연구원의 ‘재해예방계측 시범지구(4지구) 계측자료 분석을 통한 저수율 변화 분석’ 과제의 지원으로 수행되었음(과제번호 202408900001).

Notes

Declaration of Competing Interest

The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.

References

1. Han J. H, Lee D. J, Chung B. K. S. W, Jang W. S, Lim K. J, Kim J. Potential impacts of future extreme storm events on streamflow and sediment in Soyang-dam watershed. J. Korean Soc. Water Environ 33(2):160–169. 2017;
2. Ki B-M, Choi J-H. Effects of global warming on the estuarine wetland biogeochemistry. J. Korean Soc. Environ. Eng 33(8):553–563. 2011;
3. Bae C-Y, Jang A. A study on the ICT-based benefit improvement of the Chung-ju multipurpose dam for climate change. J. Korean Soc. Environ. Eng 40(8):303–313. 2018;
4. Kim J, Kwak J, Jun S, Lee S. M, Lee S, Kang J. N, Kang M. S. Analysis of flood control capacity of agricultural reservoir based on SSP climate change scenario. J. Korean Soc. Agric. Eng 63(5):49–62. 2021;
5. Schleiss A. J, Erpicum S, Matos J. Advances in spillway hydraulics: from theory to practice. Water 15(12):2161. 2023;
6. Ministry of Agriculture, Food and Rural Affairs (MAFRA) Press page https://www.mafra.go.kr/home/5109/subview.do?enc=Zm5jdDF8QEB8JTJGYmJzJTJGaG9tZSUyRjc5MiUyRjU2Mjg1NSUyRmFydGNsVmlldy5kbyUzRg%3D%3D, December(2020).
7. Yang M.-H, Nam W.-H, Kim H.-J, Kim T, Shin A.-K. Anomaly detection in reservoir water level data using the LSTM model based on deep learning. J. Korean Soc. Hazard Mitigation 21:71–81. 2021;
8. Choi S, Youn Y, Kang J, Park G, Kim G, Lee S, Jeong H, Lee Y. An artificial intelligence approach to waterbody detection of the agricultural reservoirs in South Korea using sentinel-1 SAR images. Korean J. Remote Sens 38:925–938. 2022;
9. Joo D, Lee S.-H, Choi G.-H, Yoo S.-H, Na R, Kim H, Oh C.-J, Yoon K.-S. Development of methodology for measuring water level in agricultural water reservoir through deep learning analysis of CCTV images. J. Korean Soc. Agric. Eng 65:15–26. 2023;
10. Kwon S.H, Ha C, Lee S. A study on the application of the agricultural reservoir water level recognition model using CCTV image data. J. Korea Water Res. Assoc 56:245–259. 2023;
11. Zhu S, Hrnjica B, Ptak M, Choiński A, Sivakumar B. Forecasting of water level in multiple temperate lakes using machine learning models. J. Hydrol 585:124819. 2020;
12. Zaji A. H, Bonakdari H. Robustness Lake water level prediction using the search heuristic-based artificial intelligence methods. ISH J. Hydraul. Eng 25:316–324. 2019;
13. Yaseen Z. M, Sulaiman S. O, Deo R. C, Chau K.-W. An enhanced extreme learning machine model for river flow forecasting: state-of-the-art, practical applications in water resource engineering area and future research direction. J. Hydrol 569:387–408. 2019;
14. Ehteram M, Ferdowsi A, Faramarzpour M, Al-janabi A. M. S, Al-Ansari N, Bokde N. D, Yassen Z. M. Hybridization of artificial intelligence models with nature inspired optimization algorithms for lake water level prediction and uncertainty analysis. Alexandria Eng. J 60(2):2193–2208. 2021;
15. Liang C, Li H, Lei M, Du Q. Dongting lake water level forecast and its relationship with the three gorges dam based on a long short-term memory network. Water 10(10):1389. 2018;
16. Olson R. S, Bartley N, Urbanowicz R. J, Moore J.H. Evaluation of a tree-based pipeline optimization tool for automating data science. In : in proceeding of the genetic and evolutionary computation conference 2016, GECCO’16. Denver. p. 485–492. 2016.
17. Joo D-H, Na R, Kim H-Y, Choi G-H, Kwon J-H, Yoo S-H. Analysis of the optimal window size of Hampel filter for calibration of real-time water level in agricultural reservoirs. J. Korean Soc. Agric. Eng 64(3):9–24. 2022;
18. Bae J-H, Park W-J, Lee S, Park T-S, Kim S-B, Kim J, Lim K-J. A study on time series cross-validation techniques for enhancing the accuracy of reservoir water level prediction using automated machine learning TPOT. J. Korean Soc. Agric. Eng 66(1):1–13. 2024;
19. Mena P, Borrelli R. A, Kerby L. Expanded analysis of machine learning models for nuclear transient identification using TPOT. Nucl. Eng. Des 390:111694. 2022;
20. Breiman L. Random forests. Mach. Learn 45:5–32. 2001;
21. Rigatti S. J. Random Forest. J. Insur. Med. 47(1):31–39. 2017;
22. Gauch M, Kratzert F, Klotz D, Nearing G, Lin J, Hochreiter S. Rainfall-runoff prediction at multiple timescales with a single Long-Short-Term Memory network. Hydrol. Earth Syst. Sci 25:2045–2062. 2021;
23. Kratzert F, Herrnegger M, Klotz D, Hochreiter S, Klambauer G. NeuralHydrology-Interpreting LSTMs in Hydrology, Explainable AI: Interpreting, Explaining and Visualizing Deep Learning In : Samek W, Montavon G, Vedaldi A, Hansen L. K, Müller K-R, eds. Springer. p. 347–362. 2019.
24. Gegenleithner S, Pirker M, Dorfmann C, Kern R, Schneider J. Long Short-Term Memory networks for real-time flood forecast correction: a case study for an underperforming hydrologic model. EGUsphere preprint. 2024;
25. Kontur I. Lead time VS. accuracy in hydrology forecasts. Period. Polytech. Civ. Eng 26(3-4):283–293. 1982;

Article information Continued

Fig. 1.

Locations and aerial views of the study reservoirs (left: Baekryeon Reservoir, right: Baekrok Reservoir).

Fig. 2.

An example machine learning pipeline including processes automated by TPOT.

Fig. 3.

Feature importance across different lead times.

Fig. 4.

Statistical analysis results to compare performance of RF and TPOT producing models.

Fig. 5.

Comparison of forecasted water levels in Baekrok reservoir by lead times.

Fig. 6.

Comparison of forecasted water levels in Baekryeon reservoir by lead times.

Fig. 7.

Comparison of forecasted and measured precipitation by lead times.

Table 1.

Input variables for reservoir water level prediction model.

Variable Description
BASE_DATE Julian day (1 to 365) used to learn the relationship between date and reservoir water level.
BASE_TIME Time of the day in 24-hour format (0 to 23).
OBS_PCP Observed precipitation at time t (mm).
OBS_WL Observed reservoir water level at time t (mm).
ACC_PCP_Hn Accumulated forecasted precipitation from t+1 to lead time (n; hours), using ultra short-term forecast for 1-5 hours and short-term forecast beyond 6 hours (mm).
PREV_WL_1H Reservoir water level observed 1 hour before time t (EL.m).
PREV_WL_2H Reservoir water level observed 2 hours before time t (EL.m).
PREV_WL_3H Reservoir water level observed 3 hours before time t (EL.m).
PREV_WL_4H Reservoir water level observed 4 hours before time t (EL.m).
PREV_WL_5H Reservoir water level observed 5 hours before time t (EL.m).
PREV_WL_6H Reservoir water level observed 6 hours before time t (EL.m).
PREV_WL_7H Reservoir water level observed 7 hours before time t (EL.m).
PREV_WL_8H Reservoir water level observed 8 hours before time t (EL.m).
PREV_WL_9H Reservoir water level observed 9 hours before time t (EL.m).
PREV_WL_10H Reservoir water level observed 10 hours before time t (EL.m).
PREV_WL_11H Reservoir water level observed 11 hours before time t (EL.m).
PREV_WL_12H Reservoir water level observed 12 hours before time t (EL.m).

t is the current time.

n is the lead time.

Table 2.

Results of the best pipeline for each reservoir water level prediction.

Reservoir Pipeline established by TPOT
Baekrok make_pipeline(StandardScaler(),SelectPercentile(percentile=54),RidgeCV(cv=tscv))
Baekryeon make_pipeline(SelectPercentile(percentile=54),LassoLarsCV(normalize=False, cv=tscv))

Table 3.

Statistical analysis results to compare performance of RF and TPOT producing models.

Reservoir Lead time Model NSE R2 RMSE (m)
Baekrok 1 hour RF 0.999 0.999 0.013
TPOT 0.999 0.999 0.006
3 hours RF 0.995 0.995 0.031
TPOT 0.995 0.995 0.017
6 hours RF 0.984 0.984 0.056
TPOT 0.980 0.993 0.053
12 hours RF 0.947 0.947 0.104
TPOT 0.932 0.989 0.098
Baekryeon 1 hour RF 0.977 0.977 0.153
TPOT 0.992 0.992 0.015
3 hours RF 0.963 0.963 0.195
TPOT 0.984 0.984 0.027
6 hours RF 0.884 0.884 0.345
TPOT 0.953 0.954 0.033
12 hours RF 0.740 0.740 0.517
TPOT 0.889 0.930 0.091