재해예방계측기 자료를 활용한 농업용 저수지의 유입량 예측: TANK 모형과 머신러닝 비교
Inflow Prediction for Agricultural Reservoirs Using Disaster Prevention Measurement Data: A Comparison of TANK Model and Machine Learning
Article information
Abstract
본 연구는 재해예방계측기가 설치된 농업용 저수지를 대상으로 TANK 모형과 머신러닝 중 하나인 RidgeCV 회귀모형의 유입량 예측 성능을 비교·분석하였다. 충청북도 보은군 백록저수지와 전북 특별자치도 순창군 난계저수지에 설치된 계측장비에서 수집된 강우량, 저수위, 유입량 자료를 활용하여 두 모형을 구축하였다. 강우-유입량 관계 분석을 통해 백록저수지는 4시간, 난계저수지는 8시간 이동평균 강우량이 RidgeCV의 입력자료로 선정되었다. 2024년 1월부터 8월까지의 자료로 모형을 보정한 결과, TANK 모형은 백록저수지에서 NSE 0.893, 난계저수지에서 NSE 0.502의 성능을 보였다. 반면 RidgeCV 모형은 백록저수지에서 NSE 0.989, 난계저수지에서 NSE 0.983으로 우수한 성능을 나타냈다. 검정 기간(2024년 9월~10월) 동안 TANK 모형의 성능은 백록저수지에서 NSE 0.141, 난계저수지에서 NSE 0.547로 크게 저하되었으나, RidgeCV 모형은 백록저수지에서 NSE 0.978, 난계저수지에서 NSE 0.984의 안정적인 성능을 유지하였다. 이는 RidgeCV 모형이 유입량 데이터와 최적 이동평균 강우량 간의 관계를 효과적으로 학습하고, 정규화를 통해 과적합을 방지했기 때문으로 판단된다. 본 연구 결과는 농업용 저수지의 유입량 예측에 있어 머신러닝 기법의 활용 가능성을 보여주며, 향후 다양한 알고리즘과 입력변수를 활용한 모형 개선 연구가 필요함을 시사한다.
Trans Abstract
This study compared the inflow prediction performance of the TANK model and Ridge regression for agricultural reservoirs equipped with disaster prevention measurement systems. Two models were developed using rainfall, water level, and inflow data collected from monitoring equipment installed at Baekrok Reservoir in Boeun-gun, Chungcheongbuk-do and Nangye Reservoir in Sunchang-gun, Jeollabuk-do. Through analysis of rainfall-inflow relationships, 4-hour moving average rainfall for Baekrok Reservoir and 8-hour moving average rainfall for Nangye Reservoir were selected as optimal input data for the RidgeCV model. For the calibration period from January to August 2024, the TANK model showed NSE values of 0.893 for Baekrok Reservoir and 0.502 for Nangye Reservoir. In contrast, the RidgeCV model demonstrated superior performance with NSE values of 0.989 for Baekrok Reservoir and 0.983 for Nangye Reservoir. During the validation period (September-October 2024), the TANK model's performance significantly deteriorated to NSE values of 0.141 for Baekrok Reservoir and 0.547 for Nangye Reservoir, while the RidgeCV model maintained stable performance with NSE values of 0.978 for Baekrok Reservoir and 0.984 for Nangye Reservoir. This superior performance of the RidgeCV model can be attributed to its effective learning of the relationship between inflow data and optimal moving average rainfall, as well as the prevention of overfitting through regularization. The results of this study demonstrate the potential of machine learning techniques for inflow prediction in agricultural reservoirs and suggest the need for further research on model improvement using various algorithms and input variables.
1. 서 론
업용 저수지는 농업 생산 활동에 필요한 용수를 안정적으로 공급하기 위한 핵심 수리 시설로, 우리나라의 농업 기반을 지탱하는 중요한 역할을 담당하고 있다. 전국적으로 17,000여 개의 농업용 저수지가 분포하고 있으며, 이 중 대부분은 50년 이상 경과된 노후 시설로 안전관리와 효율적 운영이 시급한 상황이다[1]. 특히 최근 기후변화로 인한 강우 패턴의 변화와 극한 기상 현상의 증가는 저수지 관리의 불확실성을 높이고 있어, 더욱 정확한 유입량 예측 기술의 필요성이 증대되고 있다[2].
저수지 유입량의 정확한 예측은 효율적인 물관리 계획 수립, 홍수 대비, 가뭄 대응 등 다양한 측면에서 중요하다. 전통적으로 저수지 유입량 예측에는 물리적 기반의 수문모형이 주로 활용됐다. 대표적인 모형으로는 TANK[3], SWAT(Soil and Water Assessment Tool) [4], HEC-HMS(the Hydrologic Engineering Center’s Hydrologic Modeling System) [5] 등이 있으며, 이 중 TANK 모형은 단순한 구조로 인해 적용이 용이하여 국내 농업용 저수지 유입량 예측에 널리 활용되어 왔다[6,7,8]. TANK 모형은 유역의 강우-유출 과정을 연속된 탱크로 개념화하여 모의하는 집중형 모형으로, 소규모 유역에서도 비교적 정확한 유입량 예측 결과를 제공한다.
그러나 최근에는 머신러닝과 딥러닝 기술의 발전과 함께 데이터 기반 접근법이 수문분야에서도 주목받고 있다[9]. 특히 회귀, 인공신경망, 랜덤 포레스트, 서포트 벡터 머신 등 다양한 머신러닝 기법이 유량 예측에 적용되어 기존 물리적 모형보다 우수한 성능을 보이는 사례가 증가하고 있다[10,11,12]. Chen 등[10]은 딥러닝을 적용하여 최대 20일 선행까지 일별 유량을 예측하기위한 프레임워크를 개발했으며, Adnan 등 [11]은 GBO 기반 하이퍼파라미터 최적화를 적용한 ANFIS 모델을 통해 산악 유역의 월별 유량 예측 정확도를 크게 향상시켰다. Rasouli 등[12]은 머신러닝을 이용하여 일별 유량을 예측했으며, 선행 예측 기간에 따라 적합한 입력자료를 제시하였다. 머신러닝 기법은 복잡한 비선형 관계를 효과적으로 학습할 수 있어, 강우-유출 과정과 같은 복잡한 수문 현상을 모의하기에 적합하다.
특히 Ridge 회귀는 일반 선형 회귀에 정규화 항을 추가하여 과적합을 방지하고 예측 안정성을 높인 기법으로, 제한된 데이터 환경에서도 비교적 안정적인 성능을 보이는 장점이 있다[13]. 이는 관측 자료가 충분하지 않은 국내 농업용 저수지 환경에 적합할 수 있다. 또한 머신러닝 기법은 새로운 관측 데이터가 추가될 때마다 모형을 갱신할 수 있어, 변화하는 유역 환경에 적응적인 예측이 가능하다는 장점이 있다.
그러나 국내 농업용 저수지를 대상으로 전통적인 수문모형과 머신러닝 기법의 유입량 예측 성능을 직접 비교한 연구는 제한적이다. 또한 최근에는 농림축산식품부와 한국농어촌공사가 주관하여 노후화된 농업용 저수지의 안전관리 강화 및 재해 예방을 목적으로 시행중인 재해예방계측사업을 통해 고해상도 유입량 및 강우량 시계열 데이터가 수집되고 있으나, 이를 활용하여 농업용 저수지의 유입량 예측을 진행한 연구는 매우 부족한 실정이다.
이에 본 연구에서는 충청북도 보은군의 백록저수지와 전북특별자치도 순창군의 난계저수지를 대상으로 TANK 모형과 머신러닝 기반의 Ridge 회귀 모형을 구축하고, 두 모형의 유입량 예측 성능을 비교・분석하였다. 이를 위해 재해예방계측기에서 수집된 고해상도 시계열 데이터를 이용하여 두 저수지의 유입량 예측 모형을 구축하였다. 그리고 TANK 모형과 Ridge 회귀 모형의 유입량 예측 성능을 정량적으로 비교・분석하였다. 마지막으로 두 모형의 장단점을 파악하고 농업용 저수지 유입량 예측을 위한 최적 모형 선정 및 활용 방안을 제시하였다. 본 연구의 결과는 농업용 저수지의 효율적인 운영과 관리를 위한 유입량 예측 기술 개발에 기여할 것으로 기대된다.
2. 재료 및 방법
2.1. 연구 대상지
본 연구는 충청북도 보은군 마로면에 위치한 백록저수지와 전북특별자치도 순창군 동계면에 위치한 난계저수지를 대상으로 수행되었다(Fig. 1). 두 저수지는 한국 농어촌공사에서 운영·관리하고 있으며, 2023년 재해예방 시범지구로 선정되어 유역 내에 계측장비가 설치되었다. 이를 통해 강우, 수위, 유량 등 유역 내 수문정보를 실시간으로 수집하고 있다. 설치된 계측장비는 세 종류로 구분된다. 첫째, 저수위・강우량계는 저수지의 수위 변화와 강우량을 동시에 계측하여 저수지 수위와 강우 간의 관계를 파악하는 데 활용된다. 둘째, 유량계는 유입하천의 수위와 유속을 레이더식으로 실시간 측정하여 정확한 유입량을 산정한다. 셋째, 유량계・강우량계는 유입하천의 유량과 해당 지점의 강우량을 동시에 계측함으로써 강우-유출 관계를 직접적으로 분석할 수 있는 장점이 있다.
Watershed boundaries and locations of hydrological monitoring equipment for (a) Baekrok and (b) Nangye reservoirs.
백록저수지의 주요 제원은 총 저수용량 818.1천 m3, 유역면적 1,520 ha, 유역배율 11.4, 제방 높이는 13.5 m, 제방 길이250 m이며 1981년도에 준공되었다. 유역 내에는 저수위・강우량계 1기(저수지 제방), 유량계 5기(유입하천 1~4, 6), 유량계・강우량계 2기(유입하천5, 7)가 설치되어 있다(Fig. 1a). 유량계와 유량계・강우량계는 저수지로 유입되는 본류와 지류들의 유입량을 정확히 파악하기 위해 주요 유입하천에 설치되었으며, 그 위치는 Fig. 1a에 표기하였다.
난계저수지는 총 저수용량 177.3천 m3, 유역면적 118 ha, 유역배율 10.0, 제방 높이는 19.8 m, 제방 길이 125 m이며, 1960년에 준공되었다. 저수위·강우량계 1기(저수지 제방), 유량계 4기(유입하천 1-2, 2, 3, 4), 유량계·강우량계 1기(유입하천 1-1)가 설치되어 있다(Fig. 1b).
2.2. 저수지 유입량 예측을 위한 입력자료 수집
본 연구에서는 TANK 모형과 머신러닝 기반 유입량 예측 모델의 입력자료를 구축하기 위해 강우량, 저수지 저수위, 유입량, 잠재증발산량 산정을 위한 기상자료를 수집하였다. 수집된 자료는 모형의 요구에 따라 일 단위 또는 시간 단위로 전처리되었으며, 세부적인 자료의 수집 방법 및 처리 과정은 다음과 같다.
2.2.1. 수위 및 유입량 자료
수위자료는 한국농어촌공사 농촌용수종합정보시스템(RAWRIS)을 통해 제공받은 1시간 단위 관측자료를 사용하였다. 유입량 자료는 레이더식 수위·유속 복합 센서를 통해 계측된 수위와 유속값을 바탕으로 1시간 단위로 산정했다. 백록저수지의 경우, 하천망에 표기되지 않는 소규모 지류 2개가 유입되며, 각 지류의 말단부에 설치된 유입하천1 유량계와 유입하천2 유량계에서 측정된 유량을 합산하여 저수지의 총 유입량으로 간주하였다(Fig. 1a). 난계저수지는 1개의 유입지류가 존재하며, 지류 말단에 설치된 유입하천4 유량계의 자료를 2024년 1월 1일부터 2024년 10월 31일까지 활용하였다. TANK 모형 입력자료로 사용하기 위해 매일 1시부터 다음날 0시까지의 유입량을 합산하여 일 단위 유입량으로 변환하였으며, 머신러닝 모델에서는 시간 단위 자료를 그대로 입력자료로 활용하였다.
2.2.2. 강우자료
강우자료는 백록저수지(3개소)와 난계저수지(2개소)에 설치된 압전식 강우량계를 통해 수집했다. 유역별 대표 강우량 지점을 선정하기 위해, 강우량과 저수지 수위 변화량 간의 상관관계 분석을 수행하였다. 유역 특성에 따른 지체시간을 고려하기 위해 단일 시간 강우량뿐만 아니라, 4시간, 8시간, 12시간, 16시간, 20시간의 이동평균 강우량을 산정하였다 [14]. 각 강우량 값과 수위 변화량 간의 상관계수를 비교하여 대표지점을 선정하였다. 수위 변화량은 해당 시점의 수위에서 1시간 전 수위를 뺀 값으로 정의했다.
상관관계 분석에는 두 저수지에서 재해예방계측기 설치 시점부터 2024년 10월 31일 23시까지의 시간 단위 자료를 사용하였다. 백록저수지는 2023년 12월 18일 17시부터, 난계저수지는 2023년 12월 1일 0시부터 자료를 활용하였다. 수집된 강우자료 중 겨울철(12월)에 기록된 시간당 50mm 이상의 비정상적 강우량은 이상치로 판단하여 제거하였으며, 결측치는 동일 유역 내 인근 강우량계의 평균값으로 대체하였다.
2.2.3. 기상자료 및 잠재증발산량 산정
잠재증발산량(ETo) 산정을 위해 최고・최저기온, 이슬점온도, 상대습도, 풍속, 일조시간을 포함한 기상자료를 수집하였다. 해당자료는 기상청에서 운영하는 기상관측소의 일 단위 관측자료를 활용하였다. 백록저수지는 보은 관측소, 난계저수지는 순창 관측소의 자료를 이용하였다(Fig. 1). 기상자료는 2024년 1월 1일부터 2024년 10월 31일까지의 기간을 대상으로 하였다. 수집된 기상자료를 바탕으로 FAO-56 Penman-Monteith[15] 방법을 적용하여 잠재증발산량을 산정하였다. 산정된 결과는 TANK 모형의 입력자료로 활용되었다.
2.3. TANK 모형의 개요 및 구축
2.3.1. TANK 모형 선정 및 구조
본 연구에서는 유역면적이 소규모인 대상지의 특성상 대규모 유역에 주로 활용되는 분포형 강우-유출 모형이 아닌 집중형 모형을 채택하였다. 특히 K-Water, 한국건설기술연구원, 한국농어촌공사 등 다양한 국가기관에서 수자원 계획 수립과 분석에 널리 활용하고 있는 4단 TANK 모형[16]을 선정하였다.
TANK 모형은 강우-유출 과정을 단순한 탱크 구조로 모사하는 개념형 모형으로, 유역의 수문학적 반응을 여러 개의 연결된 탱크를 통해 표현한다. 본 연구에서는 표준 4단 TANK 구조에 토양수분 저류구조를 추가한 확장형 TANK 모형을 사용하였다. 이 확장형 모델은 토양수분 변화를 명시적으로 고려함으로써 농업용 저수지 유역의 수문 특성을 더 정확히 반영할 수 있다. 모형의 입력자료는 일단위 강우량과 잠재증발산량이며, 출력은 일단위의 유입량(m³/s)이다.
2.3.2. 매개변수 보정
TANK 모형의 최적화를 위해 기존 연구사례[15]를 바탕으로 10개의 매개변수를 보정하였다. 보정은 2024년 1월 1일부터 2024년 8월 31일까지의 기간을 대상으로 수행하였다. 나머지 기간인 2024년 9월 1일부터 10월 31일까지를 모형 검정기간으로 선정하였다.
매개변수들은 각 TANK의 유출공 계수와 침투공 계수 및 토양 수분 저류 관련 변수로 구성된다. 매개변수를 살펴보면, A0은 1단 TANK의 침투공 계수, A1은 1단 TANK 하부 유출공 계수, A2는 1단 TANK의 상부 유출공 계수, B0는 2단 TANK의 침투공 계수, B1은 2단 TANK 유출공 계수, C0는 3단 TANK의 침투공 계수, C1은 3단 TANK 유출공 계수, D1은 4단 TANK 유출공 계수, HA1은 1단 TANK 하부 유출공 높이, HA2는 2단 TANK의 유출공 높이를 나타낸다. TANK 모형의 매개변수 초기값은 국토해양부의 수자원장기종합계획(2011~2020) 수립을 위한 연구보고서[18]에서 제시된 중권역별 값을 바탕으로 설정하였다. 백록저수지는 보청천, 난계저수지는 오수천의 매개변수를 초기값으로 적용하였다.
매개변수의 보정은 일반적으로 시행착오법과 최적화 방법으로 구분할 수 있다. 시행착오법은 연구자가 직접 매개변수를 조정함에 따라 많은 시간이 소요되며 주관적 판단이 개입될 가능성이 있다. 반면, 최적화 기법은 계산 시간을 단축할 수 있으나 물리적 특성이 고려되지 않은 매개변수 선택 가능성이 존재한다. 본 연구에서는 이러한 두 방법의 단점을 최소화하기 위하여, 포트란 기반의 매개변수 최적화 프로그램[19]을 적용하였다. 모든 매개변수에 대해 초기값 대비 -50%에서 +50%까지 5% 간격으로 변화시키며 최적 조합을 탐색하였다. 이는 전체 파라미터 공간을 체계적으로 탐색함으로써 예측 성능을 향상시키기 위한 접근법이다. 보정 과정에서는 관측 유량과 모의 유량을 비교하여 최적값을 결정하였고, 이 때 목적함수로는 NSE(Nash-Sutcliffe Efficiency)와 R2(Coefficient of Determination), ROV(Ratio of Volume)를 사용하였다.
여기서, OBSi와 SIMi는 각각 실측값과 모의값이며,
2.4. 머신러닝 모델의 개요 및 구축
2.4.1. Ridge 회귀모형 선정
본 연구에서는 머신러닝 기법 중에서도 선형 회귀 기반의 Ridge 회귀모형을 선택하였다. Ridge 회귀는 일반 선형 회귀에 L2 정규화 항을 추가하여 과적합을 방지하는 기법으로, 농업용 저수지와 같은 소규모 유역의 제한된 데이터 환경에서 안정적인 성능을 발휘할 수 있다. 또한 모델의 해석이 용이하고 계산 효율성이 높아 실시간 예측 시스템 구축에 적합하다는 장점이 있다[13].
Ridge 회귀는 결정나무(decision tree) 기반과 같은 비선형 모델에 비해 학습하지 않은 데이터에 대한 일반화 성능이 우수하다는 장점이 있으며, 특히 기후변화로 인한 이상 강우와 같은 상황에서도 비교적 안정적인 예측 결과를 도출할 가능성이 있다. 그 중에서도 본 연구에서는 하이퍼파라미터인 규제계수(Alpha) 값을 교차검증을 통해 자동으로 선정할 수 있는 RidgeCV 모델[20]을 채택하였다.
2.4.2. Ridge 모델 구축
모델의 입력자료는 상관분석을 통해 선정된 재해예방계측기의 대표 강우량과, 1시간 전 유입량이다. 이를 기반으로 현재 시간의 유입량을 예측하였다. RidgeCV 모델의 규제계수(Alpha)는 과적합을 방지하면서도 예측 성능을 최대화하기위해 교차검증을 통해 최적값을 선정하였다. 본 연구에서는 머신러닝과 수문모형(TANK) 간의 용어 통일을 위해, 머신러닝 분야에서 일반적으로 사용되는 ‘학습(training)’과 ‘테스트(testing)’ 대신 수문모형 모의 평가를 위해서 사용하는 ‘보정(calibration)’과 ‘검정(validation)’이라는 용어를 동일하게 적용하였다. RidgeCV 모델은 TANK 모형과 동일한 기간(2024년 1월 1일 0시~2024년 10월 31일 23시)의 자료를 이용하여 구축하였다. 2024년 8월 31일까지의 데이터를 모형 보정에 사용하였고, 2024년 9월 1일부터 10월 31일까지 기간에 대하여 유입량을 예측하는 검정을 수행하였다. 예측된 시간 단위 유입량은 1시부터 다음날 0시까지 합산하여 일 단위 유입량으로 변환함으로써 TANK 모형의 결과와 동일한 단위에서 비교할 수 있도록 처리하였다. 모형의 성능은 TANK 모형과 동일하게 NSE, R2, ROV를 이용하여 평가하였다.
3. 결과 및 고찰
3.1. 대표 강우량 선정 결과
TANK 모형과 RidgeCV 모델에 사용할 입력자료 구축을 위해 백록저수지에 설치된 강우량계 3개소와 난계저수지 2개소를 분석하여 저수지별 대표 강우량 관측 지점을 선정하였다. 대표 강우량 지점 선정을 위해 강우량과 저수지 수위 변화량 간의 상관관계 분석을 수행하였다. 유역 특성에 따른 유역 반응 시간을 고려하기 위해 단일 시간 강우량뿐만 아니라, 4시간, 8시간, 12시간, 16시간, 20시간 이동평균 강우량을 산정하여 함께 분석하였다(Fig. 2). 이동평균 강우량은 강우가 유역을 통과하여 저수지로 유입되는 지체시간을 고려하기 위한 것으로, 유역 반응의 지연 효과를 반영할 수 있다.
Correlation analysis between reservoir water level changes and various rainfall data with different moving average periods for (a) Baekrok Reservoir and (b) Nangye Reservoir.
분석 결과, 백록저수지에서는 저수지 제방에 설치된 강우량계의 4시간 이동평균 강우량 자료가 가장 높은 상관계수를 나타냈다. 난계저수지에서도 저수지 제방에 설치된 강우량계가 더 높은 상관관계를 나타냈고, 그 중에서도 8시간 이동평균 강우량 자료가 가장 높은 상관계수를 나타냈다. 따라서 TANK 모형의 강우량 입력자료는 백록저수지와 난계저수지 모두 저수지 제방에 설치된 강우량계 자료를 이용하였다. 또한 RidgeCV 모델의 입력 자료로는 백록저수지는 4시간 이동평균 강우량, 그리고 난계저수지는 8시간 이동평균 강우량을 이용하였다. 이러한 차이는 두 저수지의 유역 크기와 형상, 지형적 특성에 따른 유역 반응 시간의 차이에서 기인한 것으로 판단된다.
3.2. TANK 모형 보정 기간 예측 결과
TANK 모형의 매개변수는 2024년 1월 1일부터 8월 31일까지의 학습 기간을 대상으로 보정되었다. 보정 결과, 백록저수지의 유입량 모의에 대한 성능은 NSE 0.893, R2 0.919, ROV 0.944로 나타났다. 백록저수지는 높은 NSE와 R2값을 통해 관측 유입량에 대해 모형의 모의값이 우수하게 재현됨을 확인하였다. ROV가 0.944로 전체 예측 유입량 총합이 실측 유입량 총합 대비 5.6% 과소 예측되어, 유입량 총량의 재현도 또한 양호하게 나타났다. 시계열 그래프(Fig. 3a)를 통해 보더라도 TANK 모형의 모의 유입량이 실측 유입량의 시간적 변화와 그 크기를 전반적으로 잘 모의했다는 것을 확인할 수 있다.
Comparison of observed and simulated inflows by the TANK model during the calibration period from Jan. 1, 2024 to Aug. 31, 2024: (a) Baekrok Reservoir and (b) Nangye Reservoir.
난계저수지는 NSE 0.502, R2 0.691, ROV 0.693으로 산정되었다. 난계저수지에서는 상대적으로 낮은 NSE, R2, ROV를 보여, 백록저수지에 비해 예측 정확도와 총량 재현 모두 낮은 성능을 보였다. ROV가 0.693으로 예측 유입량 총합이 실측 유입량 총합 대비 30.7% 과소 예측됐다. 시계열 그래프(Fig. 3b)에서도 이러한 수치들과 일치하는 결과가 나타났다. 유입량의 시간적 변화 패턴은 전반적으로 재현을 잘 했으나, 유입량 값은 전체적으로 과소 예측되는 경향을 보였다.
두 저수지 모두 학습기간 동안 7월 이전의 구간에서는 유입량이 과소 산정되는 경향이 관측되었다. 반면 강우가 집중되는 7월과 8월에는 과대 산정되는 경향을 보였다(Fig. 3). 이는 TANK 모형이 지닌 단순화된 유출 구조가 유입 반응의 시간 지연을 정확히 모의하지 못하는 한계를 보여준다. 특히 난계저수지와 같이 하천 규모가 작고 유입량의 절대값이 매우 작은 경우에는 정확한 모의에 더 큰 한계가 있는 것으로 해석된다. 이는 TANK 모형의 매개변수가 유역 전체의 평균적인 특성을 반영하도록 설계되어 있어, 소규모 유역의 국지적 특성을 완벽하게 반영하기 어렵기 때문으로 판단된다.
3.3. RidgeCV 모형 보정 기간 예측 결과
RidgeCV 모형을 이용하여 2024년 1월 1일부터 8월 31일까지의 보정 기간을 대상으로 유입량을 예측하였다. 백록저수지의 유입량 예측에 대한 성능은 NSE 0.989, R2 0.995, ROV 0.995로 세 지표 모두 매우 높은 값을 나타냈다. 백록저수지는 높은 NSE와 R2 값을 통해 관측 유입량에 대해 모형의 예측값이 우수하게 재현됨을 확인하였다. ROV가 0.995로 전체 예측 유입량 총합이 실측 유입량 총합 대비 0.5% 과소 예측되어, 유입량 총량의 재현도 또한 매우 양호하게 나타났다. 시계열 그래프(Fig. 4(a))를 통해 보더라도 RidgeCV 모형의 예측 유입량이 실측 유입량의 시간적 변화와 그 크기를 매우 정확히 재현했다는 것을 확인할 수 있다.
Comparison of observed and simulated inflows by the RidgeCV model during the calibration period from Jan. 1, 2024 to Aug. 31, 2024: (a) Baekrok Reservoir and (b) Nangye Reservoir.
난계저수지는 NSE 0.983, R2 0.995, ROV 0.958로 산정되어 예측 정확도와 총량 재현 모두 매우 정확한 것으로 나타났다. ROV가 0.958로 예측 유입량 총합이 실측 유입량 총합 대비 4.2% 과소 예측됐다. 시계열 그래프(Fig. 4(b))에서도 RidgeCV 모형은 높은 정확도를 나타냈다. 하지만 유입량의 시간적 변화 패턴도 정확히 예측했으나, 첨두유량과 감수부가 다소 과소예측되는 패턴이 관측되었다.
3.4. 검정 기간 유입량 예측 결과
보정된 TANK 모형과 RidgeCV 모형을 이용하여 2024년 9월 1일부터 10월 31일까지의 검정 기간에 대한 유입량 예측 결과를 분석하였다. 두 모형의 저수지별 예측 성능은 Table 1에 제시되어 있으며, 시계열 그래프는 Fig. 5와 같다. 백록저수지의 경우, TANK 모형은 NSE 0.141, R2 0.705, ROV 1.657로 보정 기간에 비해 현저히 낮은 성능을 보였다. 특히 NSE가 매우 낮고 ROV가 1.657로 유입량을 약 65.7% 과대 예측하는 경향을 나타냈다. 반면, RidgeCV 모형은 NSE 0.978, R2 0.991, ROV 1.002로 검정 기간에서도 매우 높은 성능을 유지하였다. ROV가 1.002로 유입량 총량을 거의 정확하게 예측하였으며, 시계열 패턴도 매우 정확하게 재현하였다(Fig. 5a). 난계저수지에서도 유사한 경향이 관찰되었다. TANK 모형은 NSE 0.547, R2 0.942, ROV 1.567로 백록저수지보다는 높은 성능을 보였으나, 여전히 유입량을 약 56.7% 과대 예측하는 경향을 나타냈다. 반면, RidgeCV 모형은 NSE 0.984, R2 0.989, ROV 1.007로 매우 높은 예측 정확도를 유지하였다. 난계저수지에서도 RidgeCV 모형은 유입량 총량과 시계열 패턴을 모두 정확하게 예측하였다(Fig. 5b)
Performance evaluation of the TANK and RidgeCV models during the validation period (Sep. 1, 2024 to Oct. 31, 2024).
Comparison of observed and simulated inflows during the validation period (Sep. 1, 2024 to Oct. 31, 2024): (a) Baekrok Reservoir and (b) Nangye Reservoir.
두 모형의 성능 차이는 모형의 구조적 특성과 관련이 있는 것으로 판단된다. TANK 모형은 개념적 매개변수를 기반으로 하므로, 보정 기간과 검정 기간의 수문 조건이 다를 경우 예측 성능이 크게 저하될 수 있다[21]. 특히 백록저수지에서 TANK 모형의 검정 성능이 현저히 낮아진 것은 9월과 10월의 강우-유출 패턴이 보정 기간과 상이했기 때문으로 해석된다. 이러한 결과는 TANK 모형이 기후변화로 인한 강우 패턴 변화에 대응하는 데 한계가 있음을 시사한다. 반면, RidgeCV 모형은 두 저수지 모두에서 보정 기간과 유사한 높은 예측 성능을 유지하였다. 이는 RidgeCV 모형이 다양한 수문 조건에서도 안정적인 예측이 가능하다는 것을 의미한다. 특히 Ridge 회귀의 정규화 특성은 과적합을 방지하여 미래 데이터에 대한 일반화 성능을 향상하는데 기여한 것으로 보인다 [13].
종합적으로, 농업용 저수지의 유입량 예측에 있어 RidgeCV 모형이 TANK 모형보다 더 높은 정확도와 안정성을 제공하는 것으로 나타났다. 다만, TANK 모형은 유역의 물리적 특성을 반영할 수 있어 장기 예측에 활용 가능성이 있는 반면, RidgeCV 모형은 충분한 학습 데이터가 있는 조건에서 단기 예측에 더 적합할 것으로 판단된다. 따라서 저수지 운영 목적과 가용 데이터에 따라 두 모형의 적절한 활용이 필요하다.
4. 결론
본 연구에서는 충청북도 보은군의 백록저수지와 전북특별자치도 순창군의 난계저수지를 대상으로 TANK 모형과 머신러닝 기반의 RidgeCV 모형을 구축하여 유입량 예측 성능을 비교·분석하였다. 두 저수지에 설치된 재해예방계측기 관측 자료를 이용하여 모형을 구축하고, 2024년 1월부터 8월까지의 자료로 보정한 후 9월부터 10월까지의 기간에 대해 검정을 수행하였다.
대표 강우량 선정을 위한 상관관계 분석 결과, 백록저수지는 4시간 이동평균 강우량, 난계저수지는 8시간 이동평균 강우량이 저수지 수위 변화와 가장 높은 상관관계를 보였다. 이는 유역 특성에 따른 유역 반응 시간의 차이를 반영한 결과로 판단된다. 이렇게 선정된 대표 강우량은 두 모형의 주요 입력자료로 활용되었다.
검정 기간에 대해서 TANK 모형과 RidgeCV 모형의 유입량 예측 성능을 비교분석한 결과 두 모형 간의 뚜렷한 성능 차이를 확인하였다. TANK 모형의 성능은 보정 기간 대비 크게 저하되어 백록저수지에서 NSE 0.141, ROV 1.657, 난계저수지에서 NSE 0.547, ROV 1.567로 유입량을 상당히 과대 예측하는 경향을 보였다. 반면, RidgeCV 모형은 검정 기간에도 보정 기간에서 보여주었던 안정적인 성능을 유지하여 백록저수지에서 NSE 0.978, ROV 1.002, 난계저수지에서 NSE 0.984, ROV 1.007의 높은 예측 정확도를 보였다.
두 모형의 성능 차이는 구조적 특성에서 기인하는 것으로 판단된다. TANK 모형은 물리적 개념에 기반한 매개변수를 사용하여 강우-유출 과정을 모의하므로 새로운 수문 조건에 적응하는 데 한계가 있는 반면, RidgeCV 모형은 최근 유입량 데이터와 최적 이동평균 강우량 간의 직접적인 관계를 학습함으로써 다양한 수문 조건에서도 안정적인 예측 성능을 보였다.
본 연구 결과, 농업용 저수지의 유입량 예측에 있어 RidgeCV와 같은 머신러닝 기법이 TANK 모형보다 더 높은 정확도와 안정성을 제공하는 것으로 나타났다. 다만, 머신러닝 모형은 충분한 학습 데이터가 필요하며 데이터의 질에 크게 의존한다는 한계가 있다. 따라서 저수지 운영 목적과 가용 데이터에 따라 두 모형의 적절한 활용이 필요하며, 장기 예측이나 극한 상황에 대한 대응을 위해서는 두 모형의 장점을 결합한 하이브리드 접근법도 고려해볼 수 있다.
본 연구는 계측 기간이 짧아 계절성 및 극한사상 등 수문학적 특성을 반영하기에는 한계가 있었다. 따라서 향후 장기간 관측 자료를 활용하여 수문학적 연차 주기를 충분히 아우르는 보정·검증을 수행할 필요가 있다. 또한 다양한 농업용 저수지에 대한 추가 검증과 함께, 더 많은 입력변수 및 다양한 머신러닝 알고리즘의 적용을 통해 유입량 예측 모형의 성능을 개선할 필요가 있다. 특히 본 연구에서는 단일 머신러닝 모델인 RidgeCV만을 사용하였으나, 후속 연구에서는 랜덤 포레스트, 서포트 벡터 머신, 인공신경망 등 다양한 머신러닝 기법을 비교 분석하고, 각 모델의 장점을 결합한 앙상블 모델을 구축하여 예측 정확도를 더욱 향상시킬 필요가 있다. 또한 기후변화로 인한 강우 패턴 변화에 대응할 수 있는 모형 개발 및 실시간 예측 시스템 구축에 관한 연구도 필요하다. 이러한 노력을 통해 농업용 저수지의 효율적인 운영과 물관리 의사결정을 지원할 수 있을 것으로 기대된다.
Notes
Declaration of Competing Interest
The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.
