결측치를 포함한 데이터 셋에서의 장단기 메모리 알고리즘의 성능 평가

Assessing the Performance of a Long Short-Term Memory Algorithm in the Dataset with Missing Values

Article information

J Korean Soc Environ Eng. 2022;44(12):636-642
Publication date (electronic) : 2022 December 31
doi : https://doi.org/10.4491/KSEE.2022.44.12.636
1Department of Environmental Engineering, Gyeongsang National University, Republic of Korea
박현건1orcid_icon, 서상익1orcid_icon, 조경철1orcid_icon, 장진욱1orcid_icon, 기서진1,orcid_icon
1경상국립대학교 환경공학과
Corresponding author E-mail: seojinki@gnu.ac.kr Tel: 055-772-3341 Fax: 055-772-3484
Received 2022 December 9; Revised 2022 December 15; Accepted 2022 December 15.

Abstract

본 연구는 결측치가 있는 다변수 데이터 셋에서 시계열 예측에 적합한 장단기 메모리 알고리즘의 성능을 평가하고자 수행되었다. 채택된 장단기 메모리 알고리즘을 위한 전체 데이터 셋은 인지도가 높은 유역 모델 HSPF를 남강 상류 유역을 대상으로 2016년부터 2018년까지 3년간 일 단위로 구동하여 준비되었다. 장단기 메모리 모델의 정확도는 다양한 보간 방법, 그리고 (종속 변수들의) 결측치 개수 및 (고정된 결측치 개수를 포함하는 단일 또는 다중) 독립 변수 개수의 변화에 따라 평가되었다. 전체 데이터 셋은 7:3의 비율로 훈련 및 테스트 데이터 셋으로 분리되었다. 주요 결과로서 다른 보간 방법은 장단기 메모리 모델의 성능에는 큰 변화를 야기하는 것으로 조사되었다. 다양한 보간 방법 중 StructTS and RPART 기법이 유량과 총인의 결측치를 복원하는 최적의 대체 방법으로 선정되었다. 장단기 메모리 모델의 예측 오차는 결측치의 개수가 300에서 700으로 증가할 때 점진적으로 증가하는 것으로 조사되었다. 그러나, 장단기 메모리 모델은 개별 종속 변수에 적합한 보간 방법이 적용될 경우 심지어 대규모의 결측치가 존재하는 데이터 셋에서 성능을 잘 유지하는 것으로 평가되었다. 장단기 메모리 모델의 성능은 고정된 결측치 개수를 포함하는 독립 변수의 개수가 1에서 7로 증가함에 따라 보다 감소하는 것으로 조사되었다. 제안된 방법론은 실시간 모니터링 데이터 셋의 결측치를 우수한 성능으로 복원하고자 할 때 사용될 수 있고, 또한 (시계열) 심층학습 모델의 예측 정확도를 향상하는데 사용될 수 있을 것으로 기대된다.

Trans Abstract

This study was conducted to assess the performance of a long short-term memory algorithm (LSTM), which was suitable for time series prediction, in the multivariate dataset with missing values. The full dataset for the adopted LSTM model was prepared by running a popular watershed model Hydrological Simulation Program-Fortran (HSPF) in the upper Nam River Basin for 3 years from 2016 to 2018, excluding a one-year warm-up period, on a daily time step. The accuracy of prediction for the LSTM model was evaluated in response to various interpolation methods as well as changes in the number of missing values (for dependent variables) and independent variables (containing a fixed number of missing values for either single or multiple variables). Note that the entire dataset is divided into training and test datasets at a ratio of 7:3. Results showed that different interpolation methods resulted in a considerable variation in performance of the LSTM model. Out of them, StructTS and RPART were selected as the best imputation methods recovering missing values for discharge and total phosphorus, respectively. The prediction error of the LSTM model increased gradually with increasing the number of missing values from 300 to 700. The LSTM model, however, appeared to maintain its performance fairly well even in data sets with a large amount of missing values as long as adequate interpolation methods were adopted for each dependent variable. The performance of the LSTM model degraded further as the number of independent variables containing the fixed number of missing values increased from 1 to 7. We believe that the proposed methodology can be used not only to reconstruct missing values in a real-time monitoring dataset with excellent performance, but also to improve the accuracy of prediction for (time series) deep learning models.

1. 서 론

최근 하천환경의 원격 모니터링 기술이 진화하고 컴퓨팅 자원 활용이 용이해짐에 따라 효율적인 수자원 관리를 위한 다양한 예측모델이 개발되고 고도화되고 있다[1,2]. 특히, 인공지능 기반(기계학습 및 심층학습 등) 예측모델의 경우 기후변화로 인한 가뭄, 녹조, 부영양화 등 수자원 및 수질 문제에 대한 우려가 점차 증가하면서 기존의 공정기반 모델 및 통계적 기법과 병행하여 활용할 수 있는 유용한 도구로 평가되고 있다[3,4]. 또한, 기상, 수문, 생태계 등 다양한 분야의 데이터와 연계를 통해 예측평가를 수행할 수 있는 장점으로 인하여 국내외에서 활용 사례가 나날이 증가하고 있다[5,6]. 인공지능 기반 예측모델의 경우 정확성 및 연산속도 측면에서 개선이 지속되고 있으며, 이에 따라 하천환경관리를 위한 효율적인 의사결정을 지원하는 도구로서 큰 역할을 할 것으로 기대되고 있다[7,8].

국립환경과학원 및 환경부 등 국내의 다양한 공공기관에서는 효율적인 수질관리 정책을 지원하기 위하여 하천 수질 및 유량 데이터를 지속적으로 확보하고 있다[9,10]. 2022년 기준 물환경보전법 제9조(수질의 상시측정 등) 등의 법령에 근거하여 다양한 수질측정망이 전국 4대강 대표지점 및 주요 지점을 대상으로 상시 운영 중에 있다[11]. 특히, 실시간 자동측정망의 경우 주 1회로 운영되는 기존의 수동 수질측정망에 비하여 수질 상태를 보다 신속하게 파악할 수 있는 장점이 있으며, 향후 관련 인프라도 점진적으로 확대될 것으로 예측되고 있다[12]. 이러한 추세에 발맞추어 고해상도 자료에 특화된 다양한 기계학습 및 심층학습 기반 예측모델 개발이 진행 중에 있으며[13,14], 다만 고해상도 자료의 경우 장비 오류 등으로 인한 결측 자료가 필연적으로 발생하는 문제점이 있어 이를 효과적으로 보간하고 모델의 성능을 향상하는 연구가 지속적으로 필요한 실정이다[15,16].

따라서 본 연구는 시계열 고해상도 자료에 존재하는 결측 데이터에 대응하여 심층학습 기반 예측모델의 성능을 향상하기 위한 방안을 제시하고자 수행되었다. 보다 구체적으로는 보간 방법, 결측치의 개수 및 다항목 결측이 심층학습 기반 예측모델의 성능 변화에 미치는 영향을 분석하였다. 본 연구결과는 향후 확대되고 있는 원격 모니터링 자료 보간 및 인공지능 기반 예측모델 고도화에 유용하게 활용될 수 있을 것으로 기대된다.

2. 실험방법

2.1. 연구 대상 지역 선정 및 입력 데이터 구축

본 연구에서는 남강 상류 유역을 연구 대상 지점으로 선정하였다(Fig. 1). 선정된 유역에서 심층학습 기반 예측모델의 입력 자료를 구축하기 위해 자동측정망의 관측 데이터 대신 유역 모델을 활용한 최종 말단지점의 시뮬레이션 결과를 사용하였다. 이러한 주된 사유는 일반적으로 자동측정망 확정자료의 경우 연도별로 변화가 있지만 결측값이 다수 존재하고 유량 자료가 부재하기 때문에 결측값에 대응한 심층학습 기반 예측모델의 다양한 성능 평가가 어렵다고 판단했기 때문이다.

Fig. 1.

The upper Nam River Basin selected in this study. A total of 5 sub-basins was delineated from HSPF.

입력 데이터 생성을 위한 유역 모델로는 국내외 연구자에게 가장 광범위하게 활용되고 있는 HSPF(Hydrological Simulation Program-Fortran) 모델을 사용하였다. HSPF 모델의 기본 입력 자료로 국가공간정보포털, 물환경정보시스템, 환경공간정보서비스에서 각각 제공되는 90m 해상도의 수치표고모델, 하천도 및 유역도, 5,000:1 축척의 토지피복도가 사용되었다. HSPF 모델의 추가 입력 자료로는 기상자료개방포털을 통해 연구 대상 지역에 12개의 종관기상관측장비(ASOS, 2개) 및 방재기상관측장비(AWS, 10개)에서 제공되는 일 단위 이하의 기온 및 강우량자료, 풍속, 이슬점온도, 일사량, 전운량 자료가 사용되었다. 또한, WDMutil 프로그램을 통해 산정된 시간 단위 증발량 및 잠재증발산량이 사용되었고, 물정보포털에서 제공되는 일 단위 남강댐 운영자료(유량)가 사용되었다. 이외 평가 대상 유역에 전국오염원조사를 통해 제공되는 점오염원과 비점오염원 부하량 자료를 사용하였다. 구축된 입력 자료의 결측치가 일부 존재하는 경우 선형 보간법을 이용하여 보간 하였다.

시뮬레이션은 2015년 1월부터 2018년 12월까지 수행되었으며, 안정화 기간은 초기 1년으로 설정되었다. 안정화 기간을 제외한 전체 모의 기간 동안 HSPF 모델의 시뮬레이션 결과의 정확도는 일 단위 유량(Discharge)을 기준으로 R2 = 0.89, 일 단위 총인(Total phosphorus, T-P)을 기준으로 PBIAS (Percent BIAS) = 12.95를 기록하여 연구 대상 지역에 우수한 모의가 수행되었음을 확인하였다. 유량(Discharge) 및 총인(T-P)을 포함한 총 3년간(2016년-2018년)의 HSPF 모델의 주요 입력 자료 및 출력 결과(총 8개 변수)는 Table 1에 제시되어 있다.

Summary statistics of major input and output variables provided to and from HSPF model during the 3-year simulation period (2016-2018)a).

2.2. 심층학습 알고리즘 및 구조

본 연구에서는 결측값에 따른 심층학습 기반 예측모델의 성능을 평가하기 위하여 시계열 데이터의 예측모델 개발에 특화된 장단기 메모리(Long Short-Term Memory, LSTM) 알고리즘을 선정하였다. 시계열 데이터에 주로 적용되는 다른 심층학습 알고리즘으로는 순환 신경망(Recurrent Neural Network), 게이트 순환 유닛(Gated Recurrent Unit) 등이 있으며, 장단기 메모리(LSTM)의 경우 일반적으로 데이터의 양이 증가할수록 타 시계열 기반 예측모델에 비해 성능이 우수한 것으로 알려져 있다. 본 연구에서는 간단한 장단기 메모리(LSTM) 모델을 이용하여 평가를 진행하였으며, 적용된 알고리즘의 구조는 1개의 입/출력층과 2개의 은닉층으로 구성되었다(Fig. 2).

Fig. 2.

The LSTM architecture adopted in this study.

심층학습 모델의 입력 자료는 HSPF 모델의 시뮬레이션을 통해 도출한 일 단위 기준의 주요 입력 자료 및 출력 결과를 사용하였다. 따라서, 2016년 1월부터 2018년 12월까지 총 1,096개의 자료를 최종 입력 데이터 셋으로 구성하였다. 총 8개의 입력 변수 중 유량(Discharge) 및 총인(T-P)을 종속 변수로 선정하여 결측치에 따른 예측모델의 성능 평가를 진행하였다.

심층학습 알고리즘은 오픈 소스 프로그램인 R(버전 4.0.4) 및 RStudio(버전 1.3.1073) 환경에서 케라스(Keras, 버전 2.8.0) 라이브러리를 이용하였다. 예측모델의 성능 평가 지표로서 평균절대비오차(Mean absolute percentage error, MAPE)를 손실함수로(Loss function) 사용하였다. 훈련 및 테스트 데이터 셋의 분할 비율은 7:3으로 설정하였으며, 결과 해석을 단순화하기 위하여 본 연구에서는 테스트 셋의 평가 결과만을 제시하였다. 장단기 메모리 알고리즘의 예측 정확도에 영향을 미치는 중요 변수 선정은 dlookr(버전 0.6.0) 패키지를 이용하여 독립 변수와 종속 변수 간의 피어슨 상관 계수(Pearson correlation coefficient)를 산정하여 변수 중요도를 결정하였다(Table 2 참조).

The Pearson correlation coefficient between dependent (either discharge or T-P) and independent variables.

결측치를 보간하기 위한 기법으로는 R 프로그램에서 다양한 보간법(Linear, Spline, Stine, StructTS, Auto ARIMA 등)을 단일 패키지에서 지원하는 imputeTS(버전 3.3)와 RPART 보간을 지원하는 dlookr 패키지를 사용하였다.

3. 결과 및 고찰

3.1. 결측치 보간 방법에 따른 예측성능 변화

Fig. 3(a)3(b)는 각각 결측치 보간 방법에 따른 장단기 메모리(LSTM) 알고리즘의 유량(Discharge) 및 총인(T-P) 예측 정확도를 평가한 그림이다. 참고로, 결측치 보간 방법 적용을 위하여 기존 훈련데이터 셋 내 종속 변수에서 절반에 해당하는 약 400개의 데이터를 임의로 제거하였으며, 개별 보간 방법을 적용하여 훈련 및 테스트 데이터 셋에 대한 평가를 진행하였다. 또한, 그림에서 수평 축은 본 연구에서 적용한 6가지의 보간 방법을 나타내고 있으며, 수직 축은 평균절대비오차(MAPE)를 기준으로 장단기 메모리(LSTM) 알고리즘의 예측 오차를 제시하고 있다. 테스트 데이터 셋을 기준으로 결측치 발생에 따른 장단기 메모리(LSTM) 알고리즘의 예측성능을 비교한 결과, 보간 방법에 따른 예측성능은 예측 항목별로 크게 상이한 것으로 평가되었다(예시: 유량 22.8-41.1%, 총인 10.1-12.5%). 또한, 유량(Discharge)의 경우 Stine 및 StructTS 보간 방법을 사용하였을 때 가장 우수한 예측성능을 나타내는 것으로 조사되었고, 총인(T-P)의 경우 RPART 보간 방법을 적용하였을 때 가장 우수한 예측성능을 나타내는 것으로 조사되었다. Spline 보간 방법의 경우 두 개의 예측 항목에서 모두 가장 낮은 예측성능을 가지는 것으로 평가되었다. 보간 방법에 따라 예측성능의 차이가 발생한 주요 사유는 일차적으로 적용된 보간 알고리즘의 차이점에 기인한 것으로 판단된다. 즉, 선형 보간(Linear), 스플라인 보간(Spline), Stineman 보간(Stine), 칼만 스무딩(StructTS) 및 상태공간 모델(Auto ARIMA)들의 다양한 보간 기법들이 적용되어 상이한 결측치가 대체되고 이에 따라 예측성능의 차이가 발생한 것으로 판단된다. 또한, 동일한 보간 기법을 사용하더라도 종속 변수별로 예측 오차 차이가 발생한 사유는 종속 변수별로 변동계수(Coefficient of variation, CV, 표준편차/평균)의 차이가 있어 예측성능에 영향을 미친 것으로 판단된다. 즉, 결측치를 대체할 때 상대적으로 변동성이 높은 유량(Discharge)의 경우 총인(T-P)에 비해 보간 오차가 높을 수 있으며, 이에 따라 예측 오차도 증가한 것으로 판단된다. 종합하면, 결측치 발생에 따른 장단기 메모리(LSTM) 알고리즘의 예측성능은 예측 항목 및 보간 방법에 따라 상이한 것으로 평가되며, 약 53%(400개/759개)의 결측치가 발생함에도 불구하고 최대 42% 이내의 예측 오차를 가지는 것으로 평가되었다.

Fig. 3.

Variation in performance of the adopted LSTM algorithm for (a) discharge and (b) T-P in the test data set according to 6 different interpolation methods.

3.2. 결측치 증가에 따른 예측성능 변화

Fig. 4(a)F4(b)는 각각 결측치 증가에 따른 장단기 메모리(LSTM) 알고리즘의 유량(Discharge) 및 총인(T-P) 예측 정확도를 평가한 그림이다. 참고로, 예측성능 평가는 개별 예측 항목별로 가장 우수한 보간 방법(유량(Discharge)의 경우 StructTS, 총인(T-P)의 경우 RPART)을 적용하였으며, 결측치의 개수는 기존 훈련용 데이터 셋 내 종속 변수에서 임의로 선정된 300-700개의 데이터를 100개 단위로 제거하여 훈련 및 테스트 데이터 셋에 대한 평가를 진행하였다. 또한, 그림에서 수평 축은 결측치 개수를 나타내고 있으며, 수직 축은 평균절대비오차(MAPE)를 기준으로 장단기 메모리(LSTM) 알고리즘의 예측 오차를 제시하고 있다. 결측치에 대한 보간 방법은 개별 항목별로 우수한 보간 방법을 적용하였다(3.1 섹션 참조). 테스트 데이터 셋을 기준으로 결측치 증가에 따른 장단기 메모리(LSTM) 알고리즘의 예측성능을 비교한 결과, 모델의 오차는 예측 항목에 관계없이 결측치 증가에 따라 점진적으로 증가하는 것으로 평가되었다. 또한, 앞선 보간 방법에 따른 예측성능 변화와 유사하게 장단기 메모리(LSTM) 알고리즘의 성능은 유량(Discharge)에 비하여 총인(T-P) 예측 시 오차가 현저히 감소되는 것으로 조사되었다. 이러한 주요 원인은 앞선 3.1 섹션에서 기술된 바와 같이 총인(T-P)의 경우 유량(Discharge)에 비해 변동계수(CV)가 낮기 때문에 결측치 대체 오차가 낮을 것으로 판단되며, 이에 따라 예측 오차도 낮아지는 것으로 판단된다. 종합하면, 장단기 메모리(LSTM) 알고리즘의 예측성능은 결측치 증가에 따라 감소하는 것으로 평가되며, 예측 항목별로 크게 상이한 것으로 조사되었다. 다만, 훈련 데이터 셋에서 결측률이 약 92%(700개/759개)에 도달하여도 모델의 오차가 최대 40% 이내로 유지됨을 감안할 때, 적절한 보간 방법 선택 시 장단기 메모리(LSTM) 알고리즘의 예측성능은 결측률에 민감하지 않는 것으로 평가되었다. 참고로, 현재의 평가 결과는 대량의 결측률이 존재한 상태에서 수행되는 것 대신 결측값이 일차적으로 복원된 이후 훈련 및 테스트 데이터 셋에 각각 평가되고 관련 결과가 제시되었다.

Fig. 4.

Variation in performance of the adopted LSTM algorithm for (a) discharge and (b) T-P in the test data set according to the number of missing values. Note that missing values occur randomly only for one of two dependent variables.

3.3. 다항목 결측치 발생에 따른 예측성능 변화

Fig. 5(a)5(b)는 각각 다항목 결측치 발생에 따른 장단기 메모리(LSTM) 알고리즘의 유량(Discharge) 및 총인(T-P) 예측 정확도를 평가한 그림이다. 참고로, 예측성능 평가는 기존 훈련용 데이터 셋 내 (종속 변수와 피어슨 상관 계수가 낮은 순서로부터 순차적으로) 단일 및 다중 독립 변수(1-7)에서 총 400개의 결측치를 임의로 발생하여 훈련 및 테스트 데이터 셋에 대한 평가를 진행하였다. 참고로, 400개의 결측치를 설정한 사유는 (단일 항목 기준으로) 대략 절반(약 53%, 400개/759개) 정도의 결측치가 존재한 상황에서 일정 수준 이상의 오차가 발생하고 이후 성능변화에 대한 추적이 용이할 것으로 판단하였기 때문이다. 또한, 그림에서 수평 축은 총 400개의 결측치를 포함하는 독립 변수의 개수를 나타내고 있으며, 수직 축은 평균절대비오차(MAPE)를 기준으로 장단기 메모리(LSTM) 알고리즘의 예측 오차를 제시하고 있다. 결측치에 대한 보간 방법은 개별 항목별로 우수한 보간 방법을 적용하였다(3.1 섹션 참조). 테스트 데이터 셋을 기준으로 다항목 결측치 발생에 따른 장단기 메모리(LSTM) 알고리즘의 예측성능을 비교한 결과, 결측치를 포함하는 독립 변수가 많아질수록 모델의 오차는 점진적으로 증가하는 것으로 조사되었다. 또한, 상관관계가 높은 항목에서 결측치가 발생함에 따라 예측 오차가 더욱 증가할 수도 있는 것으로 판단되며, 향후 후속연구를 통해 이에 대한 보다 명확한 원인 규명이 추가적으로 필요할 것으로 판단된다. 따라서, 동일한 개수의 결측치가 발생하더라도 가급적 적은 수의 독립 변수에서 발생할 때 모델의 오차는 감소하고 이에 따라 예측성능을 향상될 것으로 판단된다. 모델의 성능은 약 53%의 결측치(400개/759개)가 독립변수에서 발생할 때 유량(Discharge)의 경우 22.5-27.3%, 총인(T-P)의 경우 10.6-12.8%에 이르는 오차가 발생하였으며, 예측 항목별로 변동계수(CV)의 차이로 인하여 예측성능은 차이가 있는 것으로 평가되었다.

Fig. 5.

Variation in performance of the adopted LSTM algorithm for (a) discharge and (b) T-P in the test data set according to the number of independent variables. Note that either single (1) or multiple independent variables (2-7) contain a total of 400 missing values.

4. 결론

본 연구는 시계열 기반의 장단기 메모리(LSTM) 알고리즘을 사용하여 결측치에 따른 예측성능 변화를 평가하였다. 심층학습 모델의 입력 자료는 자동측정망 자료를 대신하여 유역 모델 HSPF를 사용하여 8개 변수에 대한 총 3년간의 일별 데이터 셋이 구축되었으며, 결측치 보간 방법, 종속 변수의 결측치 증가 및 단일/다중 독립 변수의 결측치 발생에 따른 예측성능 영향을 평가하였다. 본 연구로부터 도출된 결과는 다음과 같다.

(보간 방법 측면) 결측치를 적합하게 보간하는 방법은 예측 항목별로 상이한 것으로 조사되었다. 유량(Discharge)의 경우 StructTS, 총인(T-P)의 경우 RPART가 가장 우수한 성능을 가지는 것으로 조사되었으며, 예측 항목이 변화할 때 특정 보간 방법에 따른 장단기 메모리(LSTM) 알고리즘의 예측성능도 변화하는 것으로 평가되었다.

(결측치 증가 측면) 종속 변수에 대한 결측치가 증가(300개에서 700으로)할 때 모델의 오차도 점진적으로 증가하는 것으로 조사되었다. 결측치 발생에 대응하여 예측 항목별로 적합한 보간 방법 선정 시 92%의 결측률에도 장단기 메모리(LSTM) 알고리즘의 오차는 최대 40% 이내로 유지되었다.

(다항목 결측치 측면) 결측치의 발생의 전체 개수를 고정하고 종속 변수와의 상관 관계가 낮은 순서로부터 순차적으로 독립 변수의 개수(1-7)를 증가할 때 장단기 메모리(LSTM) 알고리즘의 오차는 증가하는 것으로 조사되었다. 따라서, 동일한 수의 결측치가 발생하더라도 보다 적은 독립 변수에서 결측치가 발생할 때 모델의 오차는 감소하는 것으로 평가되었다.

Acknowledgements

본 논문은 농촌진흥청 연구사업(세부과제번호: PJ015845)의 지원에 의해 이루어진 것임.

Notes

Declaration of Competing Interest

The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.

References

1. Hong S. M, Cho K. H, Park S, Kang T, Kim M. S, Nam G, Pyo J. Estimation of cyanobacteria pigments in the main rivers of South Korea using spatial attention convolutional neural network with hyperspectral imagery. Giscience & Remote Sensing 59(1):547–567. 2022;
2. Zhang Y. S, Wu L, Deng L. C, Ouyang B. Retrieval of water quality parameters from hyperspectral images using a hybrid feedback deep factorization machine model. Water Research 204:117618. 2021;
3. Park C. K, Byun H. R, Deo R, Lee B. R. Drought prediction till 2100 under RCP 8.5 climate change scenarios for Korea. Journal of Hydrology 526:221–230. 2015;
4. Yu S. J, Ryu I. G, Park M. J, Im J. K. Long-term relationship between air and water temperatures in Lake Paldang. Environmental Engineering Research 26(4):200177. 2021;
5. Ma J, Ding Y. X, Cheng J. C. P, Jiang F. F, Xu Z. R. Soft detection of 5-day BOD with sparse matrix in city harbor water using deep learning techniques. Water Research 170:115350. 2020;
6. Kim Y. S, Kang N. R, Jung J. W, Kim H. S. A review on the management of water resources information based on big data and cloud computing. Journal of Wetlands Research 18(1):100–112. 2016;
7. Song J. H, Han I. S. Prediction and characterization analysis of river water quality using multivariate time series models. Journal of the Korean Society of Urban Environment 17(3):243–253. 2017;
8. Kim T, Shin J, Lee D, Kim Y, Na E, Park J. H, Lim C, Cha Y. Simultaneous feature engineering and interpretation: Forecasting harmful algal blooms using a deep learning approach. Water Research 215:118289. 2022;
9. Ahn J. M, Im T. H, Kim S. M, Kim S, Kim G. H, Kwon H. G, Shin D. S, Yang D. S. Verification of water environment network representative at the baekcheon junction of the Nakdong River. Journal of Environmental Science International 27(6):371–381. 2018;
10. Kyoung M. S, Kim S. D, Kim H. S, Park S. K. Statistical water quality monitoring network design of Kyung-An Stream. Journal of the Korean Society of Civil Engineers B 26(3B):291–300. 2006;
11. Choi H, Cho Y. C, Kim S. H, Yu S. J, Kim Y. S, Im J. K. Water quality assessment and potential source contribution using multivariate statistical techniques in Jinwi River Watershed. Water 13(21):2976. 2021;
12. Na S. M, Lim T. H, Lee J. Y, Kwon H. G, Cheon S. U. Flow rate·water quality characteristics of tributaries and a grouping method for tributary management in Nakdong River. Journal of Wetlands Research 17(4):380–390. 2015;
13. Choi H, Suh S. I, Kim S. H, Han E. J, Ki S. J. Assessing the performance of deep learning algorithms for short-term surface water quality prediction. Sustainability 13(19):10690. 2021;
14. Kim S, Alizamir M, Zounemat-Kermani M, Kisi O, Singh V. P. Assessing the biochemical oxygen demand using neural networks and ensemble tree approaches in South Korea. Journal of Environmental Management 270:110834. 2020;
15. Zhao X. Y, Xia H. M, Pan L, Song H. Q, Niu W. H, Wang R. M, Li R. M, Bian X. Q, Guo Y, Qin Y. C. Drought monitoring over yellow river basin from 2003-2019 using reconstructed MODIS land surface temperature in Google Earth Engine. Remote Sensing 13(18):3748. 2021;
16. Ki S. J, Jeon D. J, Kim J. H. Influence of spatial resolution of radar images on the parameterization and performance of SWAT model. Desalination and Water Treatment 57(57):27548–27556. 2016;

Article information Continued

Fig. 1.

The upper Nam River Basin selected in this study. A total of 5 sub-basins was delineated from HSPF.

Fig. 2.

The LSTM architecture adopted in this study.

Fig. 3.

Variation in performance of the adopted LSTM algorithm for (a) discharge and (b) T-P in the test data set according to 6 different interpolation methods.

Fig. 4.

Variation in performance of the adopted LSTM algorithm for (a) discharge and (b) T-P in the test data set according to the number of missing values. Note that missing values occur randomly only for one of two dependent variables.

Fig. 5.

Variation in performance of the adopted LSTM algorithm for (a) discharge and (b) T-P in the test data set according to the number of independent variables. Note that either single (1) or multiple independent variables (2-7) contain a total of 400 missing values.

Table 1.

Summary statistics of major input and output variables provided to and from HSPF model during the 3-year simulation period (2016-2018)a).

Input variables Mean Standard deviation Coefficient of variation P0 P25 P50 P75 P100
Discharge (ft3/s) 1,266 1,484 1.17 299 507 876 1,292 19,900
BOD (mg/L) 2.010 0.296 0.15 1.220 1.820 1.980 2.220 3.370
T-P (mg/L) 0.039 0.007 0.18 0.017 0.035 0.039 0.042 0.073
T-N (mg/L) 2.07 0.55 0.27 0.92 1.66 2.01 2.39 4.02
Air temperature (℃) 13.5 9.7 0.72 -8.7 5.4 14.4 21.5 31.2
Rainfall (mm/day) 3.6 14.1 3.92 0 0 0 0.2 262.0
Dew point temperature (℃) 7.6 11.4 1.50 -19.7 -1.2 8.7 17.3 25.7
Dam discharge (ft3/s) 1,302 1,623 1.25 109 417 861 1,251 12,920
a)

P0 and P100 indicate the minimum and maximum values, respectively. In contrast, P25, P50, and P75 represent the first, second, and third quartiles, respectively.

Table 2.

The Pearson correlation coefficient between dependent (either discharge or T-P) and independent variables.

Variables Discharge T-P
Discharge 1 0.10
BOD -0.17 0.57
T-P 0.10 1
T-N 0.20 0.45
Air temperature 0.29 0.35
Rainfall 0.39 0.25
Dew point temperature 0.33 0.41
Dam discharge 0.87 -0.18