선형보간법을 이용한 기계학습 기반 매립지 침출수 발생량 예측 모델 개발

Development of Forecasting Model for Machine Learning-Based Landfill Leachate Generation Using Linear Interpolation

Article information

J Korean Soc Environ Eng. 2023;45(1):11-20
Publication date (electronic) : 2023 January 31
doi : https://doi.org/10.4491/KSEE.2023.45.1.11
1Department of Environmental Engineering, Kangwon National University, Republic of Korea
2Department of Integrated Energy and Infra System, Kangwon National University, Republic of Korea
최인하1orcid_icon, 차경환1orcid_icon, 김경민2orcid_icon, 안종화1,2,orcid_icon
1강원대학교 공과대학 환경공학과
2강원대학교 에너지‧인프라 융합학과
Corresponding author E-mail: johnghwa@kangwon.ac.kr Tel: 033-250-6357
Received 2022 November 24; Revised 2022 December 21; Accepted 2022 December 22.

Abstract

목적

기계학습을 이용한 결측치 처리방식에 따른 침출수 발생량 최적 예측 모델을 제시하고자 한다.

방법

입력인자로 매립가스 발생량, 기상데이터(강수량, 풍속, 일사량, 온도, 상대습도) 등을 2002년 6월에서 2018년 10월까지 사용하였다. 결측치 처리방식으로 선형보간법과 평균법을 사용한 데이터를 최적 비율에 따라 학습과 테스트데이터로 나누어 실험을 진행하였다. 다양한 단일모델을 사용하였으며 모델의 예측성능을 비교, 평가하기 위해 결정계수를 사용하였다.

결과 및 토의

단일모델 중 게이트순환유닛을 사용했을 때 가장 예측성능이 우수했다. 게이트순환유닛(gated recurrent unit, GRU)의 경우 선형보간법 결정계수(0.867)가 평균법 결정계수(0.839)보다 높아 선형보간법을 사용한 GRU 모델이 침출수 발생량 예측에 가장 적합하였다. 인공신경망(artificial neural network, ANN) 모델에서 결정계수는 선형보간법의 경우 0.862, 평균법의 경우 0.828이었다. 장단기메모리(long short-term memory, LSTM) 모델에서 결정계수는 선형보간법 0.779, 평균법 0.762로 나타났다. 랜덤포레스트(random forest, RF) 모델에서도 선형보간법을 사용한 결정계수(0.700)가 평균법을 사용한 결정계수(0.665)보다 높았다. 모델의 성능은 GRU>ANN>LSTM >RF순으로 나타났다. 본 실험에 사용한 모든 모델에서 평균법보다 선형보간법을 사용하는 것이 결정계수가 높았다.

결론

매립지 침출수 발생량을 예측할 때 선형보간법을 사용한 GRU 모델이 가장 우수하였다.

Trans Abstract

Objectives

The purpose of this study is to compare single models according to the missing value handling techniques for predicting leachate generation.

Methods

Input factors such as landfill gas generation, and weather data (precipitation, wind speed, radiation, temperature, and relative humidity) were used from June 2002 to October 2018. Linear interpolation and mean method were used as the missing value handling technique. The experiment was conducted by dividing the data into train and test data according to the optimal ratio. Various single models were used, and the prediction performance of the model was compared and evaluated using coefficient of determination (R2).

Results and Discussion

The gated recurrent unit (GRU) model was the best among the single models. In the GRU model, R2 was 0.867 for linear interpolation and R2 was 0.839 for the mean method, so that the GRU model using linear interpolation was most suitable for predicting leachate generation. In the ANN model, R2 of linear interpolation (0.862) was higher than that of mean method (0.828). In the long short-term memory (LSTM) model, R2 was 0.779 for linear interpolation and 0.762 for mean method. In the random forest (RF) model, R2 for linear interpolation (0.700) was also higher than that for the mean method (0.665). The model performance was excellent in the order GRU>ANN>LSTM>RF. The linear interpolation for the missing value handling technique was superior to the mean method in all models used in this experiment.

Conclusion

The GRU using linear interpolation was the most suitable model for predicting landfill leachate generation.

1. 서 론

최근 국내의 폐기물 발생량은 빠르게 증가하고 있다. 우리나라의 경우 2018년 16,283만 톤, 2019년 18,149만 톤, 2020년 19,546만 톤으로 꾸준히 증가하는 추세를 보여 폐기물 관리에 대한 중요도가 높아지고 있다[1]. 매립은 폐기물의 최종 처분 방식이다. 매립지 악취 발생, 지반침하, 매립가스, 침출수 발생 등 추가적인 문제를 발생시킬 수 있어 이에 대한 관리가 매우 중요하다[2]. 침출수는 고형 폐기물 처리장을 통해 들어와 오염 물질을 축적하고 지하의 수분과 생성되는 모든 오염된 액체로 정의된다[3]. 특히, 침출수는 구리, 납, 카드뮴 등 다양한 중금속과 휴믹, 펄빅과 같은 난분해성 유기물을 함유하고 있어 특별한 관리가 필요하다[4,5]. 침출수 발생량을 예측하는 것은 침출수 집수시설 및 처리시설의 유지 관리뿐만 아니라 저류조의 규모와 펌프 용량 결정에 중요하다.[6]. 침출수 발생량 예측에는 일반적으로 water balance model과 hydraulic evaluation of landfill performance model(HELP)를 적용하고 있다[7,8]. HELP모델을 통해 침출수 발생량을 예측한 논문에서도[9] 높은 신뢰도를 갖지만, 매립지에서 발생하는 물리적, 생화학적 작용 및 기후요인 등 복잡한 과정과 폐기물 특성에 따른 높은 변동성 때문에[10] 최근 기계학습, 심층학습 등 인공지능을 적용한 데이터 기반 모델을 침출수 발생량 예측에 시도하고 있다[11].

이스탄불 매립지의 경우 발생하는 침출수 유량 예측을 위해 인공신경망(artificial neural network, ANN) 모델을 사용했으며[12], 일본 홋카이도 매립지의 침출수 발생량 및 농도 예측을 위해 장단기메모리(long short-term memory, LSTM)를 사용하였다[13]. 또한 ANN, 서포트 벡터 머신(support vector machine, SVM)을 사용하여 말레이시아 매립지의 침출수 발생량을 예측하였다[2]. 하지만 랜덤 포레스트(random forest, RF)와 게이트 순환 유닛(gated recurrent unit, GRU)을 사용한 매립지 침출수 발생량 예측 사례는 찾을 수 없었다.

국가의 데이터 관리 상황이 다르고 측정 빈도가 달라 연구 논문에 따라 전처리 방법이 다른 특징이 있다. 데이터의 형상에 따라 전처리 방식이 필요할 수 있으며 누락 데이터가 있거나 측정인자간의 시간 차이가 존재하는 경우 결측치 처리방식(missing value handling technique)을 사용할 수 있다. 결측치 처리방식으로는 평균을 계산하여 대체하는 평균법(mean), 중앙값을 이용하여 대체하는 방법, 2개의 인접한 데이터를 줬을 때 임의적인 직선을 가정하여 계산하는 방법인 선형보간법(linear interpolation), 전체구간을 소구간 별로 나누어 다항식으로 매끄러운 함수를 구하는 방법인 스플라인 보간법(spline interpolation) 등이 사용되고 있다.[14]. 보간법은 수치 분석 및 수학적 분야에서 유용하게 사용되는 추정의 한 기법으로, 알려진 데이터를 기반으로 하여 새로운 데이터를 구성하는 방법이다. 이는 누락된 데이터가 있는 공간 또는 시간 데이터를 유추하는 데 유용하게 사용된다[15].

일본 홋카이도의 경우 2003년부터 2019년까지의 월별 데이터로 측정된 데이터를 일 평균 데이터로 전환하여 모델에 적용하였다[13]. 선형보간법으로 전처리하여 침출수 발생량을 예측하는 사례는 확인할 수 없었다. 하지만 가스 누출을 예측할 때 결측 데이터를 보완하는 방식으로 선형보간법을 적용한 사례가 있고[16], 액체 화물 운송을 예측하기 위해 결측값 처리로 선형보간법을 사용한 경우는 있다[14]. 이처럼 보간법을 사용하는 이유는 사용 데이터의 양을 늘려 모델의 성능 향상에 기여할 수 있기 때문이다[17]. 그러나 결측치 처리방식을 비교한 침출수 발생량 예측 관련 문헌은 찾아보기 힘들다. 따라서 본 연구에서는 침출수 발생량 예측을 위한 최적 모델을 제시하기 위하여 선형보간법과 평균법을 이용하여 RF, ANN, LSTM, GRU 등의 모델을 이용하였다.

2. 실험 방법

2.1. 데이터 설정과 입력인자

본 연구는 인천광역시 서구에 위치하는 수도권매립지관리공사에서 관리 중인 매립이 완료된 제2매립지를 대상으로 하였다(Fig. 1). 침출수를 예측하기 위해 침출수 발생량, 폐기물 매립량, 매립가스 발생량, 기상데이터(강수량, 풍속, 일사량, 온도, 상대습도)를 사용하였다. 기상데이터는 기상청 산하 기상자료개방 포털[18]을 이용하여 본 연구지점에 인접한 인천광역시 중구 인천기상대 종관기상관측(automated synoptic observing system) 데이터를 사용하였다. 침출수 발생량, 폐기물 매립량, 매립가스 발생량 데이터는 수도권매립지관리공사 통계연감 데이터를 사용하였다[19]. 매립시작은 2000년 10월 13일이지만 가스발생량 데이터를 2002년 6월부터 받아 모든 입력데이터의 사용 기간을 2002년 6월 1일부터 2018년 10월 31일로 하였다. 선행연구와 예비 실험을 기반으로 최종 입력인자를 선정하여 실험을 진행하였으며 최종 입력인자로는 폐기물 매립량, 매립가스 발생량, 강수량, 풍속, 일사량, 온도, 상대습도 등 7가지를 이용하였다(Table 1) [2].

Fig. 1.

A photo of the Incheon landfill site 2 in Korea.

Summary of daily parameters.

2.2. 데이터 전처리

인공지능 모델에 사용되는 데이터는 예측에 있어 중요한 부분을 차지한다. 하지만 입력인자로 사용되는 데이터는 상황에 따라 기계 고장, 유지보수, 관측기구의 위치변경, 인적오류 등에 의해 결측값을 가질 수 있다. 이럴 때 연속 데이터를 요구하는 시계열 예측 방식에 어려움을 가져올 수 있다[20]. 이러한 문제를 해결하기 위해 결측치 처리방식을 이용할 수 있다. 본 연구에서는 실험에 사용된 데이터 중 매립가스 발생량, 폐기물 매립량 등은 월별 데이터로 확보하였고 침출수 발생량, 기상자료 등은 일별 데이터로 확보하였다. 예비실험 결과, 보간법을 적용하지 않은 월별 자료를 사용한 GRU 모델에서 결정계수(square of the correlation coefficient, R2)가 0.418로 낮았다. 이에 일일 결측치를 추정하기 위해 폐기물 매립량과 매립가스 발생량은 월별로 선형적으로 연결하는 선형보간법과 월간 데이터를 일일 평균값으로 계산하여 사용한 평균법을 사용하였다[14,21]. 결측값과 이상치(outlier)(침출수발생량이 4,500m3 이상 또는 10m3 미만인 경우)는 제거하였으며 표준화를 위해 RobustScaler를 사용하였다.

2.2.1. 선형보간법

선형보간법은 1차 보간법이라고도 하며, 두 개의 점이 주어졌을 때 그 두 점을 지나는 함수를 직선의 방정식으로 나타내는 것을 말한다(식 (1)) [22]. 점 사이의 간격이 작을수록 더욱 정확한 근사해를 얻을 수 있다.

(1) fx=fx0+fx1-fx0x1-x0x-x0

여기서, x는 독립 변수의 집합이고, x1x0는 알고 있는 독립 변수, f(x)x에 대한 종속 변수이다.

2.2.2. 평균법

설정된 구간의 합을 데이터 개수로 나누어 모든 데이터의 평균값으로 전환한다(식 (2)) [22]. 본 연구에서는 한 달 간격으로 평균법을 실시하였다.

(2) z=1Nzii=1i=N

여기서, N은 데이터의 개수, zi는 개별 데이터의 값, z는 개별 데이터의 합을 데이터의 개수로 나눈 값이다.

2.3. 기계학습 및 심층학습 모델

2.3.1. 랜덤포레스트

랜덤포레스트는 Breiman에 의해 제안된 앙상블 모델로 일반적인 의사결정 나무 모델과 다르게 하나의 나무를 사용하지 않고 여러 개의 나무를 사용하여 기계학습을 진행한다[23]. 전체 데이터 중 일부 데이터를 무작위로 중복 추출하고(bagging) 데이터를 여러 개로 구성하여 임의성을 가지게 된다. 이를 통해 일반화 성능이 향상되고 분산을 감소시켜 과적합(overfitting)을 방지하는 데 도움을 준다. 따라서 트리 개수를 수정하며 해당 모델에 적합하도록 최적화를 진행하였다(Fig. 2(a)).

Fig. 2.

Structure of (a) random forest, (b) artificial neural network, (c) long short-term memory, and (d) gated recurrent unit.

2.3.2. 인공신경망

ANN은 인간의 뇌를 모방하여 인간의 사고방식을 컴퓨터에 학습시키는 알고리즘으로 뇌의 기본단위인 뉴런과 유사하다. 이는 연결된 노드의 뉴런들로부터 정보를 받아 고유한 방식으로 처리하는 모델로 McCulloch와 Pitts가[24] 최초의 ANN 구조를 제안하였으며 Rosenblatt은[25] 여기에 퍼셉트론을 이용한 신경망으로 발전시켰다. 이 모델은 입력층(input layer), 은닉층(hidden layer), 출력층(output layer)에서 여러 가지 하이퍼파라미터의 상호작용을 통해 작동하며 모든 은닉층을 통과하여 하나의 출력층을 통과 후 최종결과를 도출한다(Fig. 2(b)) [26,27].

2.3.3. 장단기메모리

LSTM은 Hochreiter와 Schmidhuber에 의해 고안되었으며[28] 기존 순환신경망의 장기화 예측에 한계점의 원인인 경사 하강 소실 문제(gradient vanishing)를 해결할 수 있다는 장점이 있다[29,30]. 셀은 망각 게이트, 입력 게이트, 출력 게이트의 세 가지 게이트로 구성되어 있다(Fig. 2(c)). 첫 번째 단계인 망각 게이트의 연산은 셀 상태 Ct-1는 이전 상태 ht-1과 입력값 xt을 보고 어떤 정보를 버릴지 시그모이드 함수로 계산하여 결정한다. 그 후 입력 게이트에서 시그모이드 층은 갱신할 값 it을 결정하며 tanh 층은 셀 상태에서 더해질 수 있는 새로운 후보 값 백터인 gt를 만든다. 그 후 itgt을 합쳐 셀 상태 Ct-1을 새로운 셀 상태 Ct로 갱신한다. 마지막으로 출력 게이트에서 시그모이드 층은 셀 상태에서 어떤 정보를 출력할지 결정하고 정해진 방향으로 출력되어 다음 층의 노드에서 동일한 계산을 수행하게 된다.

2.3.4. 게이트 순환 유닛

GRU는 순환신경망의 일종이며 LSTM과 마찬가지로 경사 하강 소실 문제를 해결하기 위해 고안되었으며, 이는 LSTM과 달리 리셋 게이트(reset gate), 업데이트 게이트(update gate)로 단순화시켰다는 특징이 있다[31]. 따라서 입, 출력 파라미터가 감소하고, 게이트가 줄어들어 장단기메모리보다 간결하게 연산을 수행할 수 있다. 이에 대한 계산 과정은 식 (3)~(6)과 같다(Fig. 2(d)).

(3) rt=σWrxt+Wrht-1
(4) zt=σWzxt+Wzht-1
(5) h~t=tanhWxt+Wrtht-1
(6) ht=1-ztht-1+zth~t

여기서, xt는 입력 벡터, ht는 출력 벡터(hidden state), rt는 리셋 게이트, zt는 업데이트 게이트, h~t는 기억 벡터, W는 가중치, σ는 sigmoid 함수를 의미한다.

2.4. 모델 최적화와 성능지표

선형보간법과 평균법을 사용하여 전처리한 데이터를 여러 단일모델에 적용한 후 시행 착오법을 통해 최적화를 진행하였다. 본 연구의 최적화 인자로는 랜덤포레스트의 경우 트리수 그 외 모델의 경우 입력층과 출력층 사이의 은닉층, 전체 데이터 내 학습 테스트 비율, 신경망에서 최소단위인 노드, 모델의 학습 반복 횟수(epoch), 모델을 검증하기 위한 검증분할(validation split), 과적합 방지를 위한 earlystop, dropout, 가중치 규제 등을 사용하였다. 예측성능평가를 위해 R2(식 (7)), 평균 제곱근 오차(root mean square error, RMSE)(식 (8)), 평균 절대 오차(mean absolute error, MAE)(식 (9))를 사용하였다.

(7) R2=1-i=1Nyi-fi2i=1Nyi-yi¯2
(8) RMSE=1N+i=1Nyi-fi2
(9) MAE=1Ni=1Nfi-yi

여기서, fi는 관측값, yi는 모델을 통한 예측값, yi는 관측값의 평균이다.

3. 결과 및 고찰

3.1. 랜덤포레스트

RF 모델에서 선형보간법과 평균법으로 전처리한 데이터를 사용하여 모델을 최적화하였다. 선형보간법의 경우 최적 비율인 학습데이터 75%, 테스트데이터 25%로 설정하고 트리 개수를 50개에서 개수를 늘리며 진행하였다(Table 2). 트리 개수가 150개 이상에서 테스트 결정계수 값의 변동을 보이지 않아 150개에서 최적값을 결정하였다(test R2 = 0.700, test RMSE = 323.1, test MAE = 204.6)(Fig. 3(a-1); Table 3). 평균법으로 전처리한 데이터의 경우 학습데이터 80%, 테스트데이터 20%로 예측을 시도했을 때 가장 높은 성능을 보였으며 트리 개수는 선형보간법과 마찬가지로 150개 이상에서 테스트 결정계수 값이 유지되어 150개에서 최적임을 확인하였다(test R2 = 0.665, test RMSE = 347.1, test MAE = 210.9). 학습 값의 경우, 선형보간법(train R2 = 0.941)과 평균법(train R2 = 0.940)은 유사하였지만, 테스트 값은 선형보간법이 우수하였다(Fig. 3(a-2); Table 2). 중요도 분석 결과 매립가스 발생량(43.2%), 폐기물 매립량(21.9%), 온도(17.7%) 등 상위 3개 인자가 80% 이상을 차지하였다.

Performance comparison of random forest, artificial neural network, long short-term memory, and gated recurrent unit according to missing value handling techniques.

Fig. 3.

Prediction results of landfill leachate generation for test dataset using random forest, artificial neural network, long short-term memory, and gated recurrent unit with linear interpolation and mean method.

Hyperparameters for random forest, artificial neural network, long short-term memory, and gated recurrent unit according to missing value handling techniques.

3.2. 인공신경망

ANN 모델의 최적값은 전처리단계에서 선형보간법을 사용한 경우 학습데이터 90%, 테스트데이터 10%로 설정하였다(Table 2). 입력층, 은닉층 3층(노드 : 300, 200, 100)과 출력층으로 구성하였다(Table 3). 활성화 함수의 경우 exponential linear unit(eLU)로 설정하였을 때 sigmoid와 rectified linear unit(ReLU)에 비해 높은 성능을 보였다. 검증분할은 0.1, epoch의 경우 50회로 설정하였고, 과적합 방지를 위해 dropout과 earlystop, 가중치 규제를 적용하였으나 가중치 규제만 사용하는 것이 결과가 향상되었다(test R2=0.862, test RMSE=151.5, test MAE=103.0)(Fig. 3(b-1)). 전처리단계에서 평균법을 적용하였을 때 학습데이터 90%, 테스트데이터 10%로 설정하였고 입력층, 은닉층 2층(노드 : 300, 300)과 출력층으로 구성하고 활성화함수는 eLU, epoch 50, 검증분할 0.1로 설정하였으며 과적합 방지를 위해 가중치 규제를 사용하였다(test R2=0.828, test RMSE=169.7, test MAE=121.2) (Fig. 3(b-2)). 훈련 값, 테스트 값, 오차지표에서 모두 선형보간법이 평균법보다 우세하게 나타났다(Table 2).

3.3. 장단기메모리

LSTM 모델은 선형보간법을 적용 시 학습데이터 90%, 테스트데이터 10%에서 가장 적합하였으며(Table 2) 입력층, 은닉층 3층(노드 : 500, 500, 500)과 출력층으로 구성하였다(Table 3). 활성화 함수는 ReLU로 설정 시 최적의 성능을 보였다. 검증분할은 0.1, epoch의 경우 25회로 설정하였고, 과적합 방지를 위해 dropout, earlystop, 가중치 규제를 사용하였으나 이 중 가중치 규제만 사용하는 것이 가장 효과적으로 과적합에 대응하는 것으로 나타났다(test R2=0.779, test RMSE= 192.6, test MAE=140.4)(Fig. 3(c-1)). 평균법을 적용 시 학습데이터 90%, 테스트데이터 10%에서 가장 적합하였으며 입력층, 은닉층 3층(노드 : 500, 500, 500)과 출력층으로 구성하고 활성화함수 ReLU, epoch 25, 검증분할 0.1로 설정하였으며 과적합 방지를 위해 가중치 규제를 사용하였다(test R2 = 0.762, test RMSE = 199.8, test MAE = 148.8)(Fig. 3(c-2)). LSTM의 경우 시계열 데이터 예측에 효과적이나 해당 연구에서는 ANN에 비해 낮은 성능을 보였다(Table 2).

3.4. 게이트 순환 유닛

GRU 모델의 최적값은 전처리단계에서 선형보간법을 사용한 경우 학습데이터 90%, 테스트데이터 10%로 설정하였다(Table 2). 입력층, 은닉층 1층(노드 : 300)과 출력층으로 구성하였다(Table 3). 활성화 함수의 경우 eLU로 설정하였을 때 sigmoid와 ReLU에 비해 높은 성능을 보였다. 검증분할은 0.1에서 0.3까지 조정하였으나 0.1에서 가장 모델에 적합하였으며, epoch의 경우 25회로 설정하였고, dropout, earlystop, 가중치 규제를 통해 과적합 방지를 시도하였고 이 중 가중치 규제를 사용하는 것이 가장 적합하였다(test R2 = 0.867, test RMSE = 149.2, test MAE = 98.2)(Fig. 3(d-1)). 평균법의 경우, 학습데이터 90%, 테스트데이터 10%로 하고 입력층, 은닉층 1층(노드 : 500)과 출력층으로 구성하였다. 활성화함수는 eLU, epoch 25, 검증분할 0.1로 설정하였으며 과적합 방지를 위해 가중치 규제를 사용한 경우가 가장 효과적이었다(test R2 = 0.839, test RMSE=164.2, test MAE=117.8)(Fig. 3(d-2)). GRU 모델은 시계열 데이터 예측에 효과적인 모델로 해당 연구에서 가장 높은 예측률을 보여 침출수 발생량 예측 시 가장 적합한 것으로 판단한다.

3.5. 모델 비교 및 기존 논문과 비교

모델별 test R2는 선형보간법의 경우 RF 0.700, ANN 0.862, LSTM 0.779, GRU 0.867, 평균법의 경우는 RF 0.665, ANN 0.828, LSTM 0.762, GRU 0.839로 본 실험에 사용한 모든 모델에서 선형보간법을 사용한 경우가 평균법을 사용한 경우보다 성능이 우수하였다(Table 2). 또한, 선형보간법의 test RMSE는 RF 323.1, ANN 151.5, LSTM 192.6, GRU 149.2이고, 평균법의 test RMSE는 RF 347.1, ANN 169.7, LSTM 199.8, GRU 164.2이었다. 선형보간법 test MAE는 RF 204.6, ANN 103.0, LSTM 140.4, GRU 98.2이고, 평균법 test MAE는 RF 210.9, ANN 121.2, LSTM 148.8, GRU 117.8로 선형보간법에서 모델의 성능지표가 더 좋았다. 따라서 모델의 성능은 GRU > ANN > LSTM > RF 순으로 나타났다. 학습 횟수는 GRU의 경우 ANN에 비해 적은 횟수인 25회로 효과적인 학습이 가능하였다. 침출수 발생량 1,500 m3/d을 기준으로 발생량이 적을 때는 선형보간법, 많을 때는 평균법을 사용한 모델에서 높은 예측률을 보였다(Fig. 3). RF, ANN, LSTM, GRU 모델 모두 높은 예측률을 보였지만 RF를 제외한 모델은 학습 과정에서 과적합 문제가 있었다. 과적합 되는 경우 높은 학습을 보이지만 모델이 특정 데이터에만 편향되어 다른 데이터에는 사용할 수 없게 된다. 이를 해결하기 위해서 dropout, earlystop, 가중치 규제 등을 도입하였으며 이 중 가중치 규제 방법이 가장 효과적으로 과적합에 대응할 수 있었다. 본 연구를 통해 침출수 발생량 예측에 선형보간법을 사용한 GRU 모델이 더 간결하고 빠른 연산이 가능하며 정확한 예측을 보였다. 일본 훗카이도 지역에서 침출수 발생량을 예측했던 논문의 경우 본 논문과 같이 사용 데이터를 일 평균 데이터로 변환하여 모델을 구축하였으며 LSTM 모델에 시계열 데이터를 사용하였다(Table 4) [13]. 이에 비해 본 논문에서는 동일한 데이터를 이용하여 LSTM과 GRU에 적용하였다는 점에서 선행논문과 차이가 있다. 말레이시아 셀랑고루주 지역의 침출수 발생량 예측 논문의 경우[2] 월별 데이터를 사용하였지만, 본 연구는 결측치 처리방식으로 선형보간법과 평균법을 사용하여 월별 데이터를 일별 데이터로 바꾸어 사용한 점에서 차이가 있다. 매립지에서 인공지능을 통한 연구는 아직 부족한 상황이다. 향후 침출수 발생량 예측 시 중요도가 낮은 인자의 사용여부, 다른 입력인자의 추가, 매립지별 적합한 보간법 등에 대한 추가연구가 필요하다.

Comparison of previous studies on machine learning-based models for forecasting landfill leachate generation.

4. 결론

본 연구에서는 침출수 발생량을 예측하기 위해서 결측치 처리방식으로 선형보간법과 평균법을 사용하여 여러 단일모델을 비교하였다. 선형보간법과 평균법을 사용한 모델 모두 전반적으로 성능은 우수하였으나, 선형보간법에서 성능이 더 우수하였다. 하지만 침출수 발생량에 따라 평균법이 더 적합한 경우도 있었다. 선형보간법을 사용한 모델은 GRU > ANN > LSTM > RF 순으로 GRU가 성능이 가장 우수하였다.

Acknowledgements

본 논문은 한국연구재단「2022년도 지역혁신사업(2022RIS005)」과 중소벤처기업부「2022년도 창업중심대학 예비창업 자 지원사업」의 지원을 받았습니다. 또한, 자료를 제공해 준 수도권매립지관리공사에 감사를 드립니다.

Notes

Declaration of Competing Interest

The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.

References

1. Korea Environment Corporation Home Page, https://www.keco.or.kr, November(2021).
2. Abunama T, Othman F, Ansari M, El-Shafie A. Leachate generation rate modeling using artificial intelligence algorithms aided by input optimization method for an MSW landfill. Environ. Sci. Pollut. Res 26(4):3368–3381. 2019;
3. Cheremisinoff N. P. Groundwater Remediation and Treatment Technologies 1st edth ed. Noyes publications. New Jersey, U.S.A: p. 259–261. 1998.
4. Xie H, Chen Y, Zhan L, Chen R, Tang X, Chen R, KE H. Investigation of migration of pollutant at the base of Suzhou Qizishan landfill without a liner system. J. Zhejiang Univ. Sci. A 10(3):439–449. 2009;
5. Kamaruddin M. A, Yusoff M. S, Aziz H. A, Hung Y. T. Sustainable treatment of landfill leachate. Appl. Water Sci 5(2):113–126. 2015;
6. Yildiz E. D, Unlü K, Rowe R. K. Modelling leachate quality and quantity in municipal solid waste landfills. Waste Manag. Res 22(2):78–92. 2004;
7. Aziz H. A, Adlan M. N, Amilin K, Yusoff M. S, Ramly N. H, Umar M. Quantification of leachate generation rate from a semi-aerobic landfill in Malaysia. Environ. Eng. Manag. J 11(9):1581–1585. 2012;
8. Alslaibi T. M, Abustan I, Mogheir Y. K, Afifi S. Quantification of leachate discharged to groundwater using the water balance method and the hydrologic evaluation of landfill performance (HELP) model. Waste Manag. Res 31(1):50–59. 2013;
9. Broichsitter S. B, Gerke H. H, Horn R. Assessment of leachate production from a municipal solid-waste landfill through water-balance modeling. Geosci 8(10):372. 2018;
10. Alibardi L, Cossu R. Solid Waste Landfilling 1st edth ed. Elsevier. U.S.A: p. 229–242. 2018.
11. Abbasi M, Abduli M. A, Omidvar B, Banghvand A. Forecasting municipal solid waste generation by hybrid support vector machine and partial least square model. Int. J. Environ. Res 7(1):27–38. 2013;
12. Karaca F, Özkaya B. NN-LEAP: A neural network-based model for controlling leachate flow-rate in a municipal solid waste landfill site. Environ. Model. Softw 21(8):1190–1197. 2006;
13. Ishii K, Sato M, Ochiai S. Prediction of leachate quantity and quality from a landfill site by the long short-term memory model. J. Environ. Manage 310:114733. 2022;
14. Steffensen J. F. Interpolation 2nd edth ed. Dover publications. U.S.A: p. 1–10. 2006.
15. Lim S. H, Kim S. J, Park Y. J, Kwon N. H. A deep learning-based time series model with missing value handling techniques to predict various types of liquid cargo traffic. Expert Syst. Appl 184:115532. 2021;
16. Dashdondov K, Jo K, Kim M. H. Linear interpolation and machine learning methods for gas leakage prediction base on multi-source data integration. J. Korean Soc. Cosmetol 13(3):33–41. 2022;
17. Chollet F, Allaire J. J. Deep Learning with R 1st edth ed. Manning publications; U.S.A: :84–109. 2018;
18. KMA Weather Data Service Home Page, https://data.kma.go.kr, November(2022).
19. Sudokwon Landfill Site Management Corporation Home Page, https://www.slc.or.kr, November(2022).
20. Junninen H, Niska H, Tuppurainen K, Ruuskanen J, Kolehmainen M. Methods for imputation of missing values in air quality data sets. Atmos. Environ 38(18):2895–2907. 2004;
21. Noor N. M, Abdullah M. M. A. B, Yahaya A. S, Ramli N. A. Comparison of linear interpolation method and mean method to replace the missing values in environmental data Set. Mater. Sci. Forum 803:278–281. 2007;
22. Canale S. C, Chapra R. P. Numerical Methods for Engineers 7th edth ed. McGraw Hill Education; U.S.A: :444–491. 1998;
23. Breiman L. Random forests. Mach. Learn 45:5–32. 2001;
24. McCulloch W. S, Pitts W. H. A logical calculus of the ideas immanent in nervous activity. Bull. Math. Biophys 5:115–133. 1943;
25. Rosenblatt F. The perceptron: A probabilistic model for information storage and organization in the brain. Psychol. Rev 65(6):386–408. 1958;
26. Cho K. H, Sthiannopkao S, Pachepsky Y. A, Kim K. W, Kim J. H. Prediction of contamination potential of groundwater arsenic in Cambodia, Laos, and Thailand using artificial neural network. Water Res 45(17):5535–5544. 2011;
27. Hochreiter S, Schmidhuber J. Long short-term memory. Neural Comput 9(8):1735–1780. 1997;
28. Gers F. A, Schmidhuber J, Cummins F. Learning to forget: Continual prediction with LSTM. Neural Comput 12(10):2451–2471. 2000;
29. Kim K. M, Ahn J. H. Comparison of machine learning-based models for forecasting chlorophyll-a at Han River with feature importance analysis of input variable. J. Environ. Manage 318:115636. 2021;
30. Lee S. M, Sun Y. G, Lee J, Lee D, Cho E. I, Park D. H, Kim Y. B, Sim I. J. Y. Kim. J. Inst. Internet Broadcast. Commun 19(5):79–85. 2019;
31. Cho K. H, Merrienboer B. V, Gulcehre C, Bahdanau D, Bougares F, Schwenk H, Bengio Y. Learning phrase representations using RNN encoder–decoder for statistical machine translation. arXiv preprint arXiv :1724–1734. 2014;
32. Abunama T, Othman F, Younes M. K. Predicting sanitary landfill leachate generation in humid regions using ANFIS modeling. Environ. Monit. Assess 190(10):1–15. 2018;

Article information Continued

Fig. 1.

A photo of the Incheon landfill site 2 in Korea.

Fig. 2.

Structure of (a) random forest, (b) artificial neural network, (c) long short-term memory, and (d) gated recurrent unit.

Fig. 3.

Prediction results of landfill leachate generation for test dataset using random forest, artificial neural network, long short-term memory, and gated recurrent unit with linear interpolation and mean method.

Table 1.

Summary of daily parameters.

Leachate generation (m3/d) Landfill gas (m3/d) Landfill waste (ton/d) Temperature (°C) Precipitation (mm) Wind speed (m/s) Relative humidity (%) Radiation (MJ/m2)
Maximum 4,423 884,761 22,434 31.8 202.5 9.3 100.0 32.1
Minimum 10 97,344 49 -14.6 0.0 0.1 25.0 0.0
Average 1,446 519,621 11,581 12.7 3.3 2.9 69.4 12.8
Median 1,470 578,123 11,150 14.1 0.0 2.6 69.9 12.1

Table 2.

Performance comparison of random forest, artificial neural network, long short-term memory, and gated recurrent unit according to missing value handling techniques.

Model Missing value handling technique Ratio
Model performance
Train (%) Test (%) R2
RMSE
MAE
Train Test Train Test Train Test
RF Linear interpolation 75 25 0.941 0.700 120.3 323.1 74.7 204.6
Mean method 80 20 0.940 0.665 122.7 347.1 73.8 210.9
ANN Linear interpolation 90 10 0.955 0.862 122.2 151.5 78.8 103.0
Mean method 90 10 0.946 0.828 129.7 169.7 85.9 121.2
LSTM Linear interpolation 90 10 0.942 0.779 133.9 192.6 91.2 140.4
Mean method 90 10 0.929 0.762 154.9 199.8 105.3 148.8
GRU Linear interpolation 90 10 0.951 0.867 124.2 149.2 83.7 98.2
Mean method 90 10 0.953 0.839 120.5 164.2 83.2 117.8

Table 3.

Hyperparameters for random forest, artificial neural network, long short-term memory, and gated recurrent unit according to missing value handling techniques.

Model Missing value handling technique Tree Hidden layers Node Epoch Validation split Activation
RF Linear interpolation 150 - - - - -
Mean method 150 - - - - -
ANN Linear interpolation - 3 300, 200, 100 50 0.1 eLU
Mean method - 2 300, 300 50 0.1 eLU
LSTM Linear interpolation - 3 500, 500, 500 25 0.1 ReLU
Mean method - 3 500, 500, 500 25 0.1 ReLU
GRU Linear interpolation - 1 300 25 0.1 eLU
Mean method - 1 500 25 0.1 eLU

Table 4.

Comparison of previous studies on machine learning-based models for forecasting landfill leachate generation.

Model Data Types Outcome Input Output Data period Location Literature
ANFISa) month R2=0.952 quantities of dumped waste, area and height of the waste cells, rainfall rates, solar radiation, relative humidity, wind speed, temperature, emanated gas rate leachate generation 2007 - 2016 Selangor Abunama et al. (2018) [32]
ANN, SVM month R2=0.920(ANN) precipitation, temperature, relative humidity wind speed, solar radiation. dumped waste quantity, waste cell area, height, generated landfill gas leachate generation 2007 - 2016 Selangor Abunama et al. (2019) [2]
R2=0.846(SVM)
NN-LEAPb) day R2=0.847 pH, temperature, conductivity, months, temperature, pressure, cloudiness, relative humidity, precipitation, maximum temperature, minimum temperature leachate generation 2002/01/01 - 2003/08/31 Istanbul Karaca and Özkaya (2006) [12]
MAE=0.0308
LSTM day RMSE=211.97 daily precipitation, daily average temperature, accumulated amount of landfilled waste leachate generation 2003/07 - 2019/03 Hokkaido Ishii et al. (2022) [13]
GRU day R2=0.867 landfill gas, landfill waste, temperature, precipitation, wind speed, relative humidity, radiation leachate generation 2002/06/01 - 2018/10/31 Incheon This study
RMSE=149.2
MAE=98.2
a)

adaptive neural fuzzy inference system

b)

neural network-based leachate prediction method