대기 중 미세먼지를 포함한 태양광발전 예측 인공지능 모델 개발

Development of Artificial Intelligence Model to Forecast Photovoltaic Power Generation Including Airborne Particulate Matter

Article information

J Korean Soc Environ Eng. 2022;44(4):111-124
Publication date (electronic) : 2022 April 30
doi : https://doi.org/10.4491/KSEE.2022.44.4.111
1Department of Environmental Engineering, Kangwon National University, Republic of Korea
2Department of Integrated Energy and Infra System, Kangwon National University, Republic of Korea
윤재성1orcid_icon, 김경민2orcid_icon, 안종화1,2,orcid_icon
1강원대학교 공과대학 환경공학과
2강원대학교 에너지 인프라 융합학과
Corresponding author E-mail: johnghwa@kangwon.ac.kr Tel: 033-250-6357 Fax: 033-259-5542
Received 2021 December 30; Revised 2022 March 6; Accepted 2022 April 8.

Abstract

목적

본 연구는 대기 중 미세먼지를 입력인자에 포함한 단일모델, 하이브리드(hybrid) 모델 등을 상호 비교하여 태양광 발전량 예측을 위한 최적 모델을 제시하고자 한다.

방법

전라남도 진도군에 있는 1 MW급 태양광 발전량 자료와 목포 지점의 기상 자료와 미세먼지 자료를 2016년 12월에서 2019년 12월까지 사용하였다. 입력 인자는 일사량, 일조 시간, 기압, 기온, 습도, 풍속, 풍향, 적설량, 강수량, PM10, PM2.5를 사용하였다. 사용된 모델 중 단일모델로는 랜덤포레스트(random forest, RF), 인공신경망(artificial neural network, ANN), 장단기메모리(long-term dependency problem, LSTM), 게이트 순환 유닛(gate recurrent unit, GRU)을 사용하였으며, 하이브리드 모델로는 LSTM-ANN, GRU-ANN을 사용하였다. 모델의 예측 성능을 비교, 평가하기 위해 결정계수(coefficient of determination, R2), 평균 제곱근 오차(root mean square error, RMSE), 평균절대 오차(mean absolute error, MAE)를 사용하였다.

결과 및 토의

RF를 이용해서 중요도를 확인한 결과, 일사량(77.66%), 일조 시간(4.85%), 기압(4.16%), 기온(3.98%), 습도(2.25%), 풍속(2.21%), PM10(2.72%), PM2.5(1.65%), 풍향(1.44%), 적설량(0.05%), 강수량(0.02%)의 순으로 나타났다. GRU-ANN은 모델 중 가장 높은 R2 (0.838)를 보였고 학습 조기 종료(early stop)를 사용하여 GRU보다 낮은 epoch(8)를 보였다.

결론

미세먼지를 포함한 태양광 발전량 예측에 GRU-ANN 모델이 가장 우수하다.

Trans Abstract

Purpose

This study aims to suggest an optimal model for predicting photovoltaic (PV) power generation by comparing single and hybrid models that include particulate matter in the atmosphere as input parameters.

Methods

From December 2016 to December 2019, 1 MW-class PV power generation data in Jindo-gun, Jeollanam-do and meteorological data and particulate matter data from Mokpo were used. Radiation, sunshine time, pressure, temperature, humidity, wind speed, wind direction, snow load, precipitation, PM10, and PM2.5 were used as input parameters. We used single models such as random forest (RF), artificial neural network (ANN), long short-term memory (LSTM), and gate recurrent unit (GRU) and hybrid model such as LSTM-ANN and GRU-ANN. Coefficient of determination (R2), root mean square error (RMSE), and mean absolute error (MAE) were used to compare and evaluate the prediction performance of the models.

Results and Discussion

The variable importance through RF was as follows: radiation (77.66%), day light hours (4.85%), pressure (4.16%), temperature (3.98%), humidity (2.25%), wind speed (2.21%), PM10 (2.72%), PM2.5 (1.65%), wind direction (1.44%), snow cover (0.05%), and precipitation (0.02%). GRU-ANN showed the highest R2 (0.838) among the models and lower epoch (8) than GRU using the early stop.

Conclusion

The GRU-ANN model was the most suitable for forecasting PV power generation including particulate matter.

1. 서 론

세계적으로 산업이 발전하며 에너지 소비가 빠르게 증가하고 있다[1]. 이때 에너지 생산에 있어 화석연료에 높은 의존도는 전 지구적 문제가 되는 온실가스로 인한 기후변화를 일으키고 있다. 이런 심각한 문제를 해결하는 방안으로 화석연료의 대체에너지로써 재생에너지의 적극적인 활용이 필요하다[1]. 특히 태양광발전은 설치가 용이하며 접근성이 좋은 에너지원으로써 온실가스 감소를 위해 적극적으로 설비 비중을 증가시키려고 하고 있다[2]. 국내 종합적인 전력 정책 방향을 제시하는 ‘제9차 전력수급 기본계획’에서 태양광발전은 2020년 기준 14.6 GW에서 2034년까지 45.6 GW로 증가시킨다는 계획을 내놓았다[3]. 태양광발전소를 에너지원으로 사용할 때 다양한 요소들이 영향을 끼치게 된다.

태양광발전 효율을 향상하기 위해서는 주 에너지원인 일사량이 충분히 전달되어야 한다[4]. 하지만 화석연료의 사용, 무분별한 개발, 내연기관 차량 이용 등으로 발생한 미세먼지(particulate matter 10, PM10)와 초미세먼지(particulate matter 2.5, PM2.5)는 태양광발전을 위한 일사량에 영향을 끼칠 수 있는 요소이다[5]. 특히 선행연구에 따르면 국내 대기 중 PM10, PM2.5를 동시에 사용하지 않고 개별 인자에 대해서만 다중 회귀 분석(multiple regression analysis)을 통해 태양광 발전량을 확인한 결과, 기존 발전량에서 약 15~23% 감소하는 것을 확인하였다[6]. 이 선행연구에서는 더 나아가 두 인자를 동시에 사용하면서 다중 회귀 분석법보다 발전된 분석법을 사용해야 한다고 제시하였다. 대기 중 PM10, PM2.5를 포함한 태양광 발전량 예측의 더 발전된 분석법으로 인공지능을 사용하는 것을 고려할 수 있으며 모델별 성능 비교로 더 높은 성능의 모델 개발이 필요하다[7].

다양한 기상 조건에서 태양광 발전량의 더욱 정확한 예측은 기존 전력망에 편입을 쉽게 함으로써 화력 발전량을 줄여 온실가스양 감소, 기후변화 완화 등의 면에서 환경에 긍정적 영향을 준다[8,9,10,11]. 정확한 사업계획과 효과적인 운영을 위한 태양광 발전량 예측[12], 일상생활에 악영향을 끼치는 미세먼지 예측[13] 등에 관한 인공지능 연구는 다수 확인하였다. 하지만 미세먼지 인자를 포함한 태양광 발전량을 예측한 인공지능 모델은 인공신경망(artificial neural network, ANN) 모델을 사용한 한 편의 논문을 찾을 수 있었다[14]. 시간열 자료를 다루는 순환신경망(recurrent neural network, RNN)은 태양광 발전량 예측에 적합하다[15]. RNN의 장기의존성 문제(long-term dependency problem)를 해결하는 장단기 메모리(long short-term memory, LSTM)와 게이트 순환 유닛(gated recurrent unit, GRU)을 사용하여 태양광 발전량을 예측하는 단일모델 성능을 비교하는 연구 사례가 있지만, 미세먼지 인자는 포함하지 않았다[16]. 이런 단일모델의 성능을 향상하기 위한 하이브리드 모델에 관한 연구도 최근 진행되고 있다[17]. 하지만 기존의 단일모델 LSTM과 GRU의 성능향상을 위한 미세먼지 인자가 포함된 태양광 발전량을 예측할 수 있는 하이브리드 모델은 찾을 수 없었다. 따라서 본 연구는 미세먼지를 입력인자에 포함한 단일모델과 하이브리드 모델을 개발하여 최적의 모델을 제시하고, 그 중요도를 확인하고자 한다.

2. 실험방법

2.1. 자료 설정과 입력인자

본 실험은 한국농어촌공사에서 관리하는 전라남도 진도군 지산면 소포리에 있는 1 MW급 태양광발전소를 연구지역으로 사용하였다(Fig. 1). 태양광 발전량을 예측하기 위해 기상, PM10, PM2.5, 발전량 등의 자료를 이용하였다. 기상 자료는 기상청 산하 기상자료개방 포털[18]을 이용하여 본 연구지점과 가장 가까운 전라남도 목포의 종관기상관측(automated synoptic observing system, ASOS) 자료를 얻었다. PM10, PM2.5의 자료는 한국환경공단 산하 에어코리아의 자료[19]를 이용하였고 태양광 발전량은 공공자료 포탈을 통해 한국농어촌공사[20]에서 제공하였다. 기상 관측소와 미세먼지 관측소는 발전소로부터 약 39 km 떨어져 있다. 발전소에서는 태양광 일사량을 측정하지 않고 있다. PM2.5 자료를 2016년 12월부터 받을 수 있었기 때문에 모든 입력자료의 사용 기간은 2016년 12월 1일~2019년 12월 31일로 하였다. 결측치와 태양광발전이 발생하는 오전 6시부터 오후 6시 외의 시간을 제거하는 전처리를 진행하였다.

Fig. 1.

A photo of the Jindo photovoltaic power plant in Korea.

선행연구와 예비 실험을 바탕으로 최종 입력인자는 일사량, 일조 시간, 기압, 기온, 습도, 풍속, 풍향, 적설량, 강수량, PM10, PM2.5 등 11가지를 이용하였다(Table 1). 일사량은 태양광발전에 있어 가장 중요한 부분을 차지한다. 더 많은 일사량을 확보하기 위해 발전소의 설치 위치, 각도 등 다양한 요소를 고려한다[14,21]. 일사량과 일조 시간은 아주 밀접한 요소이다. 일조시간이 확보되지 않는 야간에는 발전이 멈추게 되며 일조시간이 긴 여름은 가장 발전량이 많다[22]. 기온은 태양광 발전기의 전압에 영향을 준다. 기온이 감소하면 발전기의 전류가 하락하기 때문에 전압과 발전량이 상승하게 된다[23]. 습도는 2가지 방식으로 발전량에 영향을 주게 된다. 대기 중의 수증기로 인한 빛의 산란과 높은 습도 환경에 지속해서 노출되며 태양광 패널에 습기가 스며들어 저하가 발생한다[24]. 기압 인자는 앞선 기온과 습도가 발생하는 환경을 만들어주는 주요 인자로써 발전량 변동이 발생한다[25]. 풍속과 풍향은 기온 감소와 공기 중의 이물질을 제거해주는 역할을 하며 발전량 상승의 요인으로서 역할을 할 수 있다[26]. 적설량은 태양광 패널에 눈이 쌓이며 발전을 방해하는 요소 중 하나가 되긴 하지만 진도 지역이 남부지방이라는 특성상 큰 영향을 끼치지 않을 것이다[26]. 강수량은 공기 중의 습도를 향상되게 하거나 온도를 감소시키는 요소가 될 수 있으나 직접적으로 발전량에 아주 큰 영향을 끼치지 않는다[25]. 미세먼지 인자는 빛을 반사하고 공기 중의 다른 입자들과 그 빛이 부딪칠 때 사방으로 재방출되며 태양광 발전소까지 도달하는 복사에너지가 감소하게 된다[24].

Summary of input parameters.

이러한 인자의 중요도 분석을 위해 RF를 사용하였다. 예측 모델로는 ANN, LSTM, GRU 등의 단일모델과 단일모델이 결합한 하이브리드 모델(LSTM-ANN, GRU-ANN)을 사용하였다. 최적 모델을 선정하기 위하여 하이퍼파라미터 최적화, 성능지표 등을 사용하였다.

2.2. 단일모델

2.2.1. 랜덤포레스트

RF는 자료가 고차원이거나 입력자료가 많을 때 정확하고 신속한 예측과 학습 데이터에 대해 과도하게 학습하여 실제 데이터에 대한 오차가 증가하는 현상인 과적합(over fitting) 문제를 해결하기 위한 여러 개의 분류기를 생성하여 그 예측을 결합하여 더 정확한 예측을 도출하는 앙상블 기반의 기계 학습(machine learning) 모델이다[27]. 트리(tree)를 만드는 과정을 위해 학습 셋(training set)의 일부를 무작위로 선정하여 학습하는 배깅(bagging 또는 bootstrap aggregation approach) 과정을 통해 여러 개의 트리를 만들게 된다. 이 방식은 모든 자료를 사용하여 트리를 만드는 부스팅(boosting) 기법이나 기존의 결정트리(decision tree) 학습법보다 효율적이고 보다 정확한 결정을 내릴 수 있다[28]. 이렇게 형성된 트리에서 나오는 결과 중 가장 높은 빈도가 나오는 값을 결과로써 선정한다[29]. 더 나아가 RF는 변수 중요도(variable importance)를 판단하는 데 사용하기도 한다(Fig. 2(a)) [30].

Fig. 2.

Structure of (a) random forest, (b) LSTM-ANN, and (c) GRU-ANN.

2.2.2. 인공신경망

ANN은 인간의 뇌에서 어떤 현상을 판단하는 것에서 영감을 얻어 개발한 인공지능 모델이다[31]. 이 모델은 선형 또는 비선형 자료형과 관계없이 적용할 수 있다. ANN은 입력층(input layer), 은닉층(hidden layer), 출력층(output layer)을 가지고 있으며, 이 층들은 논리 수학적 구조(logical-mathematical structure) 신경망(neuron)으로 연결되어 상호작용하며 정확한 결과를 만들어 낸다[31]. 입력층을 통해 들어오는 다양한 변수를 은닉층 내에서 연속적으로 연산하여 출력층을 통해 결과를 얻게 된다[12].

2.2.3. 장단기메모리

RNN은 짧은 순서가 있는 데이터인 시퀀스(sequence) 데이터에 대해서만 효과가 있으며 학습의 시점(time step)이 길어질수록 기존의 정보가 전달되지 않는 장기의존성 문제를 해결하기 위해 LSTM이 소개되었다[32]. RNN에서의 은닉 상태(hidden state)와는 다르게 LSTM은 셀 상태(cell state)라는 특성이 있다. LSTM 네트워크는 이전 상태에서 오는 정보를 삭제 게이트(forget gate), 입력 게이트(input gate), 출력 게이트(output gate)를 통해 다루어 메모리 셀에 정보를 전달할지를 결정한다[33]. 삭제 게이트는 자료의 삭제 여부를 결정한다. 자료가 상태 내의 이진 분류가 가능한 시그모이드(sigmoid) 함수를 지났을 때 0과 1 사이의 값이 나오게 되며 1에 가까워 1이 출력되면 이전의 cell state로 돌려보내 자료를 유지하도록 한다. 입력 게이트에서는 하이퍼볼릭 탄젠트 층(tanh layer)과 시그모이드 함수를 이용하여 새로운 자료 중 어떤 자료를 사용할지를 결정한다. 마지막으로 출력 게이트를 통해 앞선 게이트들에서 결정된 자료들을 합쳐 어떤 값을 출력값으로 도출할지 결정한다[34].

2.2.4. 게이트 순환 유닛

GRU는 2개의 게이트(update gate, reset gate)를 가지고 있으며 LSTM이 3개의 게이트를 가지고 있는 것 보다 단순화시켰다는 장점이 있다[35]. 이때 reset gate는 이전 상태의 값을 얼마나 사용할 것인지 결정하는 계산을 진행한다. Update gate는 과거와 현재 정보를 다음 결괏값에 얼마나 반영할지에 대한 비율을 구하게 된다[36]. LSTM은 3개의 파라미터와 3개의 게이트를 이용하여 연산했던 것에 반해 GRU는 2개의 파라미터와 2개의 게이트로 연산을 진행하기 때문에 GRU가 학습 가중치가 낮다는 장점이 있다[37].

2.3. 하이브리드 모델

2.3.1. 장단기메모리와 인공신경망

단일모델 LSTM의 연산이 진행된 후 최종 결과를 얻기 위해서는 학습된 모든 뉴런의 입력을 받는 dense layer를 지나게 된다. 이 dense layer에 ANN을 대체시킴으로써 LSTM을 통해 얻은 연산 값을 ANN을 통해 한 번 더 연산을 진행함으로써 더 높은 정확도를 기대할 수 있게 된다(Fig. 2(b)) [38,39].

2.3.2. 게이트 순환 유닛과 인공신경망

GRU-ANN의 하이브리드는 LSTM-ANN과 같게 단일모델 GRU의 dense layer가 있어야 하는 곳에 ANN을 위치시킴으로써 추가적인 연산을 진행한다[39]. 그래서 단일모델 GRU보다는 효율적이고 정확한 결과를 얻을 것이고 LSTM-ANN과는 RNN 모델의 차이이기 때문에 학습 가중치가 낮아지는 효과를 얻을 수 있을 것이다(Fig. 2(c)).

2.4. 모델 최적화와 성능지표

시행 착오법(trial and error)을 이용하여 모델의 성능에 영향을 미치는 변수들인 하이퍼파라미터 최적화(hyperparameter tuning)를 진행하였다[40,41]. 본 연구에서 최적화를 진행하는 변수는 입력층과 출력층 사이의 모든 층을 표현하는 은닉층, 신경망을 구성하는 신경세포와 같은 단위 노드, 학습이 완료된 모델을 검증하기 위한 검증분할(validation split), 전체 데이터셋에 대해 학습을 반복하는 학습 횟수(epoch), 과적합 방지를 위해 진행한 학습 조기 종료 등이다. 학습 조기 종료의 경우, 정해진 학습 횟수인 페이션스(patience)동안 오차 상승을 감지하면 학습을 종료하여 과적합을 방지한다. 또한, 무작위로 일부 뉴런을 탈락시켜 학습 가중치를 감소시키는 드롭아웃을 시도한다.

성능지표는 결정계수(coefficient of determination, R2) (Eq. 1), 평균 제곱근 오차(root mean square error, RMSE) (Eq. 2), 평균절대오차(mean absolute error, MAE) (Eq. 3)를 이용하였다[42].

(Eq. 1) R2=1-i=1N(yi-fi)2i=1N(yi-yi)2
(Eq. 2) RMSE=1N+i=1N(yi-fi)2
(Eq. 3) MAE=1Ni=1N|fi-yi|

여기서, N은 자료의 개수, fi는 관측값 yi는 모델을 통한 예측값, yi는 관측값의 평균이다.

3. 결과 및 고찰

3.1. 단일모델

3.1.1. 랜덤포레스트

RF를 이용하여 발전량 예측을 위한 입력 변수의 중요도 분석(feature importance analysis) 결과, 일사량(77.66%), 일조 시간(4.85%), 기압(4.16%), 기온(3.98%), 습도(2.25%), 풍속(2.21%), PM10(2.72%), PM2.5(1.65%), 풍향(1.44%), 적설량(0.05%), 강수량(0.02%) 순으로 나타났다. 일사량은 태양광 발전량에 가장 큰 영향을 끼치는 인자라는 것을 분석 결과를 통해 확인했다[16]. 이 결과를 바탕으로 일사량이 발생하는 시간대만 모델에 활용하는 데이터로 설정하였다. PM10과 PM2.5도 발전량에 영향을 끼치지만, 중요도가 높지는 않았다. RF의 트리 개수를 선행연구[16]를 바탕으로 설정하여 트리 개수 500개에서 100씩 변동을 진행하였으나 큰 차이가 발생하지 않아 500(Table 2)을 트리 개수로 설정하였다(test R2 = 0.494)(Table 3).

Hyperparameters for artificial neural network, long short-term memory, gated recurrent unit, LSTM-ANN, and GRU-ANN.

Performance comparison of artificial neural network, long short-term memory, gated recurrent unit, LSTM-ANN, and GRU-ANN.

3.1.2. 인공신경망

ANN 최적 모델에서 하이퍼파라미터는 은닉층 1층, 노드 300, 학습 횟수 200, 검증 분할(validation split) 0.1이었다(test R2 = 0.779, test RMSE = 111.6, test MAE = 82.6)(Fig. 3)(Table 3). 은닉층 수를 1층에서 4층까지 달리해 보았을 때, 은닉층이 1층에서 가장 높은 R²와 가장 낮은 오차를 보였다(Fig. 4(a-1)). 학습 횟수의 경우 100~300에서 100씩 변화시킨 결과, 200회의 학습 횟수에서 결과가 가장 좋았다(Fig. 4(a-2)). 은닉층의 노드는 200 ~ 400의 구간에서 50씩 조정한 결과, 노드 300에서 최적의 결과를 얻었다(Fig. 4(a-3)). 활성화 함수는 relu를 사용한다. 검증 분할은 0.1에서 0.3부터 0.1씩 변화시켜 본 결과, 0.1일 때 최적의 결과를 얻었다. 학습 조기 종료(early stop)와 드롭아웃(drop out)의 기능은 사용하지 않은 것이 결과가 더 좋았다(Table 2).

Fig. 3.

Prediction results of photovoltaic power for training and test dataset using artificial neural network, long short-term memory, gated recurrent unit, LSTM-ANN, and GRU-ANN.

Fig. 4.

Hyperparameter tuning of artificial neural network, long short-term memory, gated recurrent unit, LSTM-ANN, and GRU-ANN.

미세먼지를 입력인자로 태양광 발전량을 예측한 ANN 모델을 사용한 논문은 찾을 수 없고, 일사량을 예측한 논문은 1편 정도 찾을 수 있었다[14]. 일별 일사량 예측할 때 입력인자는 일별 온도, 습도, 풍속, PM10, PM2.5 등을 사용하였다. 이 논문에서는 은닉층은 2개(1층의 노드는 12개, 2층은 24개)에서 최적의 결과를 얻었다(train R2 = 0.99, test R2 = 0.97)(Fig. 3). 그외의 최적화 조건은 제시되지 않았다. 예측률이 본 논문과 선행연구와 차이가 나는 이유 중 하나는 출력인자가 태양광 발 전량이 아닌 일사량이기 때문으로 보인다.

3.1.3. 장단기 메모리

LSTM 모델의 최적 하이퍼파라미터는 두 층의 은닉층, 노드 300, 학습 조기 종료를 통한 평균 학습 횟수 약 13회, 페이션스(patience) 5, 검증 분할 0.1, 드롭아웃을 0.1로 결정되었다(test R2 = 0.810, test RMSE = 103.4, test MAE = 74.3)(Fig. 3, Table 3). 은닉층 수의 경우, 2층부터 5층까지 비교했을 때 2층이 최적의 은닉층이었다(Fig. 4(b-1)). LSTM 모델에서 은닉층 실험 중 오류가 발생하였는데, 이러한 현상은 다른 모델에서는 발생하지 않았다. 학습 횟수의 최댓값을 500(R2 = 0.785)으로 설정하여 실험했을 때 기존에 설정되어 있던 학습 횟수 200(R2 = 0.793)일 때 보다 정확하지 않았다. 학습 횟수를 큰 값으로 설정 후 최적 결과를 얻지 못했기 때문에 학습 횟수를 하향 조정 진행 후 학습 조기 종료를 시행하여 더 정확한 결과를 얻었다(Fig. 4(b-2)). 노드 100에서 500까지 100씩 조정하여 노드 100에서 최적 결과를 얻었다(Fig. 4(b-3)). 활성화 함수는 relu를 사용하는 것이 좋았다. 검증 분할은 0.1부터 0.3까지 비교하여 0.1일 때 좋은 결과를 얻었다. 학습 조기 종료의 페이션스는 5에서 8까지 조정하여 5에서 좋은 성능을 보였다. 드롭아웃을 0.1~0.3에서 조정한 결과, 0.1에서 최적 LSTM의 결과가 도출되었다(Table 2).

3.2.3. 게이트 순환 유닛

GRU 모델은 은닉층 2층, 노드 400, 학습 횟수 200, 검증 분할 0.1, 활성화 함수는 모두 elu로 설정하여 최적화한 결과를 얻었다(test R2 = 0.823, test RMSE = 104.8, test MAE= 78.3)(Fig. 3)(Table 3). 은닉층을 2~4층까지 조정한 결과, 2층일 때 가장 높은 신뢰도를 얻었다(Fig. 4(c-1)). 학습 횟수는 학습 조기 종료 시도와 100에서부터 500까지 조정한 결과 학습 횟수가 200일 때 모델 성능이 가장 좋았다(Fig. 4(c-2)). 노드는 100~500 범위에서 400이 최적이었다(Fig. 4(c-3)). 활성화 함수는 elu일 때 나은 결과를 보였다. 검증 분할은 0.1에서 0.3까지 조정하였을 때 0.3에서 최적의 결과를 얻었다. 드롭아웃은 설정하지 않았다(Table 2).

3.2. 하이브리드모델

3.2.1. 장단기 메모리와 인공신경망

LSTM과 ANN을 결합한 하이브리드 모델인 LSTM-ANN의 최적화를 위해 앞선 단일모델 실험을 바탕으로 진행한 결과, 은닉층의 경우 LSTM 2층(노드: 400, 400), ANN 1층(노드: 500), 학습 횟수 8(학습 조기 종료 사용, 페이션스 5), 검증 분할은 0.1에서 최적의 결과를 얻었다(test R² = 0.835, test RMSE = 101.1, test MAE = 74.9)(Fig. 3)(Table 3). LSTM의 은닉층을 2층에서 5층으로 조정했을 때 LSTM이 단일모델과 같은 2층일 때 최적의 결과를 얻었다. ANN 은닉층을 우선 1층에서 3층으로 조정하였으며 ANN의 은닉층이 단일모델과 같은 1층일 때 높은 정확도를 보였다. 이에 은닉층은 LSTM 2층, ANN 1층으로 설정하였다(Fig. 4(d-1)). 학습 횟수는 500에서부터 50까지 조정했을 때 큰 차이를 보이지 않았기 때문에 학습 조기 종료를 진행하였다(Fig. 4(d-2)). 페이션스를 5부터 7까지 조정한 결과 페이션스 5에서 가장 좋은 결과를 얻었다. 노드 수는 ANN의 노드를 300에서 600까지 조정한 결과 하여 500에서, LSTM의 노드는 200부터 700까지 조정하였을 때 노드 400일 때 최적이었다(Fig. 4(d-3)). 활성화 함수는 relu일 때 최적의 결과를 얻었다. 검증 분할은 0.1부터 0.3까지 비교한 결과, 0.1일 때 가장 좋은 결과를 얻었다. 드롭아웃은 사용하지 않았다(Table 2).

3.2.2. 게이트 순환 유닛과 인공신경망

GRU-ANN 모델은 GRU와 ANN을 결합하여 만들었다. 앞선 단일모델에서 도출된 하이퍼파라미터 값을 기준으로 최적화를 진행하였다. GRU-ANN은 은닉층의 경우 GRU 2층, ANN 1층, 노드는 GRU 600/600, ANN 300, 학습 반복 횟수는 약 8회(학습 조기 종료 적용), 페이션스 5, 검증 분할 0.1, 드롭아웃은 사용하지 않고 최적 결과를 얻었다(test R2 = 0.838, test RMSE = 100.1, test MAE = 72.2)(Fig. 3)(Table 3). 은닉층은 GRU의 경우 2층에서 4층으로 조정한 결과 2층에서, ANN은 1층에서 3층까지 변화시킨 결과 1층에서 최적이었다(Fig. 4(e-1)). 학습 횟수는 학습 조기 종료를 이용하여 학습 반복 횟수 약 8회로 최적 결과를 얻었다(Fig. 4(e-2)). 이때 페이션스는 5에서 8로 조정한 결과, 5에서 가장 좋은 결과를 얻었다. 노드는 GRU의 경우 200에서 800까지 변화시킨 결과 600일 때, ANN은 100에서 500까지 조정한 결과 300일 때 최적이었다(Fig. 4(e-3)). 활성화 함수가 모두 relu일 때 최적 결과를 얻었다. 검증 분할은 0.1에서 0.3까지 변화시켜 본 결과, 0.1에서 최적의 결과를 얻었다(Table 2).

3.3. 모델 비교 및 기존 논문과 비교

모델별 test R2는 단일모델의 경우 ANN 0.779, LSTM 0.810, GRU 0.834, 하이브리드 모델의 경우 LSTM-ANN 0.835, GRU-ANN 0.838로, 하이브리드 모델의 성능이 우수하였다. 또한, MAE(LSTM-ANN 74.9, GRU-ANN 72.2), RMSE (LSTM-ANN 101.1, GRU-ANN 100.1) 등에서도 GRU-ANN이 우수하였다. 즉, 모델의 성능이 GRU-ANN > LSTM-ANN > GRU > LSTM > ANN > RF 순으로 나타났다. 학습 횟수를 비교해 보면, GRU는 200, GRU-ANN는 약 8회(학습 조기 종료 사용)로 GRU보다 GRU-ANN 모델이 더 효율적인 학습이 가능하였다.

그 중 서포트 벡터 머신(support vector machine, SVM)을 이용하여 베이징을 대상으로 온도, 산란 일사량(Diffuse radiation), PM10, PM2.5 등을 입력인자로 이용하여 전체 일사량(atmospheric radiation)을 예측한 논문에서 test R2 = 0.819로 상대적으로 정확도가 낮았다(Table 4) [43]. 앞선 논문을 작성한 연구진에서 SVM에 알고리즘(heuristic algorithm)을 추가한 SVM-알고리즘 하이브리드 모델 성능을 비교한 연구에서는 입력인자를 온도, 대기 중 일사량(total radiation), PM10, PM2.5에 O3를 사용하여 test R2 = 0.931이라는 결과를 얻었다. 하지만 두 논문 모두 직접적으로 태양광 발전량을 예측한 것이 아니라 일사량 예측을 통해 간접적으로 태양광 발전량을 추측한다는 것이 본 논문과 차이가 있다(Table 4) [44].

Previous studies on artificial intelligence models for forecasting radiation or photovoltaic power generation.

국내에서는 SVM을 이용하여 부산 복합태양광 발전소를 대상으로 일사량, 기온, 강수량, 습도, 풍속, 풍향, 운량, PM10, PM2.5를 사용하여 태양광 발전량 예측을 진행하였다[7]. 본 연구에서는 일조 시간 전체에 해당하는 인자를 대상으로 예측하지만, 선행연구에서는 발전 피크시간(12:00-14:00)만을 대상으로 인자를 선정한 것이 본 논문과 차이가 난다(Table 4).

대기 중 미세먼지뿐만 아니라 부착 미세먼지로 인한 발전량 감소도 보고되고 있다[45]. 인도 아마드바드(Ahmedabad)의 태양광발전소 패널 위에 부착 미세먼지로 인한 태양광 발전량의 변화를 확인한 결과 약 7%가량 발전량이 감소하였다. 건조하고 먼지가 많은 지역인 이집트, 쿠웨이트 등에서도 부착 먼지로 인해 20~35% 정도 태양광 발전량이 감소한 것을 보고하였다[46,47]. 따라서 패널에 부착된 미세먼지가 인공지능 모델을 이용한 예측에 영향을 줄 가능성이 크므로 향후 추가 연구가 필요하다.

4. 결론

본 연구에서는 대기오염을 일으키는 미세먼지 입자를 입력 인자로 포함한 태양광 발전량을 예측할 수 있는 성능이 향상된 하이브리드 모델을 개발하였다. 발전량과 같은 광범위한 시계열 자료에 강점을 보이는 LSTM과 GRU에 추가 학습이 가능한 ANN을 결합함으로써 예측 정확도가 향상되었다. 특히, GRU-ANN 모델이 발전량 예측에 가장 적합하였다. PM10 (2.72%)과 PM2.5(1.65%)가 발전량 예측에 영향을 끼치는 인자임을 알 수 있었다. 이러한 모델의 결합 방식은 다른 재생에너지 발전량 예측에도 도움이 될 것이다. 향후 대기 중 미세먼지 뿐만 아니라 태양광 패널에 부착된 미세먼지를 입력인자로 포함한 모델을 개발할 필요가 있다.

Acknowledgements

이 논문은 2018년도 정부(교육부) 재원으로 한국연구재단의 기초연구지원사업(NRF-2018R1D1A1B07041451)과 4단계 BK21 사업(강원대학교, 다학제 융합 에너지자원 신산업 핵심인력 양성사업단)으로 지원된 연구입니다.

Notes

Declaration of Competing Interest

The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.

References

1. Wang H, Lei Z, Zhang X, Zhou B, Peng J. A review of deep learning for renewable energy forecasting. Energy Convers. Manag 198:111799. 2019;
2. Panwara N. L, Kaushikb S. C, Kothari S. Role of renewable energy sources in environmental protection: A review. Renew. Sust. Energ. Rev 15:1513–1524. 2011;
3. Ministry of Trade, Basic electricity supply and demand plan, 9th ed.(2020).
4. Rhodes C. J. Solar energy: principles and possibilities. Sci. Prog 93(1):37–112. 2010;
5. Kosmopoulos P. G, Kazadzis S, El-Askary H, Taylor M, Gkikas A, Proestakis E, Kontoes C, El-Khayat M. M. Earth-observation-based estimation and forecasting of particulate matter impact on solar energy in Egypt. Remote Sens 10(12):1870. 2018;
6. Son J, Jeong S, Park H, Park C. E. The effect of particulate matter on solar photovoltaic power generation over the Republic of Korea. Environ. Res. Lett 15(8):084004. 2020;
7. Sung S, Cho Y. Prediction of photovoltaic power generation based on machine learning considering the influence of particulate matter. Environ. Resour. Econ. Rev 28:467–495. 2019;
8. Tsoutsos T, Frantzeskaki N, Gekas V. Environmental impacts from the solar energy technologies. Energy policy 33(3):289–296. 2005;
9. Hosenuzzaman M, Rahim N. A, Selvaraj J, Hasanuzzaman M, Malek A. B. M. A, Nahar A. Global prospects, progress, policies, and environmental impact of solar photovoltaic power generation. Renew. Sust. Energ. Rev 41:284–297. 2015;
10. Wan C, Zhao J, Song Y, Xu Z, Lin J, Hu Z. Photovoltaic and solar power forecasting for smart grid energy management. CCSEE J. Power Energy Syst 1(4):38–46. 2015;
11. Maryam N, Amjady N. A new solar power prediction method based on feature clustering and hybrid-classification-regression forecasting. IEEE Trans. Sustain. Energy 13(2):1188–1198. 2021;
12. Kumar N, Sharma S. P, Sinha U. K, Nayak Y. K. Prediction of solar energy based on intelligent ANN modelling. Int. J. Renew. Energy Res 6:183–188. 2016;
13. Roy S. Prediction of particulate matter concentrations using artificial neural network. Resour. Environ 2(2):30–36. 2012;
14. Vakili M, Sabbagh-Yazdi S. R, Kalhor K, Khosrojerdi S. Using artificial neural networks for prediction of global solar radiation in Tehran considering particulate matter air pollution. Energy Procedia 74:1205–1212. 2015;
15. Ahn H. K, Park N. Deep RNN-based photovoltaic power short-term forecast using power IoT sensors. Energies 14(2):436. 2021;
16. Kim R, Kim K, Ahn J. H. Comparison between random forest and recurrent neural network for photovoltaic power forecasting. J. Korean Soc. Environ. Eng 43(5):347–355. 2021;
17. Zhang C, Li J, Zhao Y, Li T, Chen Q, Zhang X. A hybrid deep learning-based method for short-term building energy load prediction combined with an interpretation process. Energy Build 225:110301. 2020;
18. Korea Meteorological Administration Weather Data Service, https://data.kma.go.kr/, December(2021).
19. Air Korea, https://www.airkorea.or.kr/, December(2021).
20. Data Publication Portal, https://www.data.go.kr/, December(2021).
21. Yang G, Lee H. M, Lee G. A hybrid deep learning model to forecast particulate matter concentration levels in Seoul. Atmosphere 11(4):348. 2020;
22. Bhardwaj S, Sharma V, Srivastava S, Sastry O. S, Bandyopadhyay B, Chandel S. S, Gupta J. R. P. Estimation of solar radiation using a combination of hidden markov model and generalized fuzzy model. Sol Energy 93:43–54. 2013;
23. Fesharaki V. J, Dehghani M, Fesharaki J. J, Tavasoli H. The effect of temperature on photovoltaic cell efficiency. In : in Proceedings of the 1st International Conference on Emerging Trends in Energy Conservation (ETEC). IEEE. Tehran. 20–21. 2011.
24. Mekhilef S, Saidur R, Kamalisarvestani M. Effect of dust, humidity and air velocity on efficiency of photovoltaic cells. Renew. Sust. Energ. Rev 16:2920–2925. 2012;
25. AlSkaif T, Dev S, Visser L, Hossari M, van Sark W. A systematic analysis of meteorological variables for PV output power estimation. Renew. Energ 153:12–22. 2020;
26. Chen C, Duan S, Cai T, Liu B. Online 24-h solar power forecasting based on weather type classification using artificial neural network. Sol Energy 85:2856–2870. 2011;
27. Belgiu M, Drăguţ L. Random forest in remote sensing: A review of applications and future directions. ISPRS J. Photogramm. Remote Sens 114:24–31. 2016;
28. Briem G. J, Benediktsson J. A. Multiple classifiers applied to multi source remote sensing data. IEEE Trans. Geosci. Remote Sens 40(10):2291–2299. 2002;
29. Breiman L. Random forests. Mach. Learn 45(1):5–32. 2001;
30. Belgiu M, Tomljenovic I, Lampoltshammer T. J, Blaschke T, Höfle B. Ontology-based classification of building types detected from airborne laser scanning data. Remote Sens 6:1347–1366. 2014;
31. Meenal R, Immanuel Selvakumar A. empirical and ANN based solar radiation prediction models with most influencing input parameters. Renew. Energ 121:324–343. 2018;
32. Hochreiter S, Schmidhber J. Long short-term memory. Neural Comput 9(8):1735–1780. 1997;
33. LIU C. H, Gu J. C, Yang M. T. A simplified LSTM neural networks for one day-ahead solar power forecasting. IEEE Access 9:17174–17195. 2021;
34. Gao M, Li J, Hong F, Long D. Short-term forecasting of power production in a large-scale photovoltaic plant based on LSTM. Appl. Sci 9:3192. 2019;
35. Cho K, Merrienboer B. V, Gulcehre C, Bahdanau D, Bougares F, Schwenk H, Bengio Y. Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv 1406:1078. 2014;
36. Fu R, Zhang Z, Li L. Using LSTM and GR U neural network methods for traffic flow prediction. In : in Proceedings 31st Youth Academic Annual Conference of Chinese Association of Automation (YAC)). IEEE. Wuhan. 324–328. 2016.
37. Dey R, Salem F. M. Gate-variants of Gated Recurrent Unit (GRU) neural networks. In : in Proceedings 60th international midwest symposium on circuits and systems (MWSCAS). IEEE. Medford. 1597–1600. 2017.
38. Burgueno L, Cabot J, Gérard S. An LSTM-based neural network architecture for model transformations. In : in Proceedings 22nd International Conference on Model Driven Engineering Languages and Systems (MODELS). IEEE. Munich. 294–299. 2019.
39. Zhang C, Li J, Zhao Y, Li T, Chen Q, Zhang X. A hybrid deep learning-based method for short-term building energy load prediction combined with an interpretation process. Energy Build 225:110301. 2020;
40. Gorgolis N, Hatzilygeroudis I, Istenes Z, Gyenne L. G. Hyperparameter optimization of LSTM network models through genetic algorithm. In : in Proceedings 10th International Conference on Information, Intelligence, Systems and Applications (IISA). IEEE. Patras. 1–4. 2019.
41. Kunang Y. N, Nurmaini S, Stiawan D, Suprapto B. Y. Improving classification attacks in IOT intrusion detection system using bayesian hyperparameter optimization. In : in Proceedings 3rd International Seminar on Research of Information Technology and Intelligent Systems (ISRITI). IEEE. Yogyakarta. 146–151. 2020.
42. Kazem H. A. Evaluation of PV output in terms of environmental impact based on mathematical and artificial neural network models. Int. J. Energy Res 45(1):396–412. 2021;
43. Fan J, Wu L, Zhang F, Cai H, Wang X, Lu X, Xiang Y. Evaluating the effect of air pollution on global and diffuse solar radiation prediction using support vector machine modeling based on sunshine duration and air temperature. Renew. Sust. Energ. Rev 94:732–747. 2018;
44. Fan J, Wu L, Ma X, Zhou H, Zhang F. Hybrid support vector machines with heuristic algorithms for prediction of daily diffuse solar radiation in air-polluted regions. Renew. Energ 145:2034–2045. 2020;
45. Bergin M. H, Ghoroi C, Dixit D, Schauer J. J, Shindell D. T. Schauer, D. T. Shindell, Large reductions in solar energy production due to dust and particulate air pollution. Environ. Sci. Technol. Lett 4(8):339–344. 2017;
46. Ghazi S, Sayigh A, Ip K. Dust effect on flat surfaces–A review paper. Renew. Sust. Energ. Rev 33:742–751. 2014;
47. Caron J. R, Littmann B. Direct monitoring of energy lost due to soiling on first solar modules in California. IEEE J. Photovolt 38(2):1–5. 2012;

Article information Continued

Fig. 1.

A photo of the Jindo photovoltaic power plant in Korea.

Fig. 2.

Structure of (a) random forest, (b) LSTM-ANN, and (c) GRU-ANN.

Fig. 3.

Prediction results of photovoltaic power for training and test dataset using artificial neural network, long short-term memory, gated recurrent unit, LSTM-ANN, and GRU-ANN.

Fig. 4.

Hyperparameter tuning of artificial neural network, long short-term memory, gated recurrent unit, LSTM-ANN, and GRU-ANN.

Table 1.

Summary of input parameters.

Generation (MW) Radiation (MJ/m2) Day light hours (hr) Pressure (hPa) Temperature (°C) Humidity (%) Wind speed (m/s) Precipitation (mm) Snow cover (cm) PM10 (㎍/m3) PM2.5 (㎍/m3)
Maximum 953.1 3.7 1 1036.7 35.1 100 14 39 12.2 340 141
Minimum 0 0 0 0 -9.4 14 0 0 0 2 1
Average 264.4 1.0 0.5 1015.0 14.0 68.4 2.81 0.14 0.04 40.4 19.2
Median 171.9 0.8 0.3 1016.2 15.6 67 232.70 1 2.1 34 16

Table 2.

Hyperparameters for artificial neural network, long short-term memory, gated recurrent unit, LSTM-ANN, and GRU-ANN.

Model Tree Hidden layers Node Epoch Patience Validation split Drop out Activation
RF 500 - - - - - - -
ANN - 1 300 200 - 0.1 - ReLU
LSTM - 2 100 early stop(13) 5 0.1 0.1 ReLU
GRU - 2 400 200 - 0.1 - eLU
LSTM-ANN - LSTM: 2 LSTM: 400 early stop(8) 5 0.1 - ReLU
ANN: 1 ANN: 500
GRU-ANN - GRU: 2 GRU: 600 early stop(8) 5 0.1 - ReLU
ANN: 1 ANN: 300

Table 3.

Performance comparison of artificial neural network, long short-term memory, gated recurrent unit, LSTM-ANN, and GRU-ANN.

R2
MAE(MW)
RMSE(MW)
Train Test Train Test Train Test
RF 0.981 0.494 22.0 112.4 36.0 168.9
ANN 0.986 0.779 11.5 82.6 32.0 111.6
LSTM 0.984 0.810 18.9 74.4 33.9 103.4
GRU 0.983 0.834 10.4 74.1 35.2 101.5
LSTM-ANN 0.979 0.835 19.3 74.9 38.8 101.1
GRU-ANN 0.978 0.838 19.3 72.2 39.4 100.1

Table 4.

Previous studies on artificial intelligence models for forecasting radiation or photovoltaic power generation.

Model Hyperparameter Outcome Input Output Data period Location Literature
ANN Hidden layer=2 R2=0.97 Temperature, Humidity, Irradiance, Wind Speed, PM10, PM2.5 Radiation 2012-2014 Tehran Vakili et al. (2015)
Nodes=12, 24 RMSE=0.077
SVM N/A R2=0.819 Temperature, Irradiance, PM10, PM2.5 Radiation 2014/01-2016/12 Beijing Fan et al. (2018)
RMSE=3.219
MAE=2.146
SVM N/A MAE(kWh)=9.5626 Temperature, Irradiance, Precipitation, Wind speed, Wind Direction, Humidity, Cloud, PM10, PM2.5 Photovoltaic power generation 2016/01-2018/09 Busan Sung et al. (2019)
(12:00-14:00)
MAE(kWh)=9.3797
(13:00)
(Hybrid) SVM N/A R2=0.931 Temperature, Irradiance, Duration of Sunshine, PM10, PM2.5, O3 Radiation 2014/01-2017/03 Beijing Fan et al. (2020)
MAE=0.751