CNN–GRU 딥러닝 모델을 활용한 대한민국 주요 도시의 미세먼지 농도 예측
Prediction of Fine Dust Concentrations in Major South Korean Cities Using a CNN–GRU Deep Learning Model
Article information
Abstract
본 연구는 대한민국 8개 주요 특・광역시를 대상으로 미세먼지(PM2.5, PM10) 농도를 예측하기 위해 CNN–GRU 하이브리드 딥러닝 모델의 적용 가능성을 평가하였다. 미세먼지와 대기오염 인자(SO2, CO, O3, NO2) 자료는 인구 규모와 인구 밀도가 가장 높은 측정 지점에서 2020년부터 2024년 10월까지 1시간 단위로 수집하였고, 수집된 자료에 대해 기초 통계 분석과 Pearson 상관계수를 활용한 상관성 분석을 수행하였다. 예측 모델은 국소적 특성 추출을 위해 1층 CNN을, 시계열 패턴 학습을 위해 2층 GRU를 적용하여 설계하였으며, 모델 성능 평가는 RMSE와 SMAPE를 활용하였다. 연구 결과, 평균 PM2.5 및 PM10 농도는 인천광역시에서 가장 높았고, PM2.5는 부산광역시, PM10는 광주광역시에서 가장 낮았다. 대기오염 인자 간 상관성은 서울특별시와 인천광역시에서 두드러졌으며, PM2.5, PM10와 O3간의 상관성은 지역별로 차이를 보였다. CNN–GRU 모델의 예측 성능은 전반적으로 우수하였고, 특히 광주광역시의 경우 PM2.5 예측에서 RMSE 2.36, PM10 예측에서 RMSE 3.44로 가장 좋은 결과를 보였으며, SMAPE 기준으로는 PM2.5 예측에서 인천광역시(21.49%), PM10 예측에서 서울특별시(12.98%)가 가장 우수한 성능을 나타냈다. 이러한 결과는 CNN–GRU 기반 미세먼지 예측 모델이 실시간 대기질 예보 시스템 구축에 활용될 수 있는 높은 잠재력이 있음을 보여주었고, 향후에는 연구 대상 외 다른 도시 및 지역에 대한 적용성과 모델 최적화 연구가 필요하다.
Trans Abstract
This study evaluated the applicability of a CNN–GRU hybrid deep learning model for predicting fine particulate matter (PM2.5, PM10) concentrations in eight major metropolitan cities in South Korea. Data on fine particulate matter and air pollutants (SO2, CO, O3, NO2) were collected hourly from 2020 to October 2024 at measurement sites located in areas with the highest population size and density. Basic statistical analysis and correlation analysis using the Pearson correlation coefficient were performed on the collected data. The prediction model was designed using a one-layer CNN for local feature extraction and a two-layer GRU for time-series pattern learning. Model performance was evaluated using root mean square error (RMSE) and symmetric mean absolute percentage error (SMAPE). Results showed that average PM2.5 and PM10 concentrations were highest in Incheon, while PM2.5 was lowest in Busan, and PM10 was lowest in Gwangju. The correlations among air pollutants were prominent in Seoul and Incheon, and the correlation between PM2.5, PM10 and O3 showed regional differences. The prediction performance of the CNN–GRU model was excellent overall, and particularly, Gwangju showed the best results with RMSE 2.36 in PM2.5 prediction and RMSE 3.44 in PM10 prediction. In terms of SMAPE, Incheon showed the best performance (21.49%) in PM2.5 prediction and Seoul showed the best performance (12.98%) in PM10 prediction. These results showed that the CNN–GRU-based fine particulate matter prediction model has high potential to be used in building a real-time air quality forecasting system. In the future, applicability and model optimization studies for other cities and regions outside the study area are needed.
1. 서 론
급격한 도시화와 상업 및 교통 인프라의 발달로, 국내 주요 도시의 미세먼지 농도는 점진적으로 악화되고 있다[1]. 미세먼지는 입자의 크기에 따라 직경 10μm 이하인 PM10과 2.5 μm 이하인 PM2.5으로 구분하며, 피부, 호흡기 및 각종 심혈관계 질환의 원인이 되는 물질로 알려져 있다[2-4]. 2013년 세계보건기구(WHO) 산하 기관인 국제암연구소(IARC)에서 1급 발암물질로 지정된 미세먼지는 특히 고농도의 노출 시 시민의 야외활동을 위축시키고 일상생활에 부정적인 영향을 미쳐 삶의 질을 악화시키는 요인이다[5]. 그럼에도 불구하고, 국내 주요 도시의 평균 미세먼지 농도는 국내외 대기환경 기준치를 일상적으로 초과하고 있어 국민들의 미세먼지에 대한 인식과 불안이 악화되고 있다[2,6].
현재 국내에서는「대기환경보전법」에서 PM2.5와 PM10에 대한 환경기준을 설정하여 관리하고 있다. PM10의 경우 연평균 기준 50μm/m3, 24시간 평균 기준 100μm/m3이며, PM2.5는 2018년 「대기환경보전법 시행규칙」의 개정으로 연평균 기준 15μm/m3, 24시간 평균 기준 35 μm/m3으로 대폭 강화되어 운영되고 있다[7]. 또한 환경부는 Air Korea을 통해 전국 19개 권역을 대상으로 6시간 간격으로 대기오염농도 등급에 따른 4단계 대기질 예보 체계를 운영하고 있으며, 기상청은 전국의 대기오염측정망을 활용하여, 예보관의 종합적 판단에 기반한 미세먼지 예보 체계를 운영하고 있다[8].
그러나 현재의 예보 체계는 CMAQ(Community Multiscale Air Quality) 등 수치 모델에 기반하고 있으며, 전국 19개 권역 단위로 3~6시간 간격으로 운영되고 있기에 지역별 특성의 반영이 미흡하다는 한계가 존재한다[9,10]. 또한, 단기적으로 발생하는 고농도 미세먼지에 대한 예측력이 현저히 부족하고, 대기질 악화가 발생하였을 경우에 사후 대응 중심으로 예보 체계가 이루어져 있기 때문에 선제적 예방과 대응에 제약이 있다는 한계가 존재한다[11].
이를 극복하기 위해 최근에는 인공지능 기술의 도입으로 기존 시스템의 한계를 극복할 수 있는 가능성이 제시되어 딥러닝 기반의 미세먼지 예측 모델 연구가 활발하게 진행되고 있다[12]. 특히 시계열 예측에 특화된 RNN, LSTM, GRU 등 순환신경망 모델은 시계열 데이터의 불규칙하고 복잡한 패턴 학습에 강점을 보이며, 특히 최근 국외 일부 연구에서는 CNN-GRU 결합 모델이 타 딥러닝 모델에 비해 미세먼지 예측에서 더 낮은 예측 오차를 보이는 것으로 보고되었다[13,14].
이에 본 연구에서는 대한민국 주요 도시 8곳의 시간별 PM2.5, PM10 측정 데이터를 활용하여 딥러닝 기반 미세먼지 농도 예측 모델에 대한 평가를 수행하였다. 수집된 데이터의 특성을 파악하기 위해 기초 통계 분석을 진행하였으며, 미세먼지 농도와 영향 관계가 있는 인자를 파악하기 위해 Pearson 상관계수 기반의 분석을 수행하였다. 또한 수집된 데이터는 예측 모델의 정확성을 극대화하기 위하여 데이터 전처리를 진행하였으며, 데이터의 구간 및 전체 패턴을 효과적으로 분석할 수 있는 CNN-GRU 모델 아키텍처를 데이터 특성에 맞게 설계하여 미세먼지 농도 예측을 수행하고자 하였다.
2. 실험방법(또는 재료 및 방법)
대기 중 미세먼지 농도 측정 데이터를 활용하여 딥러닝 기반의 미세먼지 농도를 예측하는 과정은 Fig. 1으로 도식화하였다. 본 과정은 데이터 수집, 데이터 전처리, 학습 및 검증, 예측 및 성능 평가로 구성되며, 모델의 성능을 극대화하기 위해 하이퍼파라미터 최적화를 수행하였다.
2.1. 연구 대상 지역 및 데이터 수집
본 연구에서는 인구수와 밀도가 높은 대한민국 주요 특·광역시인 서울특별시, 세종특별자치시, 인천광역시, 대전광역시, 대구광역시, 울산광역시, 광주광역시, 부산광역시 등 8개 도시를 연구 대상 지역으로 선정하였다. 행정안전부 소관 행정동별 인구 통계의 2025년 6월 기준 연구 대상 지역의 인구 수 및 인구 밀도는 Table 1과 같이 나타내었다.
또한 각 도시에서 인구수가 가장 많은 측정 지점을 선정하여 데이터 수집을 진행하였으며, 서울특별시는 송파구, 세종특별자치시는 아름동, 인천광역시는 부평구, 대전광역시는 둔산동, 대구광역시는 진천동, 울산광역시는 삼산동, 광주광역시는 일곡동, 부산광역시는 좌동으로 선정하였다.
데이터는 한국환경공단 에어코리아(https://www.airkorea.or.kr)의 1시간 단위 미세먼지 최종 확정 자료를 확보하여 이용하였으며, 데이터 수집 기간은 2020년 1월 1일부터 2024년 10월 31일까지로 설정하였다. 이때 대기 중 황산화물 및 질소산화물이 자외선과 반응하여 황산염 및 질산염을 생성하고, 이와 같은 생성물이 1차 미세먼지와 반응하여 인체에 더욱 위험한 2차 미세먼지를 발생시키기 때문에, 미세먼지의 농도 변화와 타 대기 환경 인자의 상관성을 분석하기 위해 동일 기간 NO2, SO2, CO, O3 데이터를 수집하여 이용하였다[15].
2.2. 데이터 통계 분석
본 연구에서는 시계열 형식의 데이터를 인공지능 모델에 학습시키기 전, 데이터의 특성을 파악하고 적절한 전처리 기법을 도입하기 위해 데이터 통계 분석 과정을 수행하였다. 본 연구에서의 연구 대상 지역별 미세먼지 측정 데이터에 대한 통계 분석은 평균, 중앙값, 최댓값, 최솟값, 표준편차 등으로 산출하였다.
측정 데이터 통계 분석 결과는 원본 데이터를 시계열 형태의 그래프로 시각화한 후 각 구간을 그래프 내에 표시하였다. 이때 미세먼지 농도 변화 특성상 최댓값이 평균값의 범위를 크게 벗어나는 경향이 있기 때문에, 이를 효과적으로 나타내기 위해 y축의 미세먼지 농도 값 범위는 연구 대상 지역의 측정 데이터 범위를 고려하여 유동적으로 설정하였다.
2.3. 데이터 전처리 및 상관관계 분석
수집된 미세먼지를 포함한 대기 환경 인자 데이터는 총 42,835개의 행으로 구성되며, 측정시간과 값으로 이루어진 csv 형식의 파일로 이루어져 있다. 전처리 과정은 입력 데이터 파일을 호출하여 읽은 후, 데이터의 결측치 및 이상치를 처리하고 데이터 상관관계 분석을 수행한 후 CNN-GRU 결합 모델의 성능 향상을 위해 MinMaxScaler 기반의 데이터 정규화 과정을 수행하였다.
먼저 결측치 처리는 결측치가 발생한 구간의 이전값과 이후값을 1차원 직선으로 연결하여 사잇값을 채우는 선형 보간법을 사용하였다. 또한 이상치 처리는 CNN-GRU 결합 모델의 학습 간 정상 패턴을 효과적으로 추출하여 모델 성능을 향상시키기 위해 수행하였으며, 각 연구 대상 지역별 PM2.5 및 PM10 데이터의 IQR(InterQuartile Range, 사분범위)을 활용하여 데이터 전처리를 수행하였다. 본 연구에서의 데이터 이상치 처리를 시각화한 그래프는 Fig. 2으로 나타내었다.
상관관계 분석 과정에서는 PM2.5, PM10과 이를 생성시키는데 영향을 미치는 대기 환경 인자에 대하여 Pearson 상관 계수 기반의 히트맵을 통해 수치를 나타내 시각화하고자 하였으며, 각 미세먼지 인자와 대기 환경 인자 간의 상관 계수를 막대 그래프를 통해 나타내어 PM2.5와 PM10이 동일한 대기 환경 인자에 대해 어느 정도의 영향 관계가 있는지 파악하고자 하였다.
데이터 스케일링은 특정 인자가 타 인자에 비해 값이 매우 클 때, 인공지능 모델이 특정 인자 값의 데이터 패턴에 지나치게 치우쳐 학습하여 타 인자를 충분히 고려하지 못하는 현상을 방지하기 위해 수행되는 전처리 과정이다[16]. 따라서 본 연구에서의 데이터 스케일링 과정은 MinMaxScaler 라이브러리를 통해 입력 데이터의 스케일 범위를 0과 1 사이로 지정하여, 데이터의 분포를 유지하면서도 데이터값의 크기 차이에 의해 CNN-GRU 모델의 성능이 영향받지 않도록 하였다.
2.4. 딥러닝 기반 시계열 예측 모델 설계
본 연구에서는 미세먼지 농도를 예측하기 위하여 CNN- GRU 모델을 설계하여 활용하였다. CNN(Convolution Neural Network) 모델은 이미지 분석 및 분류, 개체 감지 등의 분야에서 활발하게 사용되는 딥러닝 신경망 모델로, 특징 추출에 뛰어난 성능을 보인다[17]. CNN은 이미지 및 영상 데이터 처리에 범용적으로 활용되기 때문에 2D Convolution 모델을 많이 사용하지만, 본 연구에서는 시계열 데이터를 입력 데이터로 사용하기 때문에, 1차원 데이터의 특징 추출 및 처리에 특화된 1D Convolution 모델을 적용하였다.
또한 GRU(Gated Recurrent Unit)는 시계열 데이터나 자연어 문장 등 순차적인 데이터를 처리하는 데 사용되는 순환 신경망 모델로, LSTM(Long Short-Term Memory)에서 구조가 간편화된 모델이다[18]. 기본적인 순환 신경망은 RNN, LSTM 등 타 모델이 존재하지만, RNN은 기울기 소실로 인한 장기의존성 문제로 장기 시계열 데이터에 대한 한계가 존재한다[19]. 또한 LSTM 모델은 RNN의 구조적 한계인 장기 의존성 문제를 극복하고 우수한 성능을 보여 시계열 데이터 예측 분야에 활발하게 사용되었지만 Input gate, Forget gate, Output gate 기반의 복잡한 구조로 인해 긴 연산 시간을 보여 실시간 예측 시스템에 대한 도입에는 한계가 있다. 따라서 LSTM의 세 가지 게이트 구조를 Reset gate, Update gate의 2가지 게이트로 간편화하여 LSTM과 유사한 수준의 높은 예측 정확도를 보이면서도 적은 연산시간을 보이는 GRU 모델을 적용하였다[20]
본 연구에서 사용된 1D CNN-GRU 하이브리드 모델은 먼저 CNN이 전처리 데이터에 대해 구간별 국소 패턴과 특징을 추출한다. 이후 GRU가 추출된 데이터 시퀀스 패턴을 고려하여 데이터의 전체 패턴과 추세를 학습한다. 이를 위해 CNN 모델 블록을 첫번째 층으로 구성하고 GRU 블록을 다음 층으로 배치하였으며, Dense 층을 마지막 층으로 배치하여 미세먼지 예측을 수행하도록 하였다. 이때 모델 학습 간 과적합을 방지하고 학습 안정성을 확보하기 위해 Dropout을 설정하였다. 본 연구에서 설계된 CNN-GRU 모델 아키텍처는 Fig. 3으로 나타내었다.
2.5. 딥러닝 모델 성능 평가 지표
본 연구의 미세먼지 농도 예측을 위한 CNN-GRU 모델 성능 평가 지표는 Eq 1~2에 나타난 바와 같이 RMSE(Root Mean Squared Error, 평균 제곱근 오차), SMAPE(Symmetric Mean Absolute Percentage Error, 대칭 평균 절대 백분율 오차)를 선정하였다.
RMSE는 모든 시점에서의 예측값과 실제값의 차이를 제곱한 후 평균을 산출한 MSE(Mean Squared Error)에 루트를 씌운 지표로, 딥러닝 성능 평가에 가장 범용적으로 사용되는 지표이다[21]. RMSE는 MSE에 비해 오차의 제곱에 루트를 씌우기 때문에 값의 왜곡이 감소하며, 1 미만의 오차는 더욱 작아지고 1 이상의 오차는 더욱 커진다는 특징이 있다. 이로 인해 1 이상의 오차에 대해 이상값이 강조되는 경향이 있으며, 단위는 기존 데이터의 단위와 동일하기 때문에 스케일 의존적이다[22].
SMAPE는 MAPE(Mean Absolute Percentage Error, 평균 절대 오차)의 한계를 극복한 성능 평가 지표로, 대상 데이터의 값이 0에 가까울수록 지표 값이 무한히 상승하거나, 음수값이 도출되는 등 MAPE가 가지는 한계를 수학적으로 보완하였다 [23]. SMAPE는 0~200% 범위 내에서 오차의 비율을 수치화하여 산출하며, 단위가 다른 데이터 간의 오차 비교에도 적합한 특성을 보인다[23,24]. 본 연구에서 도입된 RMSE와 SMAPE는 값이 0에 가까울수록 모델의 예측 성능이 높다.
3. 결과 및 고찰
3.1. 미세먼지 수집 데이터 통계 분석
2020년부터 2024년까지 수집된 8개의 연구 대상 지역별 PM2.5 및 PM10 농도 통계 분석 결과는 Table 2으로 정리하였다. 또한 연구 대상 지역 중 유의미한 특성을 보이는 지점에 대한 통계 분석 결과를 포함한 그래프는 Fig. 4으로 시각화하였다.
통계 분석 결과 모든 지점에서 PM10이 PM2.5 대비 평균 및 최댓값, 표준편차 등이 큰 것으로 나타났다. 이는 PM2.5가 PM10의 정의 내에 포함되기 때문으로 판단된다. 또한 PM2.5의 경우 평균적인 시계열 데이터 패턴에서 비선형적인 피크값이 발생할 때 피크값이 상대적으로 큰 차이를 보이지 않지만, PM10은 특정 시점에서 평균값을 크게 상회하는 피크값이 관찰되었다.
연구 대상 지역별로 비교하였을 때는 인천광역시의 평균 PM2.5 및 PM10 농도가 가장 높음을 알 수 있었으며, PM2.5의 경우 타 지역 대비 표준편차가 가장 크고, PM10의 경우 최댓값이 가장 높은 것을 확인할 수 있었다. PM10의 표준편차는 세종특별자치시에서 가장 높게 나타났다.
PM2.5의 평균 농도가 가장 낮은 지역은 부산광역시로 나타났으며, 표준편차 또한 전 지역 중 가장 낮아 전반적인 농도 변화가 안정적인 것으로 나타났다. PM10의 평균 농도가 가장 낮은 지역은 광주광역시로, 표준편차도 가장 낮은 것으로 확인되었다. 결과적으로 연구 대상 지역 중 미세먼지의 전반적인 최댓값 크기와 표준편차가 큰 인천광역시의 농도 예측이 타 지역 대비 더 큰 오차가 발생할 가능성이 있을 것으로 판단되었다.
3.2. 미세먼지 수집 데이터 상관관계 분석
수집된 연구 대상 지역의 대기 환경 인자 데이터에 대하여 Pearson 상관계수 기반의 상관관계 분석을 수행하였다. 전체 상관관계 분석 결과는 히트맵과 표로 나타냈으며, PM2.5 또는 PM10을 중심으로 한 타 대기 환경 인자와의 상관성은 막대 그래프로 시각화하였다.
본 연구에서의 연구 대상 지역별 미세먼지와 타 대기 환경 인자 간 상관관계는 Table 3으로 정리하여 나타냈으며, 전체 지역 중 각 대기 환경 인자 간의 상관성이 상대적으로 뚜렷하게 나타난 서울특별시와 인천광역시의 상관관계 분석 결과 그래프는 각각 Fig. 5, Fig. 6으로 나타내었다.
전반적인 인자 간 상관성은 모든 지역에서 유사하게 나타났다. 서울특별시 데이터의 경우 PM2.5와 PM10 간 상관계수가 0.81로 높게 나타났는데, 이는 미세먼지의 입자 크기에 따라 분류된 PM10 값에 PM2.5가 포함되기 때문인 것으로 판단된다 [25]. 또한 자동차 배기가스 및 산업 공정 등 유사한 배출원에서 생성되는 NO2와 CO 간의 상관계수가 0.82로 높은 값을 보였으며, CO와 O3 간의 상관계수는 -0.42, NO2와 O3 간의 상관계수는 -0.56으로 각각 음의 상관관계를 나타냈다. 이때 NO2와 O3 간의 상관관계는 NO2가 O3의 전구물질 중 하나로, 이른 아침 시간대에 NO2 농도가 증가한 후 자외선에 의해 광분해 반응이 발생하면서 O3가 생성되는 기전에 의한 것으로 해석된다[26].
미세먼지를 중심으로 타 대기 환경 인자 간 상관관계를 관찰하였을 때는 1차 대기 오염 물질인 CO, NO2, SO2와 상대적으로 강한 상관관계을 나타내지만, 2차 대기 오염 물질인 O3와는 약한 상관관계를 나타냈다. 이는 미세먼지와 CO, NO2, SO2가 차량 배기가스 및 산업활동 등으로 오전에 가장 높은 농도를 나타내는데 비해, O3는 자외선이 가장 강한 오후 시간대에 광분해 작용으로 생성되어 높은 농도를 나타내기 때문인 것으로 판단된다[27].
인천광역시 측정 데이터의 상관관계 분석 결과 PM2.5와 PM10 간 상관계수는 0.84로 서울특별시와 유사하게 높은 값을 보였으며, NO2와 O3 간의 상관계수는 -0.55으로 서울특별시의 결과와 비슷한 수준을 나타내었다. 또한 CO와 O3 간의 상관계수는 -0.38, NO2와 CO 간의 상관계수는 0.78으로 나타났으며, 미세먼지를 중심으로 타 대기 환경 인자와의 상관성을 보았을 때에도 서울특별시와 마찬가지로 PM2.5, PM10과 O3가 매우 약한 상관관계를 보이는 것으로 나타났다. 이를 통해 인천광역시의 모든 상관계수 값은 지역 간 대기 환경에 영향을 미치는 요인의 변동 범위 내에서 서울특별시의 상관관계 분석 결과와 전반적으로 유사한 것으로 확인되었다.
다만 PM2.5 또는 PM10과 O3 간의 상관관계는 연구 대상 지역별로 차이를 보이나, 모든 지역에서의 미세먼지와 O3 간의 상관계수가 전반적으로 낮게 나타난 점을 고려하면 지역 및 시기별 O3 생성에 영향을 미치는 일사량의 차이 등 환경적인 요인에 따라 충분히 변동될 수 있는 범위일 것으로 판단된다[28].
3.3. CNN-GRU 모델 학습을 위한 최적 하이퍼파라미터 도출
본 연구에서는 연구 대상 지역별 CNN-GRU 기반 미세먼지 예측 모델의 성능 평가를 수행하기 위해 연구 대상 지역 중 인구수가 가장 많은 서울특별시 PM2.5 및 PM10 데이터를 대상으로 최적 하이퍼파라미터 도출을 위한 학습 및 예측 성능 평가를 수행하였다. 윈도우 사이즈 24시간, 예측 윈도우 사이즈 1시간, 학습률 0.001 등 타 하이퍼파라미터는 고정하고 에포크를 200, 500, 700, 배치 사이즈를 32, 64으로 설정하여 총 6개의 에포크 및 배치 사이즈 조합별 성능을 분석하였다. 또한 모든 실험은 Intel(R) Core(TM) Ultra 5 125H(3.60 GHz)와 16GB RAM을 탑재한 컴퓨터 환경에서 수행되었다. 하이퍼파라미터 조합별 성능 평가 결과는 Table 4로 정리하여 나타냈으며, 테스트를 통해 도출된 최적의 하이퍼파라미터 그래프는 Fig. 7으로 시각화하였다.
성능 평가 지표인 RMSE와 SMAPE는 PM2.5 예측에 대해 에포크 200 및 배치 사이즈 32에서 각각 3.93, 28.07%로 가장 낮은 수치를 보이는 것으로 나타났다. 또한 PM10 예측에서는 에포크 200 및 배치 사이즈 64에서 가장 좋은 성능을 나타내었으며, 해당 하이퍼파라미터에서의 RMSE 및 SMAPE는 각각 4.24, 12.98%의 수치가 산출되었다. 학습 및 예측 시간을 합한 Total processing time(총 처리 시간)은 에포크 200 및 배치 사이즈 64 조합에서 1,125.59초로 가장 짧은 값을 나타났으며, 에포크 200 및 32 대비 약 2배 절감된 처리 시간이 소요된 것으로 확인되었다.
테스트 결과를 고려할 때, 결과적으로 에포크 200 및 배치 사이즈 64 조합이 CNN-GRU 모델의 성능을 최적화하기 위한 최적의 하이퍼파라미터인 것으로 도출하였다. 본 조합은 PM2.5 예측에서 가장 좋은 성능을 나타낸 에포크 200 및 배치 사이즈 32 조합과 근소한 성능 차이를 보이며, PM10 예측에서 가장 좋은 성능을 나타내면서도 총 처리 시간이 상대적으로 매우 짧아 연구 대상 지역의 미세먼지 예측에 대해 우수한 성능과 신속한 예측이 모두 가능할 것으로 판단하였다.
3.4. CNN-GRU 미세먼지 농도 예측 모델 성능 평가
서울특별시 미세먼지 데이터를 활용하여 도출한 최적의 에포크 및 배치 사이즈 조합을 활용하여 연구 대상 지역별 CNN-GRU 모델 기반의 PM2.5 및 PM10 예측을 수행하였다. CNN-GRU 모델 기반 미세먼지 농도 예측 모델 평가 결과를 종합한 표는 Table 5로 나타내었으며, RMSE를 기준으로 미세먼지 예측 성능이 가장 우수한 광주광역시와, SMAPE 기준 PM2.5 및 PM10 예측에서 각각 가장 좋은 성능을 나타낸 인천광역시와 서울특별시의 PM2.5와 PM10 예측 성능 그래프는 각각 Fig. 8, Fig. 9, Fig. 10으로 시각화하였다.
모든 지역에서의 RMSE 값은 PM2.5에 비해 PM10이 높은 수치를 보였으나, 측정 데이터의 분포를 고려하면 PM2.5와 PM10 모두 전반적으로 우수한 예측 성능을 나타내었다. PM2.5와 PM10 예측에서 RMSE 값이 가장 낮은 지역은 광주광역시였으며, RMSE 값은 각각 2.36, 3.44로 산출되었다. 또한 PM2.5 예측에서 SMAPE 수치가 가장 낮은 지역은 인천광역시로 SMAPE 값은 21.49%이었으며, PM10 예측에서 SMAPE 수치가 가장 낮은 지역은 서울특별시로 SMAPE 값은 12.98%로 나타났다. 반면, PM2.5 및 PM10 예측에서 RMSE와 SMAPE 값이 가장 크게 산출된 지역은 대전광역시로, PM2.5 예측에 대한 RMSE는 5.02, SMAPE는 47.67%이며, PM10 예측에 대한 RMSE는 9.52, SMAPE는 34.95%으로 나타났다. 세종특별자치시는 PM10 예측 RMSE가 8.48, PM2.5와 PM10에 대한 SMAPE가 각각 44.73%, 30.75%로 대전광역시와 함께 낮은 성능을 보였다.
이와 같은 CNN-GRU 모델의 성능 차이는 각 지역별 예측이 동일한 컴퓨터 환경 조건에서 수행된 점을 고려할 때, 지역별 측정 데이터의 통계적 특성에 의해 발생하였을 가능성이 높을 것으로 판단된다. PM2.5 예측의 경우 인천광역시가 표준편차는 가장 높으나 변동계수가 상대적으로 낮았고, 세종특별자치시는 인천광역시 다음으로 표준편차가 크고 변동계수는 모든 도시 중 가장 높았다. 또한 대전광역시의 표준편차는 중간 수준이지만 변동 계수는 세종특별자치시 다음으로 큰 수치를 나타냈다. 이러한 데이터의 특성은 상대적으로 급격하고 불규칙적인 농도 변동이 있었음을 의미하며, 이로 인해 CNN-GRU 모델이 안정적인 시계열 농도 변화 패턴을 상대적으로 학습하기 어려울 수 있을 것으로 해석하였다.
PM10 예측의 경우 세종특별자치시의 표준편차가 가장 크고 대전광역시가 두 번째로 높았다. 두 지역의 변동계수는 광주광역시와 부산광역시를 제외하고 가장 높은 수치를 나타내나, 광주광역시와 부산광역시의 변동계수가 더 높거나 유사한 수치를 보임에도 불구하고 두 지역의 표준편차 값이 세종특별자치시와 대전광역시보다 큰 차이로 낮기 때문에 전반적인 농도 변화는 상대적으로 크지 않는 것으로 판단된다. 따라서 표준편차와 변동계수가 큰 세종특별자치시와 대전광역시의 CNN- GRU 모델 예측 성능이 상대적으로 낮게 도출된 것으로 해석하였다.
결과적으로 오차값의 크기를 강조하여 반영하는 RMSE와 전반적인 수치 범위에서의 예측 정확도를 나타내는 SMAPE의 지표 특성을 고려할 때, 환경 요인의 변화로 인한 미세먼지의 급격한 변동은 광주광역시 데이터에서 가장 잘 포착하는 것으로 보이며, 전반적인 예측 정확도는 PM2.5 예측에서 인천광역시, PM10 예측에서 서울특별시가 가장 우수한 것으로 판단하였다. 일부 지역의 대기환경적 특성으로 인해 예측 성능이 상대적으로 낮게 나오는 경우도 발생하였으나, 이는 데이터 특성에 적합한 데이터 전처리 기법 선정 및 하이퍼파라미터 최적화 등을 통해 개선이 가능하다. 또한 기존 모델에 시계열의 극단값 패턴을 효과적으로 파악하는 Autoencoder 또는 Transformer 모델을 추가 적용할 경우 미세먼지 예측 정확도를 더욱 극대화할 수 있을 것으로 예상된다[29,30].
4. 결 론
본 연구에서는 대한민국 주요 특·광역시 8곳의 미세먼지 예측을 위한 딥러닝 CNN-GRU 하이브리드 모델 기반의 예측 모델을 개발하였다. 이를 위해 수집된 데이터의 특성을 파악하기 위한 통계 분석 및 상관관계 분석을 선행하였으며, 높은 예측 성능을 구현하기 위하여 원본 데이터의 결측치 및 이상치를 전처리하는 과정을 수행하였다.
미세먼지 데이터 통계 분석 결과 모든 연구 대상 지역에 대해 PM10이 PM2.5 대비 큰 평균과 표준편차를 보였으며, 부산광역시의 경우 PM2.5, 광주광역시의 경우 PM10의 표준편차가 가장 낮은 것을 확인하였다.
Pearson 상관계수 기반의 대기 환경 인자 데이터 상관관계 분석에서는 연구 대상 지역 중 서울특별시와 인천광역시의 상관관계가 가장 뚜렷하게 관찰되었으나, 인자 간의 전반적인 상관성은 모든 지역에서 유사하게 나타났다. 이 때 PM2.5 및 PM10과 O3 간의 상관관계는 각 지역별 일사량의 차이 등 환경적인 요인에 따라 변동될 수 있는 범위에서 약한 양 또는 음의 상관성을 나타내는 것을 관찰하였다.
CNN-GRU 기반의 모델 학습을 위하여 서울특별시 미세먼지 데이터를 대상으로 최적의 에포크 및 배치 사이즈를 도출하기 위해 에포크 200, 500, 700, 배치 사이즈 32, 64로 설정하여 총 6가지 조합에 대한 사전 테스트를 수행하였다. 그 결과, 에포크 200 및 배치 사이즈 64 조합이 미세먼지 예측에 대해 가장 우수한 성능을 보이는 것으로 확인하였다.
도출된 하이퍼파라미터를 모든 연구 대상 지역에 동일하게 설정하여 CNN-GRU 미세먼지 예측 모델에 대한 학습 및 성능 평가를 수행하였다. 그 결과 RMSE를 기준으로 하였을 때는 광주광역시 데이터로 하였을 때 성능이 가장 우수했으며, SMAPE를 기준으로 하였을 때는 PM2.5 예측에서 인천광역시, PM10 예측에서 서울특별시 데이터의 예측이 가장 우수하였다. 그러나 일부 지역에서의 예측 성능이 상대적으로 낮게 도출된 점을 고려하면, 데이터 특성에 최적화된 데이터 전처리 기법 및 하이퍼파라미터 최적화 등을 통해 이를 개선할 수 있을 것으로 판단된다.
결과적으로 본 연구는 시민의 공중보건 증진과 민감 계층 보호를 위한 실시간 미세먼지 예보 및 경보 시스템 운영의 참고 자료가 될 수 있을 것으로 판단되며, 향후에는 타 지역을 대상으로 한 CNN-GRU 모델 성능 평가 및 예측 성능 최적화, 극단값을 효과적으로 탐지할 수 있는 Autoencoder, Transformer 등의 모델 추가 도입 가능성 평가 등의 연구가 필요할 것으로 사료된다.
Notes
Acknowledgement
본 연구는 2025년도 환경부(한국환경보전원)의 재원으로 화학물질 안전관리 특성화대학원사업의 지원을 받아 수행된 연구입니다. 이에 감사드립니다.
Declaration of Competing Interest
The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.
