텍스트 마이닝을 통한 국내 미세플라스틱에 대한 비정형 데이터의 정보화

Information Extraction from Unstructured Data on Microplastics through Text Mining

Article information

J Korean Soc Environ Eng. 2023;45(1):34-42
Publication date (electronic) : 2023 January 31
doi : https://doi.org/10.4491/KSEE.2023.45.1.34
1Department of Environmental Engineering, Seoul National University of Science and Technology, Republic of Korea
2Institute of Environmental Technology, Seoul National University of Science and Technology, Republic of Korea
정우성1orcid_icon, 김정진2orcid_icon, 정한석1,2,orcid_icon
1서울과학기술대학교 환경공학과
2서울과학기술대학교 환경기술연구소
Corresponding author E-mail: hanjeong@seoultech.ac.kr Tel: 02-970-6630 Fax: 02-971-5776
Received 2022 November 1; Revised 2022 December 26; Accepted 2022 December 29.

Abstract

목적

미세플라스틱에 대한 비정형 데이터 분석을 통해 미세플라스틱 오염 문제에 대한 쟁점과 숨겨진 경향을 정보화함으로써 미세플라스틱에 대한 보다 입체적 이해를 돕고자 한다.

방법

미세플라스틱에 대한 비정형 텍스트 데이터인 뉴스 기사를 수집하고, 데이터 전처리, 워드 클라우드, TF-IDF 가중치 기반 트렌드 분석 및 토픽모델링 등의 텍스트 마이닝 기법을 이용한다.

결과 및 토의

빅카인즈를 통해 2014~2021년 간의 환경 전체 뉴스와 미세플라스틱 키워드 분석 결과 미세플라스틱에 관한 대중들의 관심이 지속적으로 상승하고 있는 것으로 나타났다. 단어들 중 압도적으로 큰 가중치를 나타낸 키워드는 ‘쓰레기’였다. 연구 기간 동안 사회적으로 주목하는 키워드는 매년 변화해 왔음에도 불구하고 미세플라스틱과 관련된 상위 5개의 키워드는 사라지지 않고 꾸준히 출현했다. 이는 키워드와 관련된 미세플라스틱에 대한 주요 문제점을 해소하지 못했음을 의미한다. 검색어를 ‘미세플라스틱’으로 한정하여 주제의 다양성에는 한계가 있으나, 미세플라스틱 오염원, 미세플라스틱 검출, 미세플라스틱에 대한 대책 등 플라스틱 오염 발생부터 처리까지의 일련의 과정들을 모두 다루고 있음을 확인했다.

결론

환경뉴스에서 미세플라스틱에 대한 텍스트 마이닝 분석을 통해 미세플라스틱 오염에 대한 쟁점과 경향 등을 정보화하였다. 본 연구를 통해 전통적인 환경분석 방법과는 다른 접근법을 통해 환경사회적 문제의 입체적 이해가 가능함을 보였다. 이는 향후 환경문제 관련 정책 제언에 도움을 줄 수 있다.

Trans Abstract

Objectives

In this study, we seek to provide a thorough insight into how people perceive microplastics and uncover issues and hidden trends about the significant microplastic pollution problems by analyzing unstructured data on microplastics.

Methods

Environmental news articles related to microplastics were collected. Text mining techniques including data pre-processing, word cloud, TF-IDF weight-based trend analysis, and LDA topic modeling were used to analyze the amount of textual data.

Results and Discussion

The public's interest in microplastics is consistently growing, according to an analysis of all environmental news and the keyword ‘microplastic’ from 2014 to 2021 conducted via BIGKinds. The keyword 'trash' was the overwhelmingly enormous weight among words. The top 5 keywords connected to microplastics did not fade away and continued appearing even though the socially noticeable keywords during the study period varied yearly. This indicates that the primary issue with microplastics related to keywords has not yet been solved. Our study has a limitation of subject diversity because we only focused on microplastic news. The results, however, presented all processes from plastic pollution emergence to treatment, such as microplastic pollution sources, microplastic detection, and prevention methods against microplastics.

Conclusion

Text mining analysis was performed on microplastics in environmental news and provided issues and trends on microplastic pollution. This study presents a new methodology for environmental and social problem analysis, suggesting that it could enable a multidimensional understanding of environmental problems and help establish environmental policies.

1. 서 론

데이터는 ‘가치가 있지만 정제하지 않으면 실제로 사용할 수 없는 새로운 원유’이다[1]. 최근 빅데이터의 활용은 금융, 의료, 제조, 교육, 여행 등 다양한 분야에서 새로운 가치를 창출하고 미래 먹거리를 만들어내고 있다. 빅데이터는 크게, 형식과 구조가 정해진 정형 데이터와 텍스트, 이미지, 비디오 등과 같이 정형화되지 않은 비정형 데이터로 나눌 수 있다. 데이터는 스마트폰의 보편화와 함께 기술의 발전으로 인한 생성 속도와 처리 용량 증가 등으로 최근 십 수년 간 폭발적으로 증가했다. 시장조사기관 IDC(International Data Corporation)는 2018년 전 세계 데이터양이 33 제타바이트(ZB)에서 2025년에 175 ZB까지 늘어날 것으로 전망하였다[2]. 이 중에서 비정형 데이터가 차지하는 비중은 80% 이상일 것으로 추정되며[3], 빅데이터의 실제적 활용을 위해 비정형 데이터의 큰 부분을 차지하는 텍스트 정보에 대한 분석이 필수 불가결하다.

비정형 데이터는 텍스트 마이닝(Text mining), 오피니언 마이닝, 소셜 네트워크 분석 등의 기법을 통해 분석할 수 있다. 텍스트 마이닝은 정형 데이터에서는 도출하지 못하는 새로운 정보나 지식을 텍스트 정보를 이용해 추출하는 방법으로, 기존 데이터 분석방법으로는 알 수 없던 정보나 새로운 패턴 분석 등이 가능하다[4]. 환경 분야에서도 재활용수에 대한 대중의 관심 변화[5], 20년 간의 폐기물 관리 정책 변화[6], COVID-19 발생 전・후 생활폐기물에 대한 인식변화[7] 등 텍스트 정보를 이용한 다양한 시도가 이루어지고 있다. 하지만, 최근 주요한 환경문제 중 하나인 미세플라스틱에 대한 비정형 데이터의 연구는 미비한 상태이다.

미세플라스틱은 크기 5mm 이하의 작은 플라스틱 조각으로 먼지, 바람, 비 등을 통해 이동과 축적이 용이하고[8] 제거가 쉽지 않다[9] 또한 소수성이 강한 화학물질에 대해 높은 흡착성을 보이고[10], 해양생물의 섭식과 체내 축적 시 물리화학적 피해[11,12], 환경에서의 플라스틱 첨가제 유출 가능성[13] 등으로 인한 문제를 야기하고 있다. 하지만 지금까지 미세플라스틱에 대한 이해는 주로 자연환경에서의 미세플라스틱의 농도(또는 함유량)를 검출하거나[14,15,16], 실험실 규모에서의 미세플라스틱의 거동을 이해하기 위한 연구[17,18]가 주를 이루어 왔다. 이와 같은 전통적인 환경분석 기법을 통한 미세플라스틱의 분석은 자연계 내 미세플라스틱의 분포와 거동에 대해 향상된 이해를 제공하지만, 미세플라스틱이 초래하는 사회적 문제점들에 대한 포괄적 이해에 관해서는 매우 제한된 정보만을 제공한다.

따라서 본 연구에서는 미세플라스틱에 대한 텍스트 데이터를 이용하여 주요 미세플라스틱 오염 문제에 대한 쟁점과 숨겨진 경향을 정보화하고자 한다. 이를 위해 해당 시기의 사회적 이슈나 의견을 잘 반영하는 대표적 데이터[19]인 뉴스 기사를 수집하고, 데이터 전처리, 워드 클라우드, 트렌드 분석 및 토픽모델링 등의 텍스트 마이닝을 통해 미세플라스틱에 대한 환경에의 주요 쟁점과 종합적 이해를 가능하게 하는 정보를 도출하였다.

2. 실험 방법

2.1. 데이터 수집

대표적인 비정형 데이터 중 하나인 뉴스 기사는 당시의 사회적 이슈나 의견을 반영하기 때문에 특정 시점의 현안에 대한 사회적 인식을 파악하기 위해 주로 사용되는 언론매체이다[19,20] 특히 온라인상 뉴스 기사는 원하는 조건식과 주제에 따라 검색이 가능하다는 장점이 있다. 빅카인즈(BIGKinds)는 한국언론진흥재단이 제공하는 국내 최대 뉴스 기사 데이터베이스로, 1990년부터 54개 주요 언론매체의 7,000만 건 이상의 기사를 제공하고 있다[21]. 본 연구에서 수집하고 분석한 뉴스 데이터는 환경 카테고리의 1990년 1월 1일부터 2021년 12월 31일까지 전체 뉴스 기사 중 ‘미세플라스틱’ 키워드를 포함하는 기사로 한정하였다. 또한, 유사도 높은 중복 기사, 인사, 부고, 포토 등의 내용을 담은 기사는 제외하였다. 검색 결과 2011년 이전에는 미세플라스틱 키워드를 포함하는 기사가 존재하지 않았고, 2011년의 경우 플라스틱과 관련된 5건의 수집된 기사가 있었으나 2012년과 2013년의 기사가 존재하지 않아 2014~2021년 8년 간의 961건 기사를 최종 분석에 사용하였다.

2.2. 데이터 전처리

자연어 처리(Natural language processing)는 사람이 일상생활에서 사용하는 자연어를 컴퓨터가 이해할 수 있게 만드는 인공지능의 한 분야이다. 자연어 처리를 위해서는 먼저 문장을 형태소 단위로 구분해야 한다. KoNLPy는 Python에서 제공하는 한국어 형태소 분석을 위한 패키지로, Hannanum, Komoran, Okt, Kkma 등의 형태소 분석기를 포함하고 있으며, 본 연구에서는 연산 속도가 빠르고 띄어쓰기의 구분이 용이한 Mecab 형태소 분석기를 추가로 설치하여 사용하였다. 데이터의 전처리를 위해 분석에 불필요한 특수 문자와 숫자, 두 칸 이상의 공백, 문장 부호 등과, 언론사, 고유명사 등 중요하지 않은 단어(3,977개)는 불용어(Stopwords) 사전을 통해 제거하고, 검색어인 ‘미세플라스틱’ 또한 제외하고 분석하였다. 환경 분야의 형태소 분석에서는 환경용어가 한개의 단어로 온전히 인식되는 것이 중요하기 때문에, 환경 분야에서 흔히 사용하는 단어(2,186개)들을 사용자 사전(User-dictionary)에 추가해 하나의 명사로 인식할 수 있게 하였다. 위와 같은 과정을 거쳐 형태소 단위로 분석된 문장 중 명사만 추출하여 총 12,904개의 단어를 분석에 활용하였다.

2.3. 데이터 분석

2.3.1. 워드 클라우드(WordCloud)

워드 클라우드는 텍스트와 같은 비정형 데이터를 시각화해주는 도구로써, 단어의 빈도수에 따라 크기를 달리하여 핵심 키워드를 직관적으로 파악할 수 있도록 하는 기법이다. 글자의 크기는 단어의 빈도수가 낮을수록 작고, 빈도수가 높을수록 크다. 분석된 키워드를 Python 언어에서 제공하는 WordCloud 라이브러리를 활용해 단어의 연도별 빈도수에 기반하여 각각 상위 200개 키워드를 시각화하였다. 또한, 연도별 빈도수 상위 10개 키워드의 비중과 변화를 분석하였다.

2.3.2. TF-IDF

TF-IDF(Term frequency-inverse document frequency)는 텍스트 마이닝에서 가장 널리 이용되는 용어 가중치 방법 중 하나로, 특정 단어가 문서군 내에서 차지하는 중요도를 나타내는 통계적 수치이다[22,23]. 문서 d에서 특정 단어 t의 TF-IDF 값은 해당 단어의 단어 빈도(Term frequency, TF)와 역문서빈도(Inverse document frequency, IDF)의 내적으로 도출할 수 있다(식 (1)). TF는 해당 문서군에서 특정 용어의 빈도수를 나타내며, 일반적으로 빈도수가 높을수록 중요한 용어라 생각할 수 있지만, 문서군 전반에서 흔하게 등장하는 경우 중요도는 낮아질 수 있다. 전체 문서 중 특정 단어가 등장한 문서의 수를 문서빈도(Document frequency, DF)라고 하며 이 값의 역수를 역문서빈도(IDF)라 한다. TF-IDF는 TF와 IDF를 곱한 값으로 다음 식과 같다.24)

(1) TF-IDFti=tfti,dk×logNdfti

N은 전체 데이터에서의 총 문서의 개수이고, df(ti)ti 가 포함된 문서의 수이다.

본 연구에서는 TF-IDF 용어 가중치를 이용하여 전체 연구기간(2014~2021년) 외에도 미세플라스틱에 대한 코로나바이러스감염증(COVID)-19와 계절 영향을 분석하였다. COVID-19 영향은 전체 연구기간을 COVID-19 발생 전(2014~2019년)과 후(2020~2021년)로 나누어 기사 내 키워드를 분석하였으며, 계절 영향은 일반적인 계절 분류 기준(봄: 3~5월, 여름: 6~8월, 가을: 9~11월, 겨울: 12~2월)에 따라 계절에 따른 키워드 변화를 분석하였다.

2.3.3. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)

토픽모델링은 문서 내 비정형 데이터에서 핵심 단어에 따라 주제(Topic)를 분류해 주는 방법론이다. 잠재 디리클레 할당(Latent Dirichlet allocation, LDA)은 확률적 생성 모형으로서 토픽 모델링의 대표적인 알고리즘 중 하나이다(Fig. 1).

Fig. 1.

Model representation of Latent Dirichlet Allocation (LDA) (Blei et al., 2003).

임의의 토픽 개수 T를 가정하고 모든 단어를 T개의 토픽 중 하나에 할당한다. 이때, 단어 wd,n은 문서 d의 단어들 중 토픽 t에 해당하는 단어들의 확률과 각 토픽 t에서 wd,n를 포함하고 있을 확률을 기준으로 wd,n의 토픽을 재할당하여 올바른 토픽을 가질 때까지 수렴시킨다[25].(Fig. 1).

LDA 토픽모델링은 적절한 주제의 수를 찾는 것이 중요하지만, 최적 개수를 정하는 방법에 관한 연구는 지속해서 진행되고 있다[26]. 따라서 연구자의 주관 개입을 최소화하고자 응집도 지수(Coherence score)를 이용하여 주제의 개수를 선정하였다. Newman et al. (2010)에 의해 제안된 응집도 지수[27]는 토픽모델링 결과에 포함된 주제별 상위 N개 단어의 유사도가 높을수록 큰 값을 가지므로, 응집도 지수가 가장 큰 주제의 개수가 주제별 일관성이 높다고 판단할 수 있다. 2~14개의 주제 중 T=3에서 응집도 지수가 가장 큰 0.484의 값을 가지므로 주제의 수를 3개로 결정하였다(Fig. 2).

Fig. 2.

Coherence score by the number of topics (2 – 14). The coherence score indicates that the higher the coherence score, the higher similarity between the higher-order words in each topic.

3. 결과 및 고찰

3.1. 연도별 기사 수 변화

빅카인즈를 통한 2014~2021년의 환경 전체 뉴스와 미세플라스틱 키워드 분석 결과 미세플라스틱에 관한 대중들의 관심이 지속적으로 증가하고 있는 것으로 나타났다(Table 1). 세부적으로 살펴보면, 검색 기간 1990년부터 2013년 사이에는 2011년 5건의 기사를 제외하고는 미세플라스틱 키워드를 포함하는 기사가 없는 것으로 분석되었다. 2011년 5건의 기사는 KBS에서 방영된 다큐멘터리에 관한 기사임에도 불구하고 후속 기사와 향후 2년 간 관련 기사가 검색되지 않았다. 이는 그 당시 사회적으로 미세플라스틱의 환경문제가 크게 부각되지 않았고 대중들의 관심이 크지 않았음을 시사한다. 하지만 2015년 이후 ‘미세플라스틱’ 키워드를 포함하는 기사의 수와 환경 전체뉴스에서 차지하는 비중이 크게 증가하고 있다는 점에서 대중들의 미세플라스틱에 대한 환경문제 인식이 비교적 최근에 이루어졌음을 알 수 있다.

Changes in the number of microplastic articles (MA), total environmental articles (TEA), and the ratio of MA to TEA by year.

미세플라스틱 관련 기사의 증가율은 2015년과 2016년 사이에 약 4.5배의 가장 큰 증가율을 보였다(Fig. 3). 2016년 이후, 미세플라스틱 관련 기사 증가율은 전체 환경뉴스 발생 감소로 인해 낮아지는 경향을 보였으나, 전체 환경뉴스 대비 미세플라스틱 기사의 비중은 2014년 0.004%에서 2021년 0.953%로 약 230배 증가하였다(Table 1). 이는 대중이 미세플라스틱의 오염과 잠재적 위험성을 인지하고, 사회적 관심이 높아지고 있음을 뜻한다.

Fig. 3.

The variation rate in microplastic news relative to 2014 and the ratio of microplastic news to total environmental news each year.

3.2.TF-IDF 기반 키워드 분석

전체 분석기간(2014~2021년)을 대상으로 TF-IDF를 이용한 키워드 분석결과, ‘쓰레기’ 키워드가 가장 높은 값을 가지고 있는 것으로 나타났다(Table 2). 이는 ‘미세플라스틱’이 ‘쓰레기’에 의해 많이 발생하고 문제화되고 있음을 의미하며, 우리가 미세플라스틱에 기인한 환경문제의 원인과 해결방안을 쓰레기 처리 방식과 연계하여 인식하고 있음을 시사한다. 또한, ‘환경’, ‘해양’, ‘바다’, ‘문제’, 그리고 ‘해양쓰레기’ 등의 단어가 ‘쓰레기’ 뒤를 이었으며, 이는 내륙보다 해양 미세플라스틱 오염에 더 많은 관심을 가지고 있다는 것을 암시한다. 이로부터 해양쓰레기와 바다로 흘러 들어가는 폐기물에 대한 구체적인 관리 대책이 필요함을 알 수 있다.

The top 20 keywords of TF-IDF analysis results. The analyses were conducted for the entire period (2014~2021), its four seasons, and both before (2014~2019) and after (2020~2021) COVID-19 to see seasonal and COVID-19 impacts on microplastic keywords.

미세플라스틱에 대한 계절과 COVID-19 영향 분석에서는 ‘아이스팩’ 키워드 부상이 두드러졌다(Table 2). 계절에 따른 분석에서 봄과 여름에 ‘아이스팩’ 키워드가 각각 8위와 5위를 차지하였는데, 다른 계절에는 상위 20개 키워드에 ‘아이스팩’이 나타나지 않았고, 전체 기간 분석에서도 14위를 차지한 점을 고려할 때, 봄과 여름에 중요도가 높은 키워드임을 알 수 있다. 이는 미세플라스틱 충진재인 고흡수성수지(Super Absorbent Polymer, SAP)를 사용하는 아이스팩을 보냉이 필요한 계절에 많이 사용하기 때문인 것으로 풀이된다. COVID-19 발생 후에 발생 전 기간에는 도출되지 않았던 ‘아이스팩’ 키워드가 5위로 도출되었는데, 이는 COVID-19 영향으로 인한 배달과 포장의 증가가 원인인 것으로 보인다. 특히, 2020년 환경부에서 아이스팩 문제를 인식하고 사용 저감을 위한 대책을 본격적으로 시작하면서 소비자와 언론매체에 아이스팩 사용의 환경문제가 부각된 점도 ‘아이스팩’ 키워드 등장에 영향을 미친 것으로 풀이된다. 이에 따라, 새로운 충진재의 개발이나 보냉을 위한 대체재가 요구된다. ‘아이스팩’과 함께, COVID-19 발생 후에 ‘마스크’ 키워드도 7위로 도출되었는데, 이는 미세플라스틱 문제와 마스크의 사용, 그리고 코로나가 연관되어 있음을 일반 대중도 높은 수준으로 인식하고 있음을 시사한다.

3.3. 워드 클라우드

연구 기간 동안 미세플라스틱과 관련하여 사회적으로 주목하는 키워드는 매년 변화해 왔으며, 이러한 변화를 연도별 상위 200개 키워드를 시각화한 워드 클라우드와 상위 10개 키워드의 비중으로 도식화하였다(Fig. 4). 특히, 연도별 상위 10개 키워드의 변화로부터 특정 연도의 미세플라스틱에 대한 주요 현안을 유추할 수 있었다. 2015년 스티로폼 부표가 주요한 오염원으로 지목되자 해양수산부는 2025년까지 친환경 부표로 대체하는 사업을 추진했다[28]. 마이크로 비즈를 사용한 화장품내 미세플라스틱이 주목받은 2016년에는 식품의약품안전처의 화장품법 하위 고시 개정을 통해 이듬해 7월부터 화장품에서의 미세플라스틱 사용을 금지했다[29]. 2017년에는 환경부에서 우리나라 수돗물 중 미세플라스틱 실태 조사 결과 당 평균 0.05개의 미세플라스틱이 검출되었다고 발표하였다[30]. 2020년과 2021년에는 COVID-19로 인한 영향으로 ‘아이스팩’ 키워드가 상위권에 등장했다.

Fig. 4.

WordCloud visualizations and pie graph of the top keywords from 2014 to 2021. The size of the letter is smaller as the frequency of the word is lower and larger as the frequency is higher.

3.4. 트렌드 분석

TF-IDF 분석 결과로 도출된 상위 5개 키워드는 연구 기간 동안 꾸준히 출현했는데, 이는 미세플라스틱에 대한 주요 문제점을 해소하지 못했으며, 가장 우선적으로 해결해야 할 미세플라스틱 관련 문제가 해당 키워드들과 연결되어 있음을 시사한다. 전체 연도 상위 5개 키워드와 2019년 등장한 ‘아이스팩’ 키워드의 연도별 기사 수 대비 각각의 키워드를 포함하는 기사의 비율을 나타냈다(Fig. 5). 2014년에는 총 2개 기사에서 ‘쓰레기’, ‘해양’, ‘바다’, ‘문제’의 키워드가 모두 언급되었고, ‘환경’ 키워드는 하나의 기사에서 언급되었다. 이후 2016년부터 ‘환경’ 키워드는 거의 모든 기사에서 언급된 것을 확인할 수 있다. ‘환경’ 키워드를 제외한 상위 4개의 키워드의 언급 비중이 약간 하락하였다. 이는 2014년 2건에 불과한 기사 수가 2021년 267건으로 증가함과 동시에, 사회적으로 주목되는 새로운 오염원의 등장이나 미세플라스틱에 관한 새로운 연구 결과와 같이 미세플라스틱에 대한 관심사 확장에 따른 키워드별 비중이 줄어든 것으로 풀이된다. 이와 관련하여 2019년 ‘아이스팩’ 키워드의 등장은 COVID-19로 인한 비대면 정책과 포장음식의 증가가 원인인 것으로 보인다.

Fig. 5.

The percentage of each keyword frequency per the total number of articles from 2014 to 2021.

3.5. LDA를 이용한 미세플라스틱 관련 주제 분석

응집도 지수에 따라 3개의 주제로 잠재 디리클레 할당을 분석하고 도출된 결과에 따라 주제를 명명하였다(Table 3). 검색어를 ‘미세플라스틱’으로 한정하여 분야의 다양성 면에는 한계가 있으나, 미세플라스틱 오염원, 미세플라스틱 검출, 미세플라스틱에 대한 대책 등 플라스틱 오염의 발생부터 관리까지 일련의 과정들을 다루고 있음을 확인했다. 다만, 미세플라스틱의 이동 및 운송 경로인 담수환경과 대기환경, 미세플라스틱 저감 및 처리 기술, 그리고 인간을 포함한 환경에의 유해성 또는 독성 등에 대한 대중의 보다 큰 관심이 필요한 것으로 보인다.

Topic classifications of microplastic news using the Latent Dirichlet Allocation (LDA) modeling.

주제 1: 해양 쓰레기 관리 대책

주제 1을 구성하고 있는 단어들 중 ‘해양’, ‘해양쓰레기’, ‘관리’, ‘교육’, ‘정부’, ‘추진’ 등의 단어를 바탕으로 주제1을 ‘해양 쓰레기 관리 대책’이라 결정하였다. ‘관리’, ‘교육’, ‘정부’, ‘추진’ 등의 단어는 기사에서 사회환경교육 활성화, 해양환경 보전정책 추진, 정부 차원의 정책 추진과 같은 형태로 언급되었다. 따라서 중앙정부의 정책과 연관성이 큰 것으로 판단되어 이를 전반적으로 포괄할 수 있는 ‘관리 대책’이라는 표현을 주제에 포함하였다.

주제 2: 플라스틱 분석 및 검출

주제 2를 구성하고 있는 단어들 중 ‘연구팀’, ‘결과’, ‘물질’, ‘검출’, ‘조사’, ‘확인’ 등의 단어를 바탕으로 주제 2를 ‘플라스틱 분석 및 검출’ 이라 결정하였다. 위와 같은 단어는 대상 시료의 플라스틱 존재 유무, 검출 정도 확인 등과 같이 미세플라스틱에 대한 연구와 관련된 기사에 언급되었다. 이는 현재 전통적인 환경분석 기법을 이용한 미세플라스틱 연구가 이뤄지고 있음을 시사하며, 따라서 이를 전반적으로 포괄하는 용어로 주제를 구성하였다.

주제 3: 플라스틱 오염원

주제 3을 구성하고 있는 단어들 중 ‘쓰레기’, ‘아이스팩’, ‘폐기물’, ‘일회용’, ‘용기’, ‘비닐’, ‘처리’, 등의 단어를 바탕으로 주제 3을 ‘플라스틱 오염원’이라 결정하였다. ‘아이스팩’, ‘일회용’, ‘용기’, ‘비닐’ 등의 단어는 기사에서 해양쓰레기 조사 결과 목록이나 플라스틱 오염의 주요 요인들 중 하나의 형태로 언급되었다. 이는 대중들이 인식하는 플라스틱 오염원이라 판단되어 주제로 결정하였다.

4. 결론

본 연구에서는 점차 증가하고 있는 미세플라스틱에 대한 비정형 데이터의 양을 정량화하고, 미세플라스틱 연관 키워드, 트렌드 및 토픽을 분석함으로써 미세플라스틱에 대한 환경에의 주요 쟁점과 종합적 이해를 가능하게 하는 정보를 도출하였다. 환경분야 기사에서 미세플라스틱 관련 기사가 차지하는 비중이 늘어나고 있다는 사실로부터 미세플라스틱에 대한 사회적 관심도가 점차 커지고 있음을 알 수 있다. TF-IDF 용어 가중치 기법을 통한 계절과 COVID-19 영향 분석에서는 봄, 여름과 COVID-19 발생 후 기간에 ‘아이스팩’ 키워드가 공통적으로 도출되었다. 아이스팩은 포장 시 보냉을 위해 주로 사용되므로 미세플라스틱 오염 저감을 위해 이의 대체재가 요구된다. 또한, 해양에서의 미세플라스틱은 쓰레기로부터 기인한 양이 크다고 인지하고 있다. 이는 해양쓰레기와 바다로 흘러 들어가는 폐기물에 대한 구체적인 관리 대책의 필요성을 시사한다. 관리대책과 연계하여, 뉴스 기사는 중앙정부 등의 정책 변화를 촉구할 수 있는 영향력이 있음을 연도별 워드 클라우드의 키워드 변화로 확인했다. 토픽모델링 분석을 통해 현재 미세플라스틱에 대한 주요 관심 영역인 미세플라스틱 오염원, 해양에서의 플라스틱 오염, 미세플라스틱 검출 여부 등을 알 수 있었고, 향후 보다 큰 관심이 필요한 미세플라스틱 저감 기술, 인간과 환경에의 유해성 등과 같은 영역에 대한 정보를 관찰할 수 있었다. 본 연구는 환경사회적 문제에 대해 보다 입체적인 이해를 제공하기 위해 전통적인 환경분석 기법과 함께 데이터 기반의 접근법이 사용 가능함을 보였다. 이를 통해 비정형 데이터 분석의 필요성과 향후 환경문제 관련 정책 제언에 도움이 될 수 있음을 확인하였다.

Acknowledgements

이 연구는 서울과학기술대학교 교내연구비의 지원으로 수행되었습니다. 이에 감사드립니다

Notes

Declaration of Competing Interest

The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.

References

1. Charles Arthur, The Guardian, https://www.theguardian.com/technology/2013/aug/23/tech-giants-data, October(2022).
2. Reinsel D, Gantz J, Rydning J. The digitization of the world: from edge to core 16International Data Corporation. USA: p. 2–26. 2018.
3. Taleb I, Serhani M. A, Dssouli R. Big data quality assessment model for unstructured data. In : in Proceedings of the 2018 International Conference on Innovations in Information Technology (IIT). IEEE. Al Ain. 69–74. 2018.
4. M. Hearst, What is text mining?, https://people.ischool.berkeley.edu/~hearst/text-mining.html, September(2022).
5. Li L, Liu X, Zhang X. Public attention and sentiment of recycled water: Evidence from social media text mining in China. J. Clean. Prod 303:126814. 2021;
6. Ranjbari M, Saidani M, Esfandabadi Z. S, Peng W, Lam S. S, Aghbashlo M, Quatraro F, Tabatabaei M. Two decades of research on waste management in the circular economy: Insights from bibliometric, text mining, and content analyses. J. Clean. Prod 314:128009. 2021;
7. Lee D. S. Perception changes of municipal solid waste before and after COVID-19 pandemic using text mining. RSS 6(3):1–20. 2021;
8. Brahney J, Hallerud M, Heim E, Hahnenberger M, Sukumaran S. Plastic rain in protected areas of the United States. Science 368:1257–1260. 2020;
9. Nabi I, Bacha A-U-R, Zhang L. A review on microplastics separation techniques from environmental media. J. Clean. Prod 337:130458. 2022;
10. Alimba C. G, Faggio C. Microplastics in the marine environment: current trends in environmental pollution and mechanisms of toxicological profile. Environ. Toxicol. Pharmacol 68:61–74. 2019;
11. Wright S. L, Thompson R. C, Galloway T. S. The physical impacts of microplastics on marine organisms: A review. Environ. Pollut 178:483–492. 2013;
12. Zhao Y. B, Gao P. P, Ni H. G. A chemical time bomb: Future risks of microplastics. Water Air Soil Poll 230:268. 2019;
13. Hermabessiere L, Dehaut A, Paul-Pont I, Lacroix C, Jezequel R, Soudant P, Duflos G. Occurrence and effects of plastic additives on marine environments and organisms: A review. Chemosphere 182:781–793. 2017;
14. Watkins L, McGrattan S, Sullivan P. J, Walter M. T. The effect of dams on river transport of microplastic pollution. Sci. Total Environ 664:834–840. 2019;
15. Maes T, Jessop R, Wellner N, Haupt K, Mayes A. G. A rapid-screening approach to detect and quantify microplastics based on fluorescent tagging with Nile Red. Sci. Rep 7:44501. 2017;
16. Scopetani C, Chelazzi D, Mikola J, Leiniö V, Heikkinen R, Cincinelli A, Pellinen J. Olive oil-based method for the extraction, quantification and identification of microplastics in soil and compost samples. Sci. Total Environ 733:139338. 2020;
17. Rillig M. C, Ziersch L, Hempel S. Microplastic transport in soil by earthworms. Sci. Rep 7:1362. 2017;
18. Wang Q, Zhang Y, Wangjin X, Wang Y, Meng G, Chen Y. The adsorption behavior of metals in aqueous solution by microplastics effected by UV radiation. J. Environ. Sci 87:272–280. 2020;
19. Lee D. K, Kwon H. S. Keyword analysis of the mass media’s news articles on maker education in South Korea. Int. J. Technol. Des. Educ 32:333–353. 2022;
20. Wei J, Wei Y, Western A. Evolution of the societal value of water resources for economic development versus environmental sustainability in Australia from 1843 to 2011. Glob. Environ. Change 42:82–92. 2017;
21. BIGKinds news bigdata & analysis Home Page https://www.bigkinds.or.kr/, August(2022).
22. Choi W. S, Kim S. B. N-gram feature selection for text classification based on symmetrical conditional probability and TF-IDF. J. Korean Inst. Ind. Eng 41(4):381–388. 2015;
23. J. Ramos, Using tf-idf to determine word relevance in document queries, in Proceedings of the first instructional conference on machine learning, Rutgers University, Piscataway, pp. 133-142(2003).
24. Sanz B, Santos I, Ugarte-Pedrero X, Laorden C, Nieves J, Bringas P. G. Anomaly detection using string analysis for android malware detection. International Joint Conference SOCO’13-CISIS’13-ICEUTE’13 In : Herrero A, Baruque B, Klett F, Abraham A, Snášel V, de Carvalho A. C. P. L. F, Bringas P. G, Zelinka I, Quintián H, Corchado E, eds. Springer. Cham: p. 469–478. 2014.
25. Blei D. M, Ng A. Y, Jordan M. I. Latent dirichlet allocation. J. Mach. Learn. Res 3:993–1022. 2003;
26. Nahm C. H. An illustrative application of topic modeling method to a farmer’s diary. Cross-Cultural Studies 22(1):89–135. 2016;
27. Newman D, Lau J. H, Grieser K, Baldwin T. Automatic evaluation of topic coherence. In : in Proceedings of the Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL. Association for Computational Linguistics. Stroudsburg. :100–108. 2010;
28. KDI-Korea Development Institute Home Page, https://eiec.kdi.re.kr/policy/materialView.do?num=157734, October(2022).
29. Ministry of Food and Drug Safety Home Page Ministry of Food and Drug Safety Home Page, https://www.mfds.go.kr/webzine/201610/03.jsp, October(2022).

Article information Continued

Fig. 1.

Model representation of Latent Dirichlet Allocation (LDA) (Blei et al., 2003).

Fig. 2.

Coherence score by the number of topics (2 – 14). The coherence score indicates that the higher the coherence score, the higher similarity between the higher-order words in each topic.

Fig. 3.

The variation rate in microplastic news relative to 2014 and the ratio of microplastic news to total environmental news each year.

Fig. 4.

WordCloud visualizations and pie graph of the top keywords from 2014 to 2021. The size of the letter is smaller as the frequency of the word is lower and larger as the frequency is higher.

Fig. 5.

The percentage of each keyword frequency per the total number of articles from 2014 to 2021.

Table 1.

Changes in the number of microplastic articles (MA), total environmental articles (TEA), and the ratio of MA to TEA by year.

Year Microplastic articles (MA) Total environmental articles (TEA) Ratio (MA/TEA)
2014 2 48,477 0.004%
2015 6 53,309 0.011%
2016 30 59,343 0.051%
2017 46 25,104 0.183%
2018 161 27,082 0.595%
2019 224 34,582 0.648%
2020 226 27,538 0.821%
2021 267 28,029 0.953%

Table 2.

The top 20 keywords of TF-IDF analysis results. The analyses were conducted for the entire period (2014~2021), its four seasons, and both before (2014~2019) and after (2020~2021) COVID-19 to see seasonal and COVID-19 impacts on microplastic keywords.

Rank Entire period
Seasonal impact
COVID-19 impact
2014~2021 Spring Summer Fall Winter 2014~2019 2020~2021
1 쓰레기 쓰레기 쓰레기 쓰레기 쓰레기 쓰레기 쓰레기
2 환경 환경 환경 환경 환경 환경 환경
3 해양 해양 해양 해양 해양 해양 해양
4 바다 해양쓰레기 바다 제품 바다 바다 바다
5 문제 바다 아이스팩 화장품 조사 제품 아이스팩
6 해양쓰레기 분해 문제 바다 교육 문제 분해
7 제품 문제 폐기물 환경부 문제 화장품 마스크
8 오염 아이스팩 해양쓰레기 문제 해역 해양쓰레기 해양쓰레기
9 조사 수거 오염 검출 해양쓰레기 오염 수거
10 수거 한강 분해 오염 미세먼지 조사 문제
11 관리 폐기물 인간 수돗물 오염 검출 폐기물
12 폐기물 관리 수거 생태 관리 환경부 관리
13 분해 재활용 생물 결과 수거 관리 오염
14 아이스팩 오염 기술 물질 결과 결과 조사
15 결과 페트병 제품 관리 제품 물질 생태
16 생태 생태 결과 조사 계획 미세먼지 결과
17 물질 조사 관리 처리 마스크 생물 교육
18 생물 발생 활용 국내 물질 수돗물 발생
19 발생 플랑크톤 조사 영향 영향 폐기물 코로나
20 검출 지구 물질 해양쓰레기 사업 생태 배출

Table 3.

Topic classifications of microplastic news using the Latent Dirichlet Allocation (LDA) modeling.

Topics Topic #1
Topic #2
Topic #3
Marine waste management measures Plastic analysis and detection Plastic pollution source
Word list 환경 발생 오염 생물 쓰레기 아이스팩
해양 환경부 결과 분해 환경 활용
쓰레기 추진 환경 연구팀 문제 사람
해양쓰레기 조사 물질 수돗물 바다 비닐
관리 생태 검출 확인 재활용 일회용
바다 부표 바다 화장품 폐기물 생활
수고 사업 영향 생태 지구 인간
문제 정책 제품 크기 배출 처리
계획 정부 조사 입자 제품 용기
교육 처리 해양 문제 분해 가능