|
The Korean text of this paper can be translated into multiple languages on the website of http://jksee.or.kr through Google Translator.
AbstractThis study assessed the performance of six machine learning (ML) models which were developed to predict various properties of 888 pesticides based on molecular descriptors. The log-transformed soil organic carbon partition coefficient values obtained from the Pesticide Properties Database (PPDB) website and 690 molecular descriptors in 2D estimated from the molecular descriptor calculator Mordred were used as dependent and independent variables in the models, respectively. The constructed data set was split into training and test sets at an 8:2 ratio based on stratified sampling. Important variables which were responsible for the success of adopted ML models were selected based on a combination of filter and embedded methods. Also, hyperparameter optimization for each ML algorithm was done by random search. Results showed that the top-ranked variables such as SLogP, ZMIC1, and FilterltLogS determined from the variable importance significantly contributed to the improvement in model performance although their contribution highly varied from algorithm to algorithm. In addition, the random forest (RF) model achieved the highest prediction accuracy out of them in terms of all evaluation metrics such as R2. Identical results for model performance were also observed with hyperparameter tuning. The developed RF model exhibited relatively low error rates reaching around 1% against 5 target pesticides, as compared to those of the KOCWIN model in EPI Suite ranging roughly from 5% to 27%. We believe that a proposed methodology for the development of predictive models based on molecular descriptors helps end-users not only improve the accuracy of existing models but also refine their algorithms.
요약본 연구는 분자 설명자를 이용하여 888개 농약에 대한 물성을 예측할 수 있는 6개의 기계학습 모델의 성능을 평가하였다. 농약 물성 데이터베이스로부터 확보한 로그 변환된 토양 유기탄소 분배계수와 분자 설명자 계산기로부터 산정된 690개의 분자 설명자는 기계학습 모델의 각각 종속 및 독립 변수로 사용되었다. 구축된 데이터 셋은 8:2의 비율로 계층적 샘플링을 통해 훈련 및 테스트 셋으로 분리되었다. 기계학습 모델의 성공에 중요한 역할을 하는 중요 변수는 필터 및 임베디드 방식의 조합을 통해 선정되었다. 또한, 기계학습 모델의 초매개변수 최적화는 무작위 검색을 통해 수행되었다. 평가 결과, 비록 변수 중요도는 개별 알고리즘별로 각각 상이하지만, 변수 중요도를 통해 결정된 SLogP, ZMIC1, FilterltLogS 등과 같은 상위에 도출된 변수들은 모델의 성능 향상에 중요하게 기여하는 것으로 평가되었다. 6개의 모델 중 랜덤 포레스트(RF) 모델은 R2와 같은 모든 평가 지표에서 가장 높은 예측 성능을 갖는 것으로 평가되었다. 또한, 초매개변수 조정을 통해서 동일한 모델 성능 평가 결과가 관측되었다. 개발된 RF 모델은 대략 5%에서 27%의 오차율을 갖는 EPI Suite의 KOCWIN 모델에 비해, 5개 평가 농약에 대해 약 1%에 이르는 낮은 오차율을 갖는 것으로 조사되었다. 분자 설명자를 기반으로 한 예측 모델 개발을 제안한 방법은 사용자가 기존 모델의 정확도를 향상하고 자체 알고리즘을 조정하는데 도움을 줄 수 있을 것으로 기대된다. 1. 서 론정량적 구조-활성 관계(Quantitative structure-activity relationship, QSAR)은 수학적 모델, 통계학적 방법 등을 사용하여 기존 물질의 화학 구조와 생물학적 활성 간의 관계를 파악하여 신규 물질의 활성을 예측하는 기술로서, 신약 개발, 독성학, 환경과학 등의 분야에서 널리 활용되고 있다. 이와 유사하게 사용되고 있는 용어로는 정량적 구조-물성 관계(Quantitative structure-property relationship, QSPR) 있으며[1], QSPR에 사용되는 대표적인 물성의 예시로는 반응성(Reactivity), 독성(Toxicity), 전기화학(Electrochemistry), 생분해성(Biodegradability) 등이 있다[2-5].
Organisation for Economic Co-operation and Development (OECD) QSAR Toolbox와 Virtual Models for Evaluating the Properties of Chemicals within a Global Architecture QSAR (VEGA QSAR) 등은 QSAR 분야에서 가장 일반적으로 사용되는 대표적인 프로그램으로 알려져 있다. 예를 들면, OECD QSAR Toolbox는 경제협력개발기구(OECD)와 유럽화학물질청(European Chemicals Agency)가 공동 개발한 소프트웨어로, 화학물질 유사성 기반으로 분류하여 화학물질의 독성 및 환경 거동을 예측하는 모델이며, 화학안전성 평가 및 독성예측 연구 등에 많이 활용되고 있다[6]. VEGA QSAR은 이탈리아 마리오 네그리 약리학 연구소(Istituto di Ricerche Farmacologiche Mario Negri)가 개발하였으며, 수십 개 이상의 독립 모델이 탑재되어 새로운 물질의 물리 화학적특성, 환경거동, 및 독성을 사전에 예측하기 위해 활용되고 있다[7]. 이처럼 QSAR 기반의 모델 또는 프로그램은 신규 물질의 다양한 특성들을 사전에 예측하여 사용자에게 제공함으로써 불필요한 실험과 이에 수반되는 시간과 비용을 절감하는데 기여하고 있다[8,9]. 다만, QSAR의 모델의 성능은 모델 개발에 사용된 데이터 품질 및 모델링 방법 들에 크게 영향을 받는 것으로 알려져 있다.
한편, 농약의 물성 예측에 활용되는 대표적인 QSAR 기반의 프로그램으로는 Open (Quantitative) Structure-Activity/Property Relationship App (OPERA), Estimation Program Interface Suite (EPI Suite) 등이 있다. OPERA는 미국 환경보호청(United States Environmental Protection Agency)에서 개발된 것으로 다수의 독립 모델로 이루어져 있으며, 토양 옥탄올-물 분배계수, 녹는점, 및 증기압 등을 예측할 수 있고, 예측 값과 함께 적용 가능한 영역 (Applicability domain), 변수의 중요도 등을 추가적으로 제공하여 해석에 유용한 장점이 있다[10]. EPI Suite 프로그램 또한 미국 환경보호청에서 개발되었으며, 개별 예측 프로그램을 단일 인터페이스로 통합하여 화학물질에 대한 다양한 물성 예측 결과 값을 제공하고 있다. 주요 기능으로 KOCWIN, HENRYWIN, 및 BIOWIN 등의 하위 모델을 통해 각각 토양 유기탄소 분배계수(Soil organic carbon partition coefficient, Koc), 헨리 상수, 및 생분해도 등을 예측할 수 있다[11,12].
한편, QSAR 또는 QSPR의 독립변수로 주로 분자 설명자가 활용되고 있으며[13], 화학분자 구조를 문자열로 표기한 Simplified Molecular Input Line Entry System (SMILES)를 토대로 Mordred [14], PaDEL-descriptor [15] 등의 계산 도구를 통해 다차원(1차원, 2차원, 3차원 등)의 분자 설명자가 산정되게 된다. 도출된 분자 설명자는 예측 모델의 독립 변수로 사용되고 있으며, 최근 모델의 예측력을 향상하기 위해 기계학습 알고리즘 사용이 증가하고 있다. Dashtbozorgi 등[16]은 농약 잔류물에 대해 계산된 분자 설명자를 사용하여 서포트 벡터 머신(Support vector machine, SVM)으로 QSPR 모델을 구축하여 가스 크로마토그래피-질량 분석법(GC-MS) 유지 시간을 예측하였으며, 해당 모델은 상관계수(R)를 기준으로 높은 예측력(R=0.985)을 보이는 것으로 평가되었다. Yang 등[17]은 농약에 대해 분극률 등의 분자 설명자를 사용하여 랜덤 포레스트(Random forest, RF) 분류 모델을 개발하였으며, 개발된 모델은 고독성 농약을 높은 정확도(79.4%)로 판별하는 것으로 조사되었다. 이외에도 Duchowicz[18]는 농약의 수용해도, 옥탄올-물 분배계수, 및 증기압 등의 물성을 예측하기 위해 다중 선형 회귀분석(Multi linear regression, MLR), 서포트 벡터 머신(SVM) 등을 적용하여 물성 예측 시 다중 선형 회귀분석(MLR)에 비해 서포트 벡터 머신(SVM)과 같은 비선형 모델들의 예측 성능이 우수함을 입증한 바 있다.
본 연구에서는 다양한 분자 설명자 중 Mordred에서 도출된 2차원 기반의 분자 설명자를 이용하여 기계학습 모델 기반의 토양 유기탄소 분배계수 예측 모델을 개발하고자 하였다. 보다 구체적으로는 1) 혼합형 변수 선정 방식을 적용하여 기계학습 모델의 최적 변수 조합을 도출하고, 2) 기계학습 모델의 예측 성능 평가 및 초매개변수 조정을 통해 가장 우수한 예측 모델을 선정하고자 하였으며, 3) 타 모델과의 예측 정확도 비교를 통해 개발된 기계학습 모델의 성능을 검토하고자 하였다. 본 연구를 통해 도출된 결과는 향후 기존 QSAR 또는 QSPR 기반의 유사 모델의 성능 개선 또는 모델 재개발에 활용될 수 있을 것으로 기대된다.
2. 재료 및 방법2.1. 모델 데이터 셋 구축본 연구에서는 기계학습 기반의 농약 물성 예측 모델을 개발하고 평가하기 위하여 총 888개농약에 대한 데이터 셋을 구축하였다. 예측 모델의 종속 변수로는 농약의 토양 유기탄소 분배계수를 선정하였으며, 대상 물질들에 대한 관련 물성 정보는 국내외에서 광범위하게 활용되고 있는 Pesticide Properties Database (PPDB, https://sitem.herts.ac.uk/aeru/ppdb/en/)를 통해 수집되었다. 농약의 토양 유기탄소 분배계수 자료 구축 시 대상 농약에 대한 SMILES 정보가 함께 수집되었다. 예측 모델의 독립 변수로는 Mordred (ver. 1.2.0)에서 제공하는 2차원 기반의 분자 설명자가 사용되었으며, SMILES 정보를 통해 총 690개의 변수가 도출되어 본 연구에 독립 변수로 활용되었다. 참고로, Mordred에서는 총 1,826개의 2차원 분자 설명자가 기본적으로 제공되고 있으나(https://mordred-descriptor.github.io/documentation/master/descriptors.html)[19], 본 연구에서는 Python (ver. 3.7.16) 환경에서 연동하여 제공 중인 1,613개의 분자 설명자에서 값이 0 이상으로 의미 있는 분자 설명자에 한정(0 또는 결측 변수 제외)하여 독립 변수로 사용하였다. 구축된 데이터 셋은 8:2의 비율로 학습과 테스트 데이터 셋으로 (즉, 토양 유기탄소 분배계수의 값이 개별 데이터 셋에 고르게 분포할 수 있도록) 각각 분리되었으며, 토양 유기탄소 분배계수의 값은 로그(log10) 변환 후 모델에 적용되었다.
2.2. 기계학습 모델본 연구에서는 농약 물성 예측 모델을 개발하기 위해 총 6개의 기계학습 알고리즘을 활용하였다. 보다 구체적으로는 사용된 라쏘(Least absolute shrinkage and selection operator, LASSO), 서포트 벡터 머신(SVM), 랜덤 포레스트(RF), 익스트림 그래디언트 부스팅(Extreme gradient boosting, XGBoost), 아다부스트(Adaptive boosting, AdaBoost), 및 라이트 GBM (Light gradient boosting machine, Light GBM)을 사용하였다. 기계학습 모델은 Python (ver. 3.7.16)의 scikit-learn 패키지(ver. 1.0.2)를 활용하여 구현하였으며, 개별 알고리즘별 이론, 장단점 및 초매개변수 정보 등은 관련 홈페이지(https://scikit-learn.org/stable/index.html)를 통해 보다 자세히 확인할 수 있다. 참고로, 기계학습 모델의 초매개변수 조정(Hyperparameter tuning)은 다양한 방법 중 무작위 검색(Random search)를 통해 결정되었다.
2.3. 중요 변수 선정본 연구에서는 농약 물성 예측 모델의 중요한 독립 변수를 선정하기 위하여 혼합형(Hybrid) 변수 선정 방법을 채택하였다(Fig. 1). 이러한 사유는 단일 변수 선정 방법 적용 시 기계학습 모델의 성능 저하 현상이 지속적으로 확인되어 이를 방비하고자 혼합형 변수 선정 방법을 적용하였다. 혼합형 변수 선정은 필터(Filter) 방식과 임베디드(Embedded) 방식으로 크게 2단계로 구분되어 있다. 우선, 필터 방식의 경우 최소 중복성–최대 관련성(Minimum redundancy maximum relevance, mRMR) 기법을 적용하여 전체 690개의 분자 설명자를 평가하였으며, mRMR 점수를 기준으로 상위 40개의 독립 변수를 일차적으로 선정하였다. 이후, 임베디드 방식에서는 1) 선정된 40개 변수를 이용하여 6개의 기계학습 알고리즘을 학습한 후, 2) 모델별로 변수 중요도를 재 산정하였으며, 3) (평균 제곱근 편차(Root mean square error, RMSE)를 기준으로) 개별 모델별로 오차율이 최소화되는 변수 조합(최소 5개에서 최대 15개 범위 내)을 최종적으로 선정하였다. 개별 알고리즘은 최적의 변수 조합을 통해 최종적으로 재 훈련된 후 평가되었다.
2.4. 성능 평가 기준 및 타 모델과의 성능 비교본 연구에서는 기계학습 모델의 성능 평가를 위한 기준으로 평균 절대 오차(Mean absolute error, MAE), 평균 제곱근 편차(RMSE), 결정계수(Coefficient of determination, R2)를 사용하였으며, 모델 훈련 시 5겹 교차검증(5-fold cross validation)을 적용하였다. 이외 개발된 모델의 성능을 추가적으로 검증하기 위하여 농약 물성 예측에 국내외에서 가장 광범위하게 활용되고 있는 EPI Suite (ver 4.1) 내 KOCWIN 모델을 사용하여 예측 오차율을 비교하였다.
3. 결과 및 고찰3.1. 초기 및 최종 변수 중요도
Fig. 2는 농약 물성 예측 모델을 개발하기 위해 사용된 총 690개의 분자 설명자 중 mRMR 점수를 기준으로 선정된 상위 40개 변수 목록을 나타내고 있다. 초기 변수 중요도를 산정한 결과, SLogP(0.40), EState_VSA3(0.06), ZMIC1(0.04), ATSC5are(0.03), Xc-6dv(0.03), FilterltLogS(0.03)등이 가장 중요한 변수로 선정되었다. 또한, 40개 변수의 mRMR 점수는 최대 0.40에서 최소 0.01를 갖는 것으로 조사되었다. 선정된 40개의 변수들은 분자 설명자의 특성별로 13개의 소그룹(중분류 기준)으로 통합될 수 있으며(Table 1), 이 중 Estate(원자 유형 e-상태 설명자)에 관련된 분자 설명자가 9개로 가장 많이 포함되어 있고, Autocorrelation(위상 구조 설명자의 자기상관) 및 Moe type(라부테의 근사 표면적 설명자)와 관련된 변수가 각각 8개 및 6개로 포함되어 있는 것으로 조사되었다. 참고로, 선정된 상위 40개 변수에 대한 변수 명, 소그룹 정보 및 세부적인 설명은 Table 1에 자세히 제시되어 있다.
Fig. 3은 임베디드 방식을 통해 도출된 기계학습 모델 별 중요 변수를 나타내고 있으며, 중요 변수가 가장 높게 채택된 알고리즘은 LASSO (15개) 및 Light GBM (15개)이고, 가장 적게 채택된 알고리즘은 AdaBoost (6개)로 평가되었다. 또한, 모델별로 채택된 중요 변수의 종류 및 상대적 중요도는 알고리즘별로 크게 상이한 것으로 평가되었다. 다만, 알고리즘별로 다소 차이는 있지만 mRMR 점수를 기준으로 일차적으로 가장 중요한 변수로 선정된 변수들이 모델 예측에 크게 기여하는 것으로 조사되었다.
3.2. 기계학습 모델 별 성능
Table 2는 기계학습 알고리즘별 최적 변수 조합(괄호 안 숫자 참조)을 통해 도출된 예측 모델의 (토양 유기탄소 분배계수 예측) 성능을 나타내고 있다. 성능 평가는 각각 훈련과 테스트 데이터 셋을 기반으로 수행되었으며, 특히 훈련 데이터 셋의 경우 5겹 교차검증을 통해 도출된 결과를 나타내고 있다. 평가 결과, RF 모델의 예측 성능이 결정계수(R2)를 기준으로 훈련 및 테스트 데이터 셋 모두 가장 우수한 것으로 평가되었다(R2가 1에 근접할수록 가장 우수). 또한, 다른 평가 지표인 평균 절대 오차(MAE) 및 평균 제곱근 편차(RMSE)의 기준으로도 RF 모델의 예측 성능이 대체로 다른 모델에 비해 가장 우수한 것으로 조사되었다(MAE 및 RMSE가 0에 근접할수록 가장 우수). 기타, RF 모델의 경우 총 10개의 최적 분자 설명자가 채택되어 보다 많은 변수를 채택한 LASSO (15), XGBoost (14), Light GBM (15) 모델들에 비해 우수한 성능을 가지는 것으로 평가되어, 채택한 알고리즘과 알고리즘에 최적화된 변수의 조합이 모델 예측 성능에 매우 큰 영향을 미치고 있음을 반증하는 결과로 판단된다.
Table 3은 무작위 검색(Random search)를 통해 조정된 기계학습 알고리즘별 초매개변수들의 최적 값을 나타내고 있으며, XGBoost 모델이 가장 많은 초매개변수(8개) 조정이 필요한 것으로 평가되었다. 또한, Table 4는 최적화된 초매개변수 적용을 통해 도출된 기계학습 모델들의 예측 성능을 나타내고 있다. 평가 결과, 대체로 모든 기계학습 모델들의 예측 성능이 향상된 것으로 조사되었으며, 다만 다른 모델에 비해 (훈련과 테스트 데이터 셋에 관계없이) 결정계수(R2), 평균 절대 오차(MAE) 및 평균 제곱근 편차(RMSE) 기준으로 RF 모델의 예측 성능이 여전히 가장 우수한 것으로 평가되었다.
3.3. 타 모델과의 성능 비교
Fig. 4는 (본 연구에서 최고 성능으로 도출된) RF 모델과 EPI Suite 내 KOCWIN 모델의 토양 유기탄소 분배계수 예측 성능을 비교한 결과를 나타내고 있다. 참고로, 모델 평가를 위해 총 5개의 대상 농약을 선정하였으며, 평가 대상 농약은 RF 모델에서 오차율이 가장 낮은 물질을 대상으로 평가를 수행하였다. 예측 성능 검증 결과, RF 모델은 5개 평가 대상 농약에서 대략 1% 내외의 오차율을 갖는 것 조사되었으며, 이에 반하여 KOCWIN 모델의 경우 최소 4.95% - 최대 27.11%의 오차를 나타내는 것으로 평가되었다. 이러한 결과는 본 연구에서 개발된 모델이 기존의 모델을 대체하여 농약의 토양 유기탄소 분배계수를 예측하거나 개선하는데 활용될 수 있는 사실을 반증하는 결과로 판단된다.
4. 결론본 연구에서는 농약의 물성 예측 모델을 개발하기 위하여 6개의 기계학습 모델(LASSO, SVM, RF, XGBoost, AdaBoost, 및 Light GBM)을 적용하여 성능을 평가하였다. 예측 모델의 독립 변수 및 종속 변수로는 2차원 기반의 690개의 분자 설명자와 (로그 변환된) 토양 유기탄소 분배계수가 각각 사용되었다. 총 888개의 농약이 평가되었으며, 평가 대상 농약의 토양 유기탄소 분배계수 및 SMILES 정보는 PPDB로부터 분자 설명자 정보는 Mordred로부터 각각 수집되었다. 필터 및 임베디드 방식을 통합한 혼합형 변수 선정 방법이 단계적으로 적용되었으며, 무작위 검색을 통해 초매개변수 조정이 적용되었다. 본 연구에서 도출한 주요 결과는 다음과 같다.
●초기 40개의 변수 중요도를 분석한 결과, SLogP(0.40), EState_ VSA3(0.06), ZMIC1(0.04), ATSC5are(0.03), Xc-6dv (0.03), FilterltLogS(0.03) 등이 중요한 변수로 도출되었으며, Estate 그룹의 분자 설명자가 가장 많이 포함된 것으로 조사되었다. 그러나, 기계학습 모델 별 최적으로 도출된 변수 조합(독립 변수의 수)은 모델별로 상이하였으며, 일차적으로 중요한 변수로 선정된 변수가 최종 모델 도출 시에도 가장 기여도가 높은 것으로 평가되었다.
●최적의 독립 변수 조합을 기반으로 6개 기계학습 모델의 성능을 평가한 결과 평균 절대 오차(MAE), 평균 제곱근 편차(RMSE) 및 결정계수(R2)를 기준으로 RF 모델의 예측 성능이 (훈련 및 테스트 데이터 셋에서 모두) 가장 우수한 것으로 조사되었다. 초매개변수 조정 이후에도 동일한 결과가 도출되었으며, 또한 최적 변수 조합은 알고리즘별로 상이하여 모델의 예측 성능에 큰 영향을 미치고 있는 것으로 조사되었다.
●국내외에서 농약 물성 예측에 광범위하게 활용되고 있는 EPI Suite 내 KOCWIN 모델과의 예측 성능을 비교한 결과, RF 모델의 경우 5개의 평가 대상 농약을 기반으로 1% 이내의 오차율을 KOCWIN 모델의 경우 최소 5% 이상의 오차율을 보이는 것으로 평가되었다. 본 연구에서 제안한 모델은 향후 다양한 검증을 통해 성능이 확장될 경우 기존에 활용되고 있는 유사한 모델들의 물성 예측 성능을 향상하기 위해 유용하게 활용될 수 있을 것으로 기대된다.
Fig. 3.The importance of variables in individual machine learning algorithms: (a) LASSO, (b) SVM, (c) RF, (d) XGBoost, (e) AdaBoost, and (f) Light GBM. Fig. 4.FComparison of prediction performance of the developed RF model and KOCWIN model in EPI Suite in terms of error rate (%).
Pesticide A = 1,2-dichloropropane, B = Heptenophos, C = 3-(ethylsulfonyl)-2-pyridinesulfonamide, D = Sulfotep, E = propiconazole.
Table 1.Detailed information on the 40 selected molecular descriptors.
a) Code for classification: (a) Acid base = acidic group count descriptor, (b) Atom count = atom count descriptor, (c) Autocorrelation = autocorrelation of topological structure descriptor, (d) Carbon types = carbon types descriptor, (e) Chi = chi descriptor, (f) Estate = atom type e-state descriptor, (g) Information content = neighborhood information content descriptor, (h) Lipinski = Lipinski rule of 5 descriptor, (i) LogS = Filter-it™ LogS descriptor, (j) Moe type = Labute’s approximate surface area descriptor, (k) Path count = path count descriptor, (l) Ring count = ring count descriptor, (m) SLogP = Wildman-Crippen LogP descriptor Table 2.Performance evaluation of six machine learning models before hyperparameter tuning. Table 3.The optimized hyperparameter values in six machine learning models. Table 4.Performance evaluation of six machine learning models after hyperparameter tuning. References1. Shin SE, Cha JY, Kim KY, No KT. QSPR model for the boiling point of diverse organic compounds with applicability domain. Analytical Science and Technology. 2015;28:270–277. https://doi.org/10.5806/AST.2015.28.4.270
2. Li J, Zhao T, Yang Q, Du S, Xu L. A review of quantitative structure–activity relationship: The development and current status of data sets, molecular descriptors and mathematical models. Chemometrics and Intelligent Laboratory Systems. 2025;256:105278. https://doi.org/10.1016/j.chemolab.2024.105278
3. Sun W, Zheng Y, Yang K, Zhang Q, Shah AA, Wu Z, Sun Y, Feng L, Chen D, Xiao Z, Lu S, Li Y, Sun K. Machine learning–assisted molecular design and efficiency prediction for high-performance organic photovoltaic materials. Science Advances. 2019;5:eaay4275. https://doi.org/10.1126/sciadv
4. Ponzoni I, Sebastián-Pérez V, Requena-Triguero C, Roca C, Martínez MJ, Cravero F, Díaz MF, Páez JA, Gómez Arrayás R, Adrio J, Campillo NE. Hybridizing feature selection and feature learning approaches in QSAR modeling for drug discovery. Scientific Reports. 2017;7:2403. https://doi.org/10.1038/s41598-017-02114-3
5. Liu L, Wang P, Tu X, Cao Y, Zhang S, Lu Y, Chen H, Cheng Z, Sun H. Bioaccumulation and biotransformation of triazole pesticides in rice (Oryza sativa L.):Quantitative structure–activity relationship, metabolic pathways, and toxicity assessment. Journal of Agricultural and Food Chemistry. 2025;73:12166–12175. https://doi.org/10.1021/acs.jafc.5c00895
6. Dimitrov SD, Diderich R, Sobanski T, Pavlov TS, Chankov GV, Chapkanov AS, et al. QSAR Toolbox – workflow and major functionalities. SAR and QSAR in Environmental Research. 2016;27:203–219. https://doi.org/10.1080/1062936X.2015.1136680
7. Benfenati E, Manganaro A, Gini GC. VEGA-QSAR:AI Inside a Platform for Predictive Toxicology. PAI@AIIA, Proceedings of the Workshop Popularize Artificial Intelligence. 2013;1107:21–28. https://ceur-ws.org/Vol-1107/paper8.pdf
8. Sullivan KM, Manuppello JR, Willett CE. Building on a solid foundation:SAR and QSAR as a fundamental strategy to reduce animal testing. SAR and QSAR in Environmental Research. 2014;25:181–201. https://doi.org/10.1080/1062936X.2014.907203
9. Rybicka A, Rudén C, Andersson PL. On the use of in silico tools for prioritising toxicity testing of the low-volume industrial chemicals in REACH. Basic & Clinical Pharmacology & Toxicology. 2014;115:77–87. https://doi.org/10.1111/bcpt.12193
10. Mansouri K, Grulke CM, Judson RS, Williams AJ. OPERA models for predicting physicochemical properties and environmental fate endpoints. Journal of Cheminformatics. 2018;10:10. https://doi.org/10.1186/s13321-018-0263-1
11. Card ML, Gomez-Alvarez V, Lee W-H, Lynch DG, Orentas NS, Lee M, Wong EM, Boethling RS. History of EPI Suite™ and future perspectives on chemical property estimation in US Toxic Substances Control Act new chemical risk assessments. Environmental Science:Processes & Impacts. 2017;19:251–259. https://doi.org/10.1039/C6EM00540G
12. Zhang X, Brown TN, Wania F, Heimstad ES, Goss KU. Assessment of chemical screening outcomes based on different partitioning property estimation methods. Environment International. 2010;36:514–520. https://doi.org/10.1016/j.envint.2010.03.010
13. Danishuddin Khan AU. Descriptors and their selection methods in QSAR analysis:paradigm for drug design. Drug Discovery Today. 2016;21:1291–1302. https://doi.org/10.1016/j.drudis.2016.06.013
14. Moriwaki H, Tian Y-S, Kawashita N, Takagi T. Mordred: a molecular descriptor calculator. Journal of Cheminformatics. 2018;10:4. https://doi.org/10.1186/s13321-018-0258-y
15. Yap CW. PaDEL-descriptor:An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 2011;32:1466–1474. https://doi.org/10.1002/jcc.21707
16. Dashtbozorgi Z, Golmohammadi H, Konoz E. Support vector regression based QSPR for the prediction of retention time of pesticide residues in gas chromatography–mass spectroscopy. Microchemical Journal. 2013;106:51–60. https://doi.org/10.1016/j.microc.2012.05.003
17. Yang L, Sang C, Wang Y, Liu W, Hao W, Chang J, Li J. Development of QSAR models for evaluating pesticide toxicity against Skeletonema costatum. Chemosphere. 2021;285:131456. https://doi.org/10.1016/j.chemosphere.2021.131456
18. Duchowicz PR. QSPR studies on water solubility, octanol–water partition coefficient and vapour pressure of pesticides. SAR and QSAR in Environmental Research. 2019;30:135–148. https://doi.org/10.1080/1062936X.2019.1699602
19. Moriwaki H. Mordred molecular descriptors documentation [Internet]. Mordred developers; c2016 [cited 22 December 2025]. Available from:https://mordred-descriptor.github.io/documentation/master/descriptors.html
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||