0. 주제선정배경
Carbon emission prediction models: A review, Science of The Total Environment (2024)
아직 논문 주제를 확정하지 못했지만, 회사 업무인 공급망 탄소중립 그중에서도 탄소배출량 측정, 감축 관련 주제를 데이터 분석 기법을 활용해 유의미한 결과를 도출하는 걸 우선 목표로 했다. Carbon emission prediction algorithm 을 키워드로 주제를 검색했고, 인용횟수가 높은 몇가지 주제를 선정해 리뷰할 것이다.
처음으로 읽은 논문은 리뷰 논문이라 뭣도 모르고 읽긴 했는데, 리뷰 논문을 쓰기엔 도메인 지식이 너무 부족했다. (데이터 분석 방법론에 대한 지식도 없다ㅜ) 이게 리뷰 논문이구나, 리뷰 논문은 안(못) 쓰겠다, 최대한 주제를 뾰족하게 선정해야 하겠다는 생각이 들었다. 그리고 주제를 어떤 분야에서 정할지도 아주조금은 힌트를 준 것 같다.
1. 논문주제
‘Carbon emission prediction models’에 관한 리뷰 논문에서는 총 147개의 연구를 분석하여 탄소 배출 예측 모델을 세 가지 주요 유형으로 분류하고 각각의 특징과 성능을 평가하였습니다.
2. 검색 전략 (Search Strategies)
본 연구는 엄격한 논문 선별 방법을 따랐습니다. 우선 Web of Science 핵심 데이터베이스에서 모든 발표된 연구를 검색하여 가장 권위 있는 논문의 연구 동향을 요약했습니다. 주요 검색 용어는 ‘탄소 배출’, ‘예측’, ‘모델링’, ‘기계 학습’과 같은 단어 조합을 포함했습니다. 검색은 관련 인용이 더 이상 추가되지 않을 때까지 반복되었습니다. 또한 선택된 논문의 참고 문헌 목록을 분석하여 중요한 참조 자료를 식별했습니다. 궁극적으로 영어로 발표된 문헌만 포함했으며, 본 리뷰에 포함된 가장 초기의 CEPM 연구는 2011년의 연구입니다. 문헌 검색 범위는 2011년부터 2022년 8월까지였으며, 최종적으로 147개의 논문이 본 연구의 요구사항을 충족하여 선정되었습니다.
3. 결과
3.1. 예측 모델
- 통계 모델: 회색 모델(Grey Model, GM), 선형 회귀, 패널 회귀, 시계열 모델(ARIMA 등)이 주로 사용됩니다. 회색 모델은 불완전한 데이터와 소규모 샘플에 적합하여 탄소 배출 예측에서 많이 사용되며, 특히 GM(1,1) 모델이 가장 많이 채택되었습니다. 그러나 초기값에 민감하여 연구자의 경험에 따라 성능 차이가 발생할 수 있습니다.
- 신경망 모델: 피드포워드(FNN)와 순환(RNN) 구조를 가진 신경망이 많이 사용되며, LSTM(Long Short-Term Memory)과 같은 개선된 RNN 구조는 장기 의존성을 효과적으로 학습해 장기 예측에 유리합니다. 예를 들어, LSTM은 경제적 변화와 정책 조정을 고려한 장기적인 탄소 배출 데이터 예측에 강점을 보입니다. 일반 피드포워드 신경망은 비선형 관계를 다루는 데 뛰어나며, CEPM(Carbon Emission Prediction Models) 연구에서 많이 활용됩니다.
- 얕은 지능 모델: 서포트 벡터 머신(SVM), 결정 트리 모델과 같은 얕은 구조의 인공지능 모델을 의미하며, 상대적으로 구조가 간단하고 학습 속도가 빠릅니다. 그러나 이 모델들은 매개변수에 따라 성능이 크게 좌우되며, 특히 SVM은 오류 허용치를 조정하는 ‘C’ 값이 너무 높거나 낮으면 과적합이나 과소적합 문제가 발생할 수 있습니다.
- 결합 예측 모델: 다양한 예측 모델을 결합하여 성능을 높이는 방식으로, 통계-통계, 통계-지능형, 지능형-지능형의 세 가지 조합 유형이 있습니다. 통계-통계 모델은 예측 안정성을 높이고, 통계-지능형 모델은 복잡한 데이터에 적합하며, 지능형-지능형 모델은 높은 예측 정확도와 안정성을 제공합니다. 예를 들어, 일반적인 회귀 모델과 인공신경망을 결합하여 보다 정교한 예측을 수행합니다.
3.2. 최적화 모델
- 메타휴리스틱 알고리즘(Metaheuristic Analysis): PSO(입자 군집 최적화), GA(유전자 알고리즘) 등 자연 현상을 모방한 알고리즘을 이용하여 예측 모델의 매개변수나 구조를 최적화하는 방식이 주를 이룹니다. 이 방식은 빠른 수렴 속도와 최적화 성능이 우수하여 예측 모델의 성능을 크게 향상시킬 수 있습니다. 특히 PSO는 SVM이나 LSSVM(Least Squares SVM)의 매개변수 조정을 통해 예측 정확도를 높이는 데 자주 활용됩니다.
- 프로그래밍 모델: 선형 및 비선형 프로그래밍 기법을 통해 목표 함수의 최적값을 구하는 방식입니다. 다만, 탄소 배출 예측 모델에서는 메타휴리스틱 기법에 비해 사용 빈도가 낮습니다.
- 3.3. 예측 인자 선택 모델
- 통계 모델: 다중 회귀 분석, 회색 관계 분석(GRA), 요인 분석(FA) 등이 있으며, 탄소 배출에 영향을 미치는 변수 간의 상관성을 파악하는 데 유용합니다. 예를 들어, 다중 회귀 분석은 인구 증가, GDP 성장 등과 같은 변수가 탄소 배출에 미치는 영향을 정량화하는 데 활용됩니다.
- 기계 학습 모델: 주성분 분석(PCA)과 랜덤 포레스트(RF)가 주로 사용됩니다. PCA는 고차원의 데이터를 줄여 예측에 필요한 중요한 정보를 추출하는 데 도움을 주며, RF는 변수의 중요도를 파악하고 상호작용 효과를 분석하는 데 유리합니다. PCA와 LSTM을 결합한 모델은 예측 정확도를 높이는 데 효과적입니다.
4. 주요 발견 및 평가
- 평가 지표: 모델의 성능 평가는 정확도(R, R2), 오류 지표(RMSE, MAE, MAPE), 복잡성(Akaike 정보 기준, AIC) 등을 사용하여 이루어졌습니다. 특히 오류 지표는 예측 정확도를 평가하는 데 가장 많이 사용되었으며, RMSE, MAE, MAPE가 대표적입니다.
- 영향 요인: 탄소 배출에 영향을 미치는 주요 변수로는 에너지 소비, GDP, 인구, 산업 구조가 있으며, 경제와 에너지가 가장 빈번하게 분석되었습니다. GDP 증가와 에너지 소비 증가는 탄소 배출량을 높이는 주요 요인으로 나타났습니다.
- 연구 동향: 메타휴리스틱과 신경망을 포함한 기계 학습 기법의 사용이 최근 증가하고 있으며, 탄소 배출 예측 모델의 정확도를 높이기 위해 다양한 방법의 조합이 강조되고 있습니다.
5. 결론 (Conclusion)
본 리뷰는 탄소 배출 예측 모델에 대한 전반적인 동향을 조사하고, 다양한 모델의 장단점을 분석했습니다. 통계 모델은 직관적이고 해석이 용이하지만, 비선형 관계에 대한 적응력이 부족합니다. 신경망 모델은 비선형 관계를 잘 처리하지만, 과적합 위험이 있으며 복잡도가 높아 해석이 어렵습니다. 결합 모델은 각각의 장점을 결합해 예측 성능을 향상시키지만, 구현이 복잡하고 계산 비용이 큽니다. 최적화 모델과 예측 인자 선택 모델을 통해 모델 성능을 향상시키는 방식이 많이 사용되었습니다. 본 연구는 향후 CEPM 연구에서 다양한 모델 결합을 통해 예측 성능을 더욱 높일 수 있는 가능성을 시사하며, 각국의 탄소 배출 감소 목표를 달성하기 위한 중요한 기반 자료를 제공할 수 있을 것입니다. 또한 다양한 지역과 산업에 맞는 최적화된 모델 개발이 필요함을 제안합니다.
📌 Gray Relational Analysis (GRA); 회색 관계 분석
시스템과 데이터 간의 관계를 분석하는 통계적 기법 중 하나입니다. 주로 불확실성이 높은 상황이나 정보가 불완전한 경우에 유용하게 사용됩니다. 회색 이론은 데이터를 “회색”으로 간주하며, 이 회색이라는 개념은 정보의 불완전함을 의미합니다. 따라서 GRA는 제한적이거나 불확실한 데이터를 활용하여 변수 간의 관계를 정량적으로 측정하고 평가할 수 있습니다.
회색 관계 분석의 기본 개념은 각 변수의 시계열 데이터를 표준화하고, 이 표준화된 값을 통해 각 변수 간의 유사도 또는 상관관계를 구하는 것입니다. 이를 통해 변수들 간의 유사성을 판단하고, 주요 변수와 비교하여 다른 변수들이 얼마나 유사한 경향을 보이는지 측정할 수 있습니다. 이를 통해 데이터 간 상호작용을 명확히 파악할 수 있으며, 불확실한 환경에서의 의사결정에 도움을 줄 수 있습니다.
절차
1. 데이터 표준화: 변수 간 단위 차이를 없애기 위해 데이터를 표준화합니다.
2. 관계 계수 계산: 표준화된 데이터를 바탕으로 기준 변수와 다른 변수 간의 관계 계수를 계산합니다.
3. 관계도 산출: 관계 계수를 이용해 각 변수 간의 관계도를 계산하고, 이를 통해 유사성을 비교합니다.
주요 용도
1. 품질 관리 및 공정 개선
2. 다기준 의사결정 (예: 제품 평가, 공급업체 선정 등)
3. 시간에 따른 변화 분석
📌 Principal Component Analysis (PCA); 주성분 분석
고차원의 데이터를 저차원으로 축소하여 핵심적인 정보를 추출하는 통계적 기법입니다. 데이터가 가지고 있는 다양한 변수 중 상관관계가 있는 변수들을 묶어, 이를 보다 적은 수의 새로운 변수로 변환함으로써 데이터의 차원을 줄입니다. 이때 새로 만들어진 변수를 주성분(principal components)이라고 부릅니다.
PCA의 주요 목적은 데이터의 차원을 축소하면서도 데이터의 변동성을 최대한 유지하는 것입니다. 이렇게 하면 데이터의 중요한 패턴을 잃지 않고 시각화나 분석을 용이하게 할 수 있습니다. 특히, 다변량 데이터를 분석할 때 노이즈를 제거하거나 연산 속도를 높이는 데 효과적입니다. PCA는 데이터의 분산을 최대로 보존하는 주성분을 찾기 때문에, 고차원 데이터 분석에서 중요한 도구로 널리 사용됩니다.
PCA의 기본 원리
1. 평균 중심화: 각 변수의 값을 평균 중심화하여 변수 간의 상관관계를 계산합니다.
2. 공분산 행렬 생성: 데이터의 분산을 이해하기 위해 공분산 행렬을 생성합니다. 이는 변수 간 상관관계를 나타내며, 데이터가 분포된 방향과 정도를 파악할 수 있게 합니다.
3. 고유값과 고유벡터 계산: 공분산 행렬의 고유값과 고유벡터를 계산하여 가장 많은 분산을 설명하는 방향을 찾습니다. 이 방향이 주성분이 됩니다.
4. 주성분 선택: 고유값이 큰 순서대로 주성분을 선택하며, 가장 중요한 주성분부터 차례로 데이터의 분산을 설명합니다.
PCA의 활용
1. 데이터 시각화: 고차원의 데이터를 2차원 또는 3차원으로 축소하여 시각화할 때 유용합니다.
2. 특징 추출 및 차원 축소: 모델 학습 시 중요한 정보를 유지하면서 불필요한 변수를 제거하여 학습 속도를 개선합니다.
3. 잡음 제거: 중요하지 않은 변수나 잡음이 많은 변수들을 축소하여 더 명확한 데이터 패턴을 도출할 수 있습니다.
📌 탄소집약도 (GDP 단위당 탄소배출량)
탄소집약도는 GDP 단위당 탄소 배출량을 나타내는 지표로, 한 국가나 지역의 경제활동에서 발생하는 탄소 배출량을 경제 규모(주로 GDP)와 비교한 값입니다. 이를 통해 경제 성장이 이루어질 때 발생하는 환경적 영향을 평가할 수 있습니다.
예를 들어, 탄소집약도가 낮다는 것은 같은 경제 성과를 이루는 데 필요한 탄소 배출이 적다는 뜻으로, 더 효율적이고 친환경적인 경제 구조를 의미합니다. 따라서 탄소집약도는 저탄소 경제로 전환하거나 탄소 감축 목표를 설정하는 데 중요한 참고자료가 됩니다.
📌 총 탄소 배출 (TCE)
총 탄소 배출(Total Carbon Emissions, TCE)은 특정 지역이나 국가에서 일정 기간 동안 발생한 이산화탄소(CO₂)와 같은 탄소 기반 배출물의 총량을 의미합니다. TCE는 화석연료 연소, 산업 활동, 농업, 교통 등 다양한 인간 활동에서 발생하는 이산화탄소 배출량을 포함하며, 일반적으로 연간 단위로 측정됩니다. TCE는 온실가스 배출량 중 가장 큰 비중을 차지하며, 기후 변화와 지구온난화에 직접적으로 영향을 미치기 때문에 탄소 배출 관리와 감축을 위한 중요한 지표로 사용됩니다.
📌 탄소 배출 강도 (CEI)
탄소 배출 강도(Carbon Emission Intensity, CEI)는 경제 활동의 단위당 발생하는 탄소 배출량을 의미합니다. 주로 국내총생산(GDP) 또는 에너지 소비량 대비 배출되는 이산화탄소(CO₂) 양으로 표현됩니다. 예를 들어, GDP 1달러당 발생하는 이산화탄소의 양으로 측정할 수 있습니다.
CEI는 경제 성장이 지속되는 가운데 탄소 배출량을 얼마나 효율적으로 관리하고 있는지를 평가하는 중요한 지표로 활용됩니다. CEI가 낮을수록 경제 활동이나 에너지 사용에서 더 적은 탄소를 배출하는 것을 의미하며, 이는 저탄소 경제 또는 친환경 성장을 위한 중요한 목표로 여겨집니다.