기계학습 기반 예측 모델 개발 및 영향도 평가 -
벤토나이트 펠렛의 열(T)-수리적(H) 복합 거동 주요 매개변수 분석
Introduction
고준위방사성폐기물 심층처분시설은 방사성폐기물을 지하 깊은 암반에 격리하여 안전하게 관리하기 위한 다중방벽 시스템으로 구축된다. 인공 및 천연 방벽으로 구성된 이 시스템에서 벤토나이트 완충재는 방사성 물질의 누출을 방지하고 구조적 안정성을 확보하는 핵심 요소로 사용된다. 그러나 100℃ 이상 고온에서 벤토나이트 내 스멕타이트가 일라이트로 변성될 경우, 완충재 성능이 저하될 수 있다는 우려가 제기되어 왔다[1].
이러한 문제를 해결하고 벤토나이트의 신뢰성을 입증하기 위해 다양한 연구가 세계적으로 수행되고 있으며, 대표적 사례로 PEBS(Long-term Performance of Engineered Barrier System) 프로젝트가 있다. 이 프로젝트에서는 최대 140℃의 고온 환경을 모사한 1:2 규모의 가열 시험을 통해 벤토나이트의 장기 거동을 평가하였다[2,3]. 또한 스페인 CIEMAT에서는 현장 시험에 활용되는 두 종류의 벤토나이트 완충재를 대상으로 실험실 규모 컬럼 시험을 진행하고, 이를 통해 복합 거동 모델 검증, 파라미터 추정, 불확실성 감소 및 단기 프로세스 식별 연구를 수행하였다[4-6].
이러한 연구를 토대로, CIEMAT MX-80 벤토나이트 펠렛의 열(T)-수리적(H) 복합거동 수치모델링을 수행하였으며, 이를 대상으로 민감도 평가 체계 기반 구축 연구를 수행하였다. 따라서 이번 호에서는 현재까지 수행한 민감도 평가 체계에 대해 종합적으로 설명하고자 한다. 주요 매개변수에 대한 민감도 평가 체계는 수치모델링 과정에서 각 매개변수가 결과에 미치는 영향을 파악함으로써, 모델의 신뢰성과 예측 정확도를 높이는 데 필수적이다. 특히, 열(T)-수리적(H) 복합거동에 영향을 주는 주요 매개변수를 효과적으로 관리하기 위한 기반 자료로 활용될 예정이다.
■ 1. 민감도 평가 체계 주요 흐름도(안)
다음 그림 1의 흐름도는 세 가지 주요 그룹으로 나뉘며, 각 그룹은 매개변수 선정 및 분포 범위 설정, 표본추출 및 학습데이터 확보, 기계 학습을 이용한 예측 모델 개발 및 민감도 평가로 구분할 수 있다.
그림 1 민감도 평가 체계 주요 흐름도(안)
각 그룹에 대한 주요 내용은 다음과 같다.
■ 1-1. 주요 매개변수 선정 및 분포 범위 설정
첫 번째 단계는 민감도 평가를 위한 주요 매개변수를 선정하고 적절한 범위를 설정하는 과정이다.
- 주요 매개변수 선정
결과에 중요한 영향을 미칠 수 있는 주요 매개변수를 식별한다.
·열적(T) 거동 : Thermal conductivity wet/dry, Heat Capacity
·수리적(H) 거동 : Permeability, Van Genuchten λ, Van Genuchten 1/α, Tortuosity
- 매개변수 범위 검토
여러 문헌 및 다양한 기준 조건을 검토하여 주요 매개변수의 범위를 설정한다.
■ 1-2 표본 추출 및 데이터 확보
두 번째 단계는 민감도 평가를 위한 데이터를 확보하는 과정이다. 이 단계에서는 라틴 하이퍼큐브 샘플링과 수치모델링 자동화 프로그램을 사용하여 데이터를 준비한다.
- 라틴 하이퍼큐브 샘플링(LHS)
주요 매개변수에 대해 다차원 공간에서 샘플을 효과적으로 생성하기 위해 LHS를 사용한다. 이때 샘플링 수는 매개변수 수의 배수로 설정하여 선정하며, LHS를 사용하여 표본의 대표성을 보장한다.
- 수치모델링 자동화 프로그램을 이용한 Raw data 확보
다양한 조건에 대한 작업의 편의성을 높이고, 효율적으로 수치모델링 데이터를 확보하기 위해 수치모델링 자동화 프로그램을 개발하였다. 이 프로그램을 통해 기계 학습 및 민감도 평가를 위한 학습 데이터를 생성할 수 있다.
■ 1.3 예측 모델 개발 및 민감도 평가
세 번째 단계는 기계 학습 기법을 사용하여 예측 모델을 개발하고 주요 매개변수의 민감도를 평가하는 과정이다.
- 데이터 전처리
모델 학습 전에 데이터를 사용할 수 있는 형식으로 전처리한다. 데이터 정제, 변환, 학습 및 테스트 집합으로 나누는 작업을 포함한다.
- XGBoost를 이용한 모델 개발
XGBoost 알고리즘을 사용하여 예측 모델을 생성하며, Bayesian Optimization을 통해 하이퍼파라미터를 최적화하여 성능을 개선한다. 이 과정을 통해 모델의 예측 능력을 극대화한다.
- Feature Importance 분석
Permutation Importance와 SHAP을 활용하여 주요 매개변수가 모델에 미치는 영향을 평가하고, 각 매개변수의 중요성을 분석한다.
본 연구에서 제시한 민감도 평가 체계는 주요 매개변수의 선정, 샘플링, 학습 및 평가 데이터 확보, 예측 모델 개발, 그리고 주요 매개변수의 평가 과정을 체계적으로 제안한다. 이 중 본 호에서는 전체 과정을 모두 상세히 다루기 어려워, 예측 모델 개발과 민감도 평가 결과에 중점을 두어 내용을 수록하였다.
■ 2. 예측 모델 개발 및 주요 매개변수 민감도 평가
선정된 주요 매개변수와 분포 범위를 기준으로 수치모델링 자동화 프로그램을 이용한 시뮬레이션 결과에서 10개의 입력 인자(경과시간, 수분보유곡선 인자 2개, 고유투수계수, 굴곡률, 건조 열전도도, 포화 열전도도, 비열, 센서 위치, 단계 번호)가 온도에 미치는 영향을 분석하기 위해 XGBoost 기법을 활용하여 기계학습 모델을 개발했다. 모델 개발 과정에서는 전체 데이터를 하나의 데이터프레임으로 통합하고, 학습 데이터와 검증 데이터의 비율을 8:2로 분할하여 사용하였다. 또한, 하이퍼파라미터 최적화를 위해 베이지안 최적화(Bayesian Optimization) 기법을 적용하였으며, 이를 통해 결정된 최적의 하이퍼파라미터를 도출하였다.
그림 2에 시뮬레이션 결과와 모델 예측값을 비교했다. (a)는 학습데이터로 결정계수 (R2)은 0.999, (b)는 검증데이터로 결정계수 (R2)은 0.999으로 분석되었으며, 전체적인 데이터 변동을 잘 설명할 수 있는 모델로 판단된다.
그림 2 시뮬레이션 결과와 모델 예측값 비교: (a) 학습데이터, (b) 검증데이터
데이터 세트에는 각 해석 조건에 따른 케이스별 수치해석 결과가 포함되어 있다. 이에 각 조건별 수치해석 결과와 모델 예측값을 비교했다. 이때 평균 제곱근 오차(RMSE)가 가장 낮은 조건 3개와 가장 높은 조건 3개를 그림 3에 나타내었다. 그림 3(a)는 평균 제곱근 오차가 가장 낮은 결과로 각 센서별로 시간에 따른 온도 변화량이 크지 않으며, 이로 인해 수치해석 결과와 모델 예측값이 잘 일치하는 것을 확인할 수 있었다. 그림 3(b)는 평균 제곱근 오차가 가장 높은 결과로 수하수 공급 이후 각 센서별 시간에 따른 온도 변화량이 매우 큰 것 확인할 수 있다. 이로 인해 온도 변화가 급격하게 발생하는 구간에서 다소 차이가 발생하는 것으로 확인된다.
그림 3 온도 예측 모델 검토 (a) 높은 정확도 (b) 낮은 정확도
■ 2.1.1 Permutation Importance
온도 변화에 영향을 미치는 주요 인자를 그림 4와 같이 막대그래프로 나타냈다. 분석 결과, 센서 위치가 가장 큰 영향을 미치는 요인으로 나타났으며, 이는 센서 위치에 따른 온도 변화가 강하게 반영되었기 때문으로 해석된다. 센서 위치는 시스템의 공간적 특성을 반영하며, 각 위치별 시간에 따른 온도 변화가 다르게 나타나는 것이 예측 결과에 큰 영향을 미치는 것으로 분석된다. 두 번째로 중요한 요인은 시험 단계(stage)이다. 각 시험 단계에서 히터 운영 조건, 단열재 교체, 수화수 공급 등 다양한 조건 변화가 온도 변화에 중요한 역할을 한다고 볼 수 있다. 시험 단계는 시험 설정의 변화와 직접적으로 관련되며, 이러한 설정 변화가 온도에 미치는 영향이 강하게 나타난다. 세 번째 주요 요인은 시간으로, 이는 시험 과정에서의 시간에 따른 시스템의 온도 변화와 밀접하게 관련이 있는 것으로 분석할 수 있다. 분석 결과에서 센서 위치와 시험 단계의 영향이 매우 지배적으로 나타나, 현재 온도 예측 모델에서 이 두 요인이 가장 중요한 역할을 하고 있음을 알 수 있다. 따라서 향후 벤토나이트의 주요 매개변수에 대해 보다 세밀한 영향도 분석을 위해 센서 위치와 시험 단계별로 예측 모델을 분리하여 개발하고, 이에 대한 추가 분석이 필요하다고 판단된다.
그림 4 고려한 입력인자의 온도변화에의 기여도 (Bar plot)
벤토나이트의 주요 매개변수에 대한 영향도 분석을 위해 센서 위치, 시간, 단계 인자를 제외한 총 7개의 매개변수에 대해 막대그래프로 나타냈다. 이때, 총 7개의 매개변수에 대한 합이 1이 되도록 정규화하여 그림 5와 같이 표현하였다.
분석 결과, 수분 보유 곡선의 Van Genuchten 물질 상수(1/α, λ)와 공극 내 유체 이동 경로의 복잡성을 의미하는 굴곡률이 온도 변화에 가장 큰 영향을 미치는 요인으로 확인되었다. 이러한 특성은 시스템 내에서 수리적(H) 거동이 온도 변화에 큰 영향을 미친다는 점을 강조한다. 반면, 열적(T) 거동 특성과 관련된 매개변수들은 온도 변화에 중요한 역할을 하지만, 수리적(H) 특성에 비해 영향력은 낮았다. 건조 및 포화 상태에서의 열전도도는 벤토나이트의 열전달 특성을 결정짓는 매개변수들로, 열전도도가 높을수록 열 에너지가 더 빠르게 전달되어 시스템 내 온도 변화에 주요한 역할을 하지만 수리적(H) 거동 특성과 관련된 매개변수들에 비해 낮은 영향력을 보여주고 있다.
이러한 분석 결과는 벤토나이트의 수리적(H) 거동 특성이 열적(T) 거동 특성보다 온도 변화에 더 큰 영향을 미친다는 점을 명확히 보여준다. 다만 현재의 데이터 구조로 학습된 모델에서는 센서 위치와 시험 단계의 영향이 매우 지배적으로 나타나, 벤토나이트의 주요 매개변수의 영향도 순서가 변경될 가능성도 배제할 수 없다. 따라서 향후 연구에서는 이러한 인자들의 상호작용을 정밀하게 분석하고, 센서 위치와 시험 단계에 대한 영향을 최소화하여 벤토나이트의 주요 매개변수를 더욱 명확하게 평가하는 것이 필요하다.
그림 5 벤토나이트의 주요 매개변수에 대한 온도 변화 영향도 분석 (Bar plot)
온도 변화에 영향을 미치는 인자들 간의 다중공선성을 분석하기 위해 덴드로그램과 히트맵을 사용하였다. 이 두 시각화 도구는 변수들 간의 상관 관계를 보다 명확히 이해하는 데 도움을 준다.
덴드로그램은 인자 간의 유사도를 기반으로 계층적 군집화를 수행하여 각 인자들이 어떻게 군집화되는지를 보여준다. 이러한 군집화는 인자들 간의 상호작용을 시각적으로 이해하고 다중공선성 문제를 사전에 파악하는 데 유용하다. 덴드로그램의 결과를 살펴보면 시간과 시험 단계가 밀접하게 군집을 이루고 있다. 이는 시험 시간 경과에 따라 각 시험 단계에서 이루어진 다양한 조건 변화(히터 온도 변화, 단열재 교체, 수화수 공급 시작 등)가 온도 변화에 중요한 영향을 미친다는 것으로 분석할 수 있다. 한편 센서 위치는 다른 인자들과의 상관관계가 매우 낮은 것으로 나타났다. 이는 센서 위치에 따른 온도 변화가 다른 인자들과 독립적으로 작용할 수 있음을 의미한다. 벤토나이트의 주요 매개변수들은 서로 다른 특성을 가지면서도 일정한 범주 내에서 군집화되는 경향을 보였다. 이는 각 매개변수가 고유한 특성을 유지하면서도 유사한 범주 내에서 온도 변화에 영향을 미친다는 것을 의미하지만 매개변수 간의 관계성을 물리적인 현상과 연결하여 분석하기에 어려움이 존재한다.
히트맵은 인자들 간의 상관 계수를 색상으로 표현하여, 인자들 간의 상관 정도를 쉽게 파악할 수 있도록 한다. 히트맵에서 노란색으로 표시된 부분은 높은 상관성을 나타내며, 이는 특정 인자들이 서로 강하게 연관되어 있다는 것을 의미한다. 덴드로그램에서 확인한 바와 같이 각 인자 간의 상관성을 확인할 수 있으며, 이러한 분석 결과는 다중공선성 문제를 해결하기 위해 인자 선택 시 신중한 접근이 필요함을 보여준다.
그림 6 다중공선성 분석을 위한 덴드로그램과 히트맵
하지만 덴드로그램과 히트맵에서 나타난 일부 인자 간의 관계는 명확하게 해석하기 어려운 부분도 있다. 따라서 이러한 관계가 시스템의 실제 열적(T) 거동에서 어떻게 작용하는지에 대해서는 추가적인 검증이 필요하다. 또한, 상관성이 높게 나타난 인자들이 반드시 인과관계를 가지는 것은 아니므로, 이를 단순히 상관성으로 해석하기보다는 물리적 현상을 고려한 심도 있는 분석이 필요하다.
따라서, 이러한 다중공선성 분석 결과는 인자들 간의 복잡한 상호작용을 이해하는 데 유용한 정보를 제공하지만, 물리적 현상과의 연결성을 명확히 하기 위해 추가적인 실험적 검증과 모델 개선이 필요하다. 향후 연구에서는 인자 간의 상관성을 더욱 면밀히 분석하고, 이를 통해 온도 예측 모델과 영향도 분석의 신뢰성을 높이는 방향으로 나아갈 필요가 있다.
■ 2.1.2 SHAP(SHapley Additive exPlanations)
앞선 Permutation Importance 분석에 이어, 동일한 학습 모델을 대상으로 SHAP 기법을 이용하여 주요 인자들이 온도 변화에 미치는 영향을 분석하였다. SHAP 기법은 각 피처(feature)가 모델 출력값에 미치는 영향을 정량적으로 측정할 수 있는 강력한 해석 도구로, 모델의 해석 가능성을 높이고 각 인자의 상대적인 중요성과 기여도를 시각적으로 확인할 수 있다. 그림 7은 Beeswarm plot으로, 주요 인자들이 모델 출력값에 미친 영향을 점과 색상을 통해 시각화한 결과이다.
y축은 주요 인자들을 중요도 순으로 나열하며, 가장 상단에는 센서 위치, 시험 단계, 시간이 위치하고 있다. x축은 SHAP 값을 나타내며, 각 인자의 값이 모델 출력값에 미치는 기여도를 의미한다. SHAP 값이 양수인 경우 해당 인자의 값이 출력값을 증가시키는 방향으로 기여하며, 음수인 경우 출력값을 감소시키는 방향으로 기여한다. 각 점의 색상은 인자 값의 크기를 나타내며, 빨간색은 인자 값이 높은 경우를, 파란색은 인자 값이 낮은 경우를 의미한다.
분석 결과, 센서 위치가 모델 출력값에 가장 큰 영향을 미치는 인자로 확인되었다. 이는 벤토나이트 내부에서 측정 지점의 위치 변화가 온도 예측에 상당히 민감하게 작용함을 의미한다. 히터와 가까운 위치에서는 높은 온도 조건이 형성되어 온도 상승 방향으로 모델 예측값을 크게 증가시키며, 히터로부터 멀어질수록 상대적으로 낮은 온도 분포가 형성되어 예측값 감소에 기여하는 경향이 관찰된다. 다음으로 시험 단계가 온도 변화에 중요한 인자로 나타났다. 각 시험 단계별로 히터 온도 설정, 단열재 변경, 수화수 공급 등과 같은 운전 조건 변화가 모델 출력에 직접적인 영향을 미치고 있었다. 이는 단계 구분 자체가 다양한 물리적 조건 변화를 내포하고 있기 때문에, 시험 단계가 변할 때마다 온도 예측값이 큰 폭으로 변화하는 것으로 분석할 수 있다. 시간 또한 온도 변화에 상당한 영향을 주는 인자로 확인되었다. 시간 경과에 따라 벤토나이트 내부에서 열전달과 포화도 상태가 변화하게 되며, 이로 인해 시간 변화에 따른 온도 변화 특성이 모델 출력값에 많은 영향을 주는 것으로 분석할 수 있다.
벤토나이트의 주요 매개변수 중에서는 수리적(H) 거동 특성을 반영하는 굴곡도와 Van Genuchten 파라미터(1/α, λ)가 비교적 높은 영향력을 보였으며, 그 뒤를 이어 열전도도(건조/포화) 등의 열적(T) 거동 특성치들이 영향을 미쳤다. 이는 수리적(H) 거동 특성이 열적(T) 특성보다 온도 변화에 더 직접적인 기여를 할 수 있음을 시사한다. 이러한 결과는 일부 순서의 차이가 있지만 앞선 Permutation Importance 결과와 유사하게 도출되었으며, 이는 수리적(H) 매개변수가 온도 변화에 상대적으로 많은 영향을 미친다고 분석할 수 있다.
건조 상태에서 열전도도가 증가하면 온도 예측값이 상승할 것으로 예상되었으나, 본 분석 결과에서는 센서 위치, 시험 단계, 그리고 포화도 변화가 온도에 더 큰 영향을 미쳐 예상과는 다른 결과가 나타났다. 이러한 결과를 정확히 이해하기 위해 추가 분석을 통해 보다 면밀하게 살펴볼 필요가 있다.
그림 7 입력 인자의 온도 변화 영향도 분석(Beeswarm plot)
그림 8 입력 인자의 온도 변화 영향도 분석(Bar plot)
입력 인자가 모델 출력에 미치는 영향을 추가적으로 분석하기 위해 Partial Dependence Plot을 그림 9와 같이 생성하였다. 영향도가 높은 인자부터 나열하였으며, 분석 결과는 다음과 같다.
먼저 센서 위치의 경우, 센서 번호가 증가할수록 온도 예측값이 급격히 변화하는 양상이 확인되었다. 이는 센서가 히터와 가까울수록 열전달이 집중되어 온도가 크게 상승하며, 히터로부터 멀어질수록 상대적으로 낮은 온도 변화가 나타나는 것을 의미한다. 다음으로 시험 단계와 시간에 대한 분석에서도 앞서와 유사한 경향이 나타났다. 각 시험 단계별로 수행된 조건 변화와 시간 경과에 따른 지속적인 가열이 온도 변화에 큰 영향을 미쳤다. 특히 시간 경과에 따른 분석에서는 특정 시점 이후 급격히 증가하는 경향이 확인되었다. 이는 히터 온도의 변경 및 수화수 공급으로 인해 빠르게 포화상태에 도달하면서 열전달이 촉진되어 온도 상승에 큰 영향을 미치는 것으로 분석된다.
벤토나이트의 주요 매개변수 중 수리적(H) 거동 특성을 반영하는 매개변수들이 비교적 높은 영향력을 보이고 있으나, 온도 변화에 대한 영향력은 비선형성이 강하게 나타나 이를 실제 물리적인 현상과 연결하여 분석하기에 어려움이 있다. 또한 열적(T) 거동 특성을 반영하는 매개변수들도 예상과 다른 영향성을 나타냈다. 예를 들어 건조 상태의 열전도도가 증가할수록 온도가 상승할 것으로 예상되지만, 오히려 그 반대의 결과로 나타났다. 이는 센서 위치, 시험 단계, 시간이 지배적인 영향력을 가지는 예측 모델에서 상대적으로 영향력이 낮은 벤토나이트의 주요 매개변수에 대한 분석이 어려워진 것으로 판단된다. 또한 해당 매개변수들이 온도에 미치는 영향력이 여러 상호작용을 통해 비선형적으로 나타나는 것으로 예측된다.
다만 벤토나이트의 주요 매개변수 중 온도에 영향을 주는 주요 매개변수로는 수리적(H) 거동 특성이 열적(T) 거동 특성과 관련된 매개변수보다 더욱 강하게 작용하는 것으로 분석할 수 있다. 이는 수화수 공급이 전체 시스템의 온도에 큰 영향을 미치는 것으로 분석된다. 향후 센서 위치와 시험 단계별로 모델을 개별적으로 구성하고 이에 대해 구체적이고 심도 있는 분석이 필요하다고 판단된다. 또한 학습 데이터 추가 확보, 상호작용 분석, 물리적 현상의 명확화, 모델 개선 및 고도화를 통해 벤토나이트의 주요 매개변수가 온도에 미치는 영향을 정밀하게 이해하고 물리적인 현상과의 연관성을 명확히 하여 분석할 수 있을 것으로 기대한다.
그림 9 입력 인자 별 온도 변화 영향도 분석(Partial Dependence Plot)
■ 2.2 상대습도
앞서 선정된 주요 매개변수와 분포 범위를 기준으로 수치모델링 자동화 프로그램을 이용한 시뮬레이션 결과에서 11개의 입력 인자(경과 시간, 수분보유곡선 인자 2개, 고유투수계수, 굴곡률, 건조 열전도도, 포화 열전도도, 비열, 센서 위치, 단계 번호, 온도)가 상대습도에 미치는 영향을 분석하기 위해 XGBoost 기법을 활용하여 기계학습 모델을 개발했다. 모델 개발 과정에서는 전체 데이터를 하나의 데이터프레임으로 통합하고, 학습 데이터와 검증 데이터의 비율을 8:2로 분할하여 사용하였다. 또한, 하이퍼파라미터 최적화를 위해 베이지안 최적화(Bayesian Optimization) 기법을 적용하였으며, 이를 통해 결정된 최적의 하이퍼파라미터를 도출하였다.
여기서, 기존 온도의 경우와는 달리 입력인자에 온도를 넣은 이유는, 상대습도 정의가 주어진 온도의 공기가 가질 수 있는 수분이 차지할 수 있는 최대양에 대한 비율을 나타내므로, 이에 대한 물리적인 고려 때문이다.
그림 10에 시뮬레이션 결과와 모델 예측값을 비교했다. (a)는 학습데이터로 결정계수 (R2)은 0.9998, (b)는 검증데이터로 (R2)은 0.9995으로 분석되었으며, 전체적인 데이터 변동을 잘 설명할 수 있는 모델로 판단된다.
그림 10 시뮬레이션 결과와 모델 예측값 비교: (a) 학습데이터, (b) 검증데이터
데이터 세트에는 각 해석 조건에 따른 케이스별 수치해석 결과가 포함되어 있다. 이에 각 조건별 수치해석 결과와 모델 예측값을 비교했다. 이때 평균 제곱근 오차(RMSE)가 가장 낮은 조건 3개와 가장 높은 조건 3개를 그림 11에 나타내었다. 그림 11(a)는 평균 제곱근 오차가 가장 낮은 결과로 각 센서별로 시간에 따른 상대습도 변화량이 크지 않으며, 이로 인해 수치해석 결과와 모델 예측값이 잘 일치하는 것을 확인할 수 있었다. 그림 11(b)는 평균 제곱근 오차가 가장 높은 결과로 수하수 공급 이후 각 센서별 시간에 따른 상대습도의 변화량이 매우 큰 것 확인할 수 있다. 이로 인해 상대습도의 변화가 급격하게 발생하는 구간에서 다소 차이가 발생하는 것으로 확인된다. 이러한 경향은 온도 예측 결과와도 유사하게, 큰 변화가 있는 구간에서 모델의 예측 정확도가 떨어지는 경향을 보였다. 이는 추가적인 학습 데이터 제공과 새로운 기계 학습 기법의 도입을 통해 개선할 수 있을 것으로 기대된다.

그림 11 상대습도 예측 모델 검토 (a) 높은 정확도 (b) 낮은 정확도
■ 2.2.1 Permutation Importance
상대습도 변화에 영향을 주는 주요 인자를 그림 12와 같이 막대그래프를 이용해 나타냈다. 분석 결과, 먼저 센서 위치가 가장 큰 영향을 미치는 것으로 나타났으며, 이는 센서 위치별 상대습도가 서로 상이하게 변화하는 특성이 반영된 것으로 판단된다. 다음으로 시간의 영향이 큰 것으로 나타났으며, 이는 시간 경과에 따른 상대습도 변화가 중요한 역할을 하기 때문인 것으로 판단된다. 세번째로 중요한 인자는 온도로, 이는 온도가 증가함에 따라 포함할 수 있는 수분의 양이 증가하여 상대습도가 감소하는 특성이 반영된 것으로 분석된다.
그림 12 입력 인자의 상대습도 변화 영향도 분석 (Bar plot)
벤토나이트의 주요 매개변수에 대한 영향도 분석을 위해 센서 위치, 시간, 온도, 단계 인자를 제외한 총 7개의 매개변수에 대해 막대그래프로 나타냈다. 이때, 총 7개의 매개변수에 대한 합이 1이 되도록 정규화하여 그림 13과 같이 표현하였다.
분석 결과, 벤토나이트의 주요 매개변수 중 수리적(H) 거동 특성에 해당하는 수분 보유 곡선의 Van Genuchten 물질 상수(1/α , λ)와 고유 투수계수가 가장 큰 영향을 미치는 것으로 확인되었다. 이는 수리적(H) 거동 특성이 상대습도 변화에 지배적인 영향을 미치며, 물 공급이 용이해져 상대습도가 증가하는 특성을 반영한 것으로 판단된다. 다음으로는 열적(T) 거동 특성에 해당하는 매개변수들과 분자 확산 관계식의 굴곡률이 상대적으로 낮은 영향성을 갖는 것으로 나타났다. 이는 벤토나이트로 유입되는 수화수가 상대습도에 지배적으로 영향을 미친다는 점을 강조한다. 특히, 앞서 센서 위치에서 온도가 큰 영향을 미치는 것으로 보아, 유입되는 수화수의 유입 속도와 그로 인해 변화하는 온도가 상대습도에 중요한 영향을 미치는 것으로 분석할 수 있다.
그림 13 벤토나이트의 주요 매개변수에 대한 상대습도 변화 영향도 분석 (Bar plot)
상대습도 변화에 영향을 미치는 인자들 간의 다중공선성을 분석하기 위해 그림 14와 같이 덴드로그램과 히트맵을 사용하였으며, 이는 인자들 간의 상관 관계를 시각적으로 이해하는 데 도움을 준다.
덴드로그램은 변수들 간의 유사도를 기반으로 계층적 군집화를 수행하여 각 인자들이 어떻게 군집화되는지를 보여준다. 이러한 인자들은 모델 개발 시 다중공선성 문제를 일으킬 수 있으므로 적절한 처리 방법 및 주의가 필요하다. 그림 14의 덴드로그램에서 볼 수 있듯이, 일부 인자들은 서로 높은 상관성을 가지며 동일한 군집으로 묶이는 경향을 보인다. 분석 결과, 센서 위치와 온도가 가장 가까운 관계로 두 인자 간의 상관성이 매우 높음을 나타낸다. 이는 측정 위치와 온도가 상대습도에 미치는 영향이 매우 높음을 반영하고 있는 것으로 판단된다. 다음으로는 시간과 시험 단계 인자가 비교적 높은 상관성을 보이며, 이는 시간 및 단계 변화에 따른 상대습도 변화 특성을 나타낸 것으로 분석해 볼 수 있다. 마지막으로 벤토나이트의 주요 매개변수들은 서로 다른 특성을 가지지만, 유사한 범주 내에서 묶일 수 있는 정도의 상관성을 가지고 있음을 보여준다.
히트맵은 인자들 간의 상관 계수를 색상으로 표현하여, 인자들 간의 상관 정도를 쉽게 파악할 수 있도록 한다. 히트맵에서 노란색으로 표시된 부분은 높은 상관성을 나타내며, 이는 특정 인자들이 서로 강하게 연관되어 있다는 것을 의미한다. 덴드로그램에서 확인한 바와 같이 각 인자 간의 상관성을 확인할 수 있으며, 이러한 분석 결과는 다중공선성 문제를 해결하기 위해 인자 선택 시 신중한 접근이 필요함을 보여준다.
그림 14 입력 인자의 다중공선성 분석 (Handling Multicollinear Features)
상관성이 높은 인자들을 그대로 사용할 경우 모델의 해석 가능성이 저하되거나 과적합 문제가 발생할 수 있으므로, 주성분 분석, 변수 제거 등의 차원 축소 기법을 통해 다중공선성 문제를 완화할 필요가 있다. 앞서의 영향도 분석을 통해 주요 인자들에 대한 분석을 수행했으나, 향후 다양한 기법들을 적용하여 보다 상세한 분석 및 검토가 필요하다.
■ 2.2.2 SHAP(SHapley Additive exPlanations)
앞선 Permutation Importance 분석에 이어, 동일한 학습 모델을 대상으로 SHAP 기법을 이용하여 주요 변수들이 상대습도 변화에 미치는 영향을 분석하였다. SHAP 기법은 각 피처(feature)가 모델 출력값에 미치는 영향을 정량적으로 측정할 수 있는 강력한 해석 도구로, 모델의 해석 가능성을 높이고 각 변수의 상대적인 중요성과 기여도를 시각적으로 확인할 수 있다. 그림 15는 Beeswarm plot으로, 주요 변수들이 모델 출력값에 미친 영향을 점과 색상을 통해 시각화한 결과이다.
y축은 주요 인자들을 중요도 순으로 나열하며, 가장 상단에는 시간, 센서 위치, 온도가 위치하고 있다. x축은 SHAP 값을 나타내며, 각 인자의 값이 모델 출력값에 미치는 기여도를 의미한다. SHAP 값이 양수인 경우 해당 인자의 값이 출력값을 증가시키는 방향으로 기여하며, 음수인 경우 출력값을 감소시키는 방향으로 기여한다. 각 점의 색상은 인자 값의 크기를 나타내며, 빨간색은 인자 값이 높은 경우를, 파란색은 인자 값이 낮은 경우를 의미한다.
분석 결과, 시간은 모델 출력값에 가장 큰 영향을 미치는 인자로 확인되었다. 이는 시간 경과에 따라 상대습도가 크게 변화할 수 있음을 보여준다. 다음으로, 센서 위치 또한 상대습도에 상당한 영향을 미친다. 히터와 가까운 위치에 설치된 센서 3에서는 상대습도 감소의 영향이 두드러지게 나타났는데, 이는 수화수 공급 이전에 히터 주변의 높은 온도로 인해 공기 중의 수증기가 온도가 낮은 방향으로 이동하여 주변 공기가 건조해지는 현상으로 설명된다. 반면, 수화수 공급장치에 가까운 센서 1에서는 장치 하단으로부터 열 에너지가 밀려오면서 증기가 공급되고, 수화수 공급의 영향이 빠르게 반영되면서 상대습도가 증가하는 경향을 보였다. 온도는 상대습도 변화에 중요한 영향을 미치는 또 다른 주요 변수로 나타났다. 온도가 증가하면 공기의 수증기 포화 용량이 커지기 때문에 동일한 수분 함량이라도 상대습도가 낮아지는 물리적 현상을 관찰할 수 있다. 이후 수화수가 공급되면서 포화도가 증가하고, 이에 따라 열 전달이 빨라지면서 온도 상승이 발생하고 이는 상대습도 변화와 연결되는 것으로 분석된다.
벤토나이트의 주요 매개변수 중에서는 수리적(H) 거동 특성에 해당하는 매개변수들이 상대습도 변화에 가장 큰 영향력을 가지고 있음이 확인되었으며, 그 뒤를 이어 열적(T) 거동 특성에 해당하는 매개변수들이 영향을 미쳤다. 이를 통해 수리적(H) 거동 특성이 상대습도 변화에 주된 영향을 미친다는 점을 명확히 알 수 있다. 앞선 Permutation Importance 결과에서는 수리적(H) 거동과 열적(T) 거동에 해당하는 매개변수들의 순서가 다소 혼재되어 있었으나, SHAP 분석에서는 두 특성에 해당하는 매개변수들이 명확히 구분되어 나타난 것을 확인할 수 있었다.
한편, 고유 투수계수의 경우 해당 매개변수의 값이 증가할수록 상대습도가 낮아지는 경향을 보였다. 일반적으로 고유 투수계수가 높아지면 투수성이 증가하여 수화수 공급이 용이해져 상대습도가 증가할 것으로 예상되지만, 본 분석에서는 온도의 영향이 상대습도 변화에 더 크게 작용하면서 이러한 결과가 도출된 것으로 보인다. 이러한 결과에 대해서는 추가적인 분석을 통해 보다 면밀하게 살펴볼 필요가 있다.
그림 15 입력 인자의 상대습도 변화 영향도 분석(Beeswarm plot)
그림 16 입력 인자의 상대습도 변화 영향도 분석(Bar plot)
입력 인자가 모델 출력에 미치는 영향을 추가적으로 분석하기 위해 Partial Dependence Plot을 그림 17과 같이 생성하였다. 영향도가 높은 인자부터 나열하였으며, 분석 결과는 다음과 같다.
먼저 시간의 경우, 약 5000시간 이후 예측값이 급격히 상승하며, 이는 수화수 공급이 본격적으로 시작되어 시스템 내 수분 포화 상태가 증가한 결과로 해석된다. 초기에는 상대습도가 완만하게 증가하다가, 이후 급격히 상승하는 경향을 보인다. 이는 해당 시스템에서 시간 변화에 따라 점차 안정화되는 과정에서 수분 공급이 영향을 미치는 것을 보여준다. 센서 위치에 대한 분석에서는 센서 1과 센서 3이 상대습도에 미치는 영향이 상반되게 나타난다. 센서 1은 수화수 공급장치와의 근접성으로 인해 상대습도가 증가하는 데 큰 영향을 미치며, 이는 해당 위치에서 수분 공급이 원활히 이루어지기 때문으로 판단된다. 반면, 센서 3은 히터와 가까운 위치에 있어 상대습도가 감소하는 경향을 보인다. 이는 히터로 인해 주변 공기가 건조해지고, 이에 따라 상대습도가 낮아지는 현상을 반영한다. 이 결과는 공간적 위치에 따른 온도 및 수분 분포의 차이가 상대습도 변화에 중요한 역할을 한다는 점을 강조한다. 온도의 경우, 온도가 증가함에 따라 상대습도가 전반적으로 증가하는 경향을 보인다. 그러나 약 35도와 55도 구간에서 상대습도가 급격히 낮아지는 현상이 관찰되었으며, 이는 센서 위치별로 온도 변화에 따른 건조 상태로의 변화와 관련이 있을 수 있다. 특히, 특정 온도 구간에서는 공기가 더 많은 수분을 포함하려는 경향으로 인해 오히려 상대습도가 낮아지는 효과가 나타난다. 이러한 온도 변화와 상대습도의 상호작용은 시스템의 열역학적 특성과 관련이 있으며, 이로 인해 상대습도 결과에 미치는 영향이 센서 위치와 밀접하게 연관되어 있다. 따라서 온도 변화와 센서 위치 간의 상호작용에 대한 추가적인 검토와 분석이 필요하다.
수리적(H) 거동 특성에 영향을 주는 매개변수 중 수분 보유 곡선의 특성은 상대습도에 높은 영향력을 미치고 있음이 확인되었지만, 이를 물리적 현상과 연관시켜 설명하는 데 한계가 있다. 예를 들어, 고유 투수계수의 경우 해당 매개변수의 값이 증가할수록 상대습도가 낮아지는 경향을 보였으며, 이는 일반적인 물리적 이해와 상반되는 결과로 나타났다. 일반적으로 고유 투수계수가 높아지면 물질의 투수성이 증가하여 수화수 공급이 용이해져 상대습도가 증가할 것으로 예상된다. 그러나 본 분석에서는 온도의 영향이 상대습도 변화에 더 큰 영향을 미치면서 이러한 결과가 도출된 것으로 보인다. 이는 상대습도에 대한 영향력이 여러 상호작용을 통해 비선형적으로 나타날 수 있음을 시사한다.
이러한 분석 결과는 수리적(H) 거동 특성의 매개변수들이 상대습도 예측 결과에 미치는 영향이 물리적 관계를 통해 설명되기 어려운 복합적인 상황임을 보여준다. 특히 온도와 수분 보유 곡선, 투수계수와의 상호작용이 어떻게 상대습도 결과 예측에 영향을 미치는지에 대한 명확한 해석이 어려운 상황이다. 이는 시스템 내에서의 열역학적 상호작용, 공기 중의 수분 이동, 그리고 측정 위치 등에 따른 인자들의 복합적인 영향이 모두 결합되어 상대습도 변화 예측 모델에 영향을 미치기 때문으로 판단된다.
다만 벤토나이트의 주요 매개변수 중 상대습도에 영향을 주는 주요 매개변수로는 수리적(H) 거동 특성이 열적(T) 거동 특성과 관련된 매개변수보다 더욱 강하게 작용하고 있음을 확인할 수 있었다. 수분 보유 곡선과 투수계수와 같은 수리적(H) 매개변수는 상대습도의 즉각적인 변화에 중요한 역할을 하며, 수화수 공급의 효율성을 직접적으로 결정짓는다. 반면, 열적(T) 거동 특성은 상대습도에 미치는 영향이 비교적 간접적이며, 주로 시간이 지남에 따라 점진적으로 영향을 미치는 경향이 있다. 이러한 결과는 수리적(H) 매개변수의 효과적인 관리와 선정이 상대습도 결과에 있어서 보다 효과적일 수 있을 것으로 분석된다.
그림 17 입력 인자 별 상대습도 변화 영향도 분석(Partial Dependence Plot)
맺음말
지난호와 이번호에서는 벤토나이트 펠렛의 열(T)-수리적(H) 복합 거동에 대한 수치모델링을 수행하고, 민감도 평가 체계 구축을 위한 주요 매개변수의 민감도 평가 및 평가 체계 기반 구축과 관련된 내용을 소개하였다. 민감도 평가 체계 구축은 본 연구의 핵심 항목으로 벤토나이트 완충재의 주요 매개변수가 열(T)-수리적(H) 복합 거동에 미치는 영향을 체계적으로 평가하기 위해 수행된다. 이를 위해 주요 매개변수 선정 및 분포 범위 설정, 라틴 하이퍼큐브 샘플링을 이용한 표본 추출 및 학습 데이터 확보, 기계 학습 기법을 활용한 예측 모델 개발과 민감도 평가까지의 과정을 체계적으로 통합하여 민감도 평가 체계 구축의 기반을 마련하였다. 이를 토대로 향후 추가 연구를 통해 더욱 정교하고 효과적인 평가 체계를 구축할 계획이다. 이러한 평가 과정을 통해 벤토나이트 완충재에서의 복합 거동을 심도 있게 분석하고 이해하며, 이를 통해 사용후핵연료 심층처분시설의 설계 및 평가 과정에서 신뢰성을 높이는 데 중요한 기초를 마련할 것으로 기대한다.
■ 참고자료
[1] Kim, Jin-Seop, et al. "A review on the design requirement of temperature in high-level nuclear waste disposal system: based on bentonite buffer." Journal of Korean Tunnelling and Underground Space Association 21.5 (2019): 587-609.
[2] Köhler, S., et al. "Report of the construction of the HE-E experiment." DELIVERABLE (DN: 2.2-3) European Commission (2012).
[3] Gaus, Irina, et al. "EBS behaviour immediately after repository closure in a clay host rock: HE-E experiment (Mont Terri URL)." Geological Society, London, Special Publications 400.1 (2014): 71-91.
[4] Villar, M. V., P. L. Martín, and F. J. Romero. "Long-term THM tests reports: THM cells for the HE-E test: update of results until February 2014." PEBS Deliverable D2. 2 7 (2014).
[5] Villar, M. V., et al. "Long-term THM tests reports: THM cells for the HE-E test: Setup and first results." PEBS report D2. 2.7. 1, CIEMAT technical report CIEMAT/DMA/2G210/02/2012 (2012).
[6] Villar, María Victoria, et al. "HE-E Experiment: Laboratory test in a THM cell with the Sand/Bentonite mixture." (2021).