전립선암 진단, 혁신적인 라디오믹스와 머신러닝 기반 바이오마커 검증 심층 분석
http://dx.doi.org/10.9718/JBER.2023.44.1.25
부제: 2D 전립선 단면 영상 영역 분류의 새로운 시대, AUC 0.99 달성의 비결
서론: 전립선암 진단 및 예후 예측의 중요성과 새로운 도전
전립선암은 서양인에게 흔한 질환이었으나, 최근 서구화된 식단과 생활 방식으로 인해 동양인에게도 발병률이 증가하고 있는 추세입니다.
대한민국에서는 1999년 이후로 전립선암 환자 수가 꾸준히 늘어, 2019년에는 남성 암 발생 순위에서 12.5%로 4위를 기록했으며, 전체 암 발생자 수 중 6.6%를 차지했습니다.
특히 남성 65세 이상에서는 발생 분율 2위(17.3%)를 기록할 정도로 심각한 보건 문제로 대두되고 있습니다.
전립선암의 크기와 위치를 정확하게 파악하는 것은 환자의 진단, 치료 방향 결정, 그리고 예후 예측에 있어 매우 중요한 요소입니다.
기존에는 다중파라미터 자기공명영상(mpMRI)과 같은 영상의학적 방법이나, 바늘생검(needle biopsy) 또는 근치적 전립선절제술(radical prostatectomy) 조직의 H&E 병리 슬라이드 이미지를 기반으로 조직학적 진단이 이루어져 왔습니다.
이러한 영상 및 병리 슬라이드 이미지를 기반으로 전립선암의 크기와 위치를 예측하는 인공지능 모델들이 다수 개발되어 왔습니다.
예를 들어, S. Mehralivand 등은 MRI 기반 AI 모델로 198개 의심 병변 중 111개를 정확히 감지하는 결과를 보였으며, M. Tsuneki 등은 바늘생검 병리 슬라이드 기반 AI 모델(EfficientNetB1)로 종양 위치를 AUC 0.97로 예측했고, W. Han 등은 전립선절제술 병리 슬라이드 기반 AI 모델(AlexNet-TCM)로 AUC 0.964의 결과를 보여주었습니다.
그러나 문제는 '전립선 육안 단면 이미지'입니다.
자기공명영상이나 병리 슬라이드 이미지와 달리, 전립선 육안 단면 이미지는 숙련된 병리과 전문의조차 암 영역과 정상 영역을 육안으로 정확히 구별하는 데 한계가 있습니다.
따라서, 본 연구의 핵심은 사람의 육안으로 파악하기 어려운 이 전립선 육안 단면 이미지를 기반으로 객관적이고 정량적인 암 영역 지표, 즉 라디오믹스 기반 바이오마커를 확보하는 데 있습니다.
이러한 정량적 분석의 어려움을 극복하기 위해, 의료 영상에서 육안으로 확인하기 어려운 영상학적 특성을 수학적, 통계적 정보를 추출해 정량적인 값으로 나타내는 라디오믹스(Radiomics) 기법을 활용하여 각 영역의 특징을 추출하고자 합니다.
이 글에서는 라디오믹스와 머신러닝(Machine Learning)을 결합한 혁신적인 접근 방식을 통해 전립선암 진단의 새로운 지평을 열고자 한 연구 결과를 상세히 분석합니다.
I. 연구 방법론: 라디오믹스와 머신러닝의 결합
본 연구는 전립선절제술을 시행 받은 44명의 전립선암 환자 데이터를 활용했으며, 이 데이터는 가천대길병원에서 2021년 3월부터 2022년 10월 사이에 수집되었습니다.
총 337장의 전립선 절편 단면 이미지 중 조직 외 물질을 제외한 289개의 절편 사진이 최종 사용되었습니다.
이 중 암 영역을 포함한 이미지는 200장, 포함하지 않은 이미지는 89장으로 구성되었습니다.
1. 데이터 구성 및 전처리
연구에 사용된 이미지 데이터의 구성은 아래 표 1과 같습니다.
[표 1. 암 영역을 포함한 이미지와 포함하지 않은 이미지 데이터 구성 해석]
| Table 1. Composition of image data with and without tumor regions | Images with tumor regions | Images without tumor regions | Total |
| Data | 200 | 89 | 289 |
| Total | 289 |
전립선 절편 단면 이미지 289장 중 200장이 암 영역을 포함하고 있어, 암 영역 분류 모델 학습에 충분한 양성 케이스 데이터가 확보되었음을 보여줍니다.
수집된 데이터는 전체 289개 절편에 대한 사진을 사용했으며, 학습 및 테스트 데이터 세트는 전체 데이터의 8:2 비율로 나누어졌습니다.
표 2. 학습 및 테스트 데이터 세트 해석]
| Table 2. Training and test data set | Normal | Tumor | Total |
| Train set | 228 | 163 | 391 |
| Test set | 61 | 37 | 98 |
| Total | 289 | 200 | 489 |
289장의 전립선 절편 이미지를 기반으로 정상(289개) 및 암(200개) 영역 마스크를 생성하여 총 489개의 영역 데이터 포인트를 확보했습니다. 이 데이터를 8:2 비율로 Train set 391개, Test set 98개로 나누어 모델의 객관적인 학습 및 평가 환경을 구축했음을 나타냅니다.
데이터 전처리 과정은 머신러닝 학습 시 의미 없는 이미지 배경을 제거하고 조직 부분만 추출하는 데 중점을 두었습니다.
문턱치(Threshold) 사용: 오츠(Otsu)의 이진화 알고리즘을 이용해 임계값을 선정했습니다.
형태학 처리: 침식(erosion)과 팽창(dilation) 연산을 수행했습니다.
크기 조정: 모든 입력 이미지를 가로 640 픽셀, 세로 640 픽셀로 통일했습니다.
마스크 이미지 확보: 병리 전문의가 H&E 슬라이드 기반으로 판단한 영역을 매핑 용지에 옮겨 그려 암 영역을 표기하고, 이 암 영역 마스크 이미지를 기반으로 정상 영역 마스크 이미지도 얻었습니다.
그림 1. 전립선 절제술 조직의 단면에 대한 육안 이미지(a)와 암 영역을 매핑 용지에 옮겨 그린 이미지(b) 해석
(a)는 파란색 배경을 사용하여 대비와 노출을 최적화하고 빛 반사를 억제한 전립선 절제술 조직의 2D 육안 단면 원본 이미지입니다. (b)는 이 이미지 위에 병리과 전문의가 H&E 슬라이드와 비교하여 암 영역(파란색 윤곽선)을 표시한 마스크 매핑 이미지로, 머신러닝 모델의 Ground Truth(정답 영역)으로 사용되었음을 보여줍니다.
그림 2. 데이터 전처리 흐름도 해석
Input Image (a)에 Threshold, Morphology, Resizing을 적용하여 배경을 제거하고 조직에 해당하는 부분만 추출(Preprocessed result)한 과정을 시각화합니다. 이 과정은 머신러닝 학습의 계산 복잡성을 줄이고, 영상 내 조직 영역에만 집중하여 특징을 추출하기 위해 필수적입니다.
그림 3. 정상 영역 추출 흐름도 해석
전처리된 결과(Preprocessing Result) 이미지와 병리 전문의가 지정한 암 영역 마스크 이미지(Tumor Mask Image)를 비트 연산(Bitwise Operation)을 통해 정상 영역 마스크 이미지(Normal Mask Image)로 변환하는 과정을 보여줍니다. 이를 통해 암 영역과 정상 영역 각각에 대한 라디오믹스 특징 추출을 가능하게 하는 마스크를 확보했습니다.
2. 라디오믹스 특징 추출: 총 93가지 바이오마커 후보
라디오믹스는 전립선 단면 영상에서 수학적, 통계적으로 암과 정상 영역에 대한 특징을 추출하여, 기존 전문의의 시각적 분석에서 얻을 수 없는 객관적인 정량 값을 제공합니다.
본 연구에서는 RGB 채널을 그레이스케일(grayscale)로 변환하여 라디오믹스를 수행했습니다.
총 6가지 라디오믹스 기법을 사용하여 93개의 특징(feature), 즉 잠재적 바이오마커 후보를 추출했습니다.
First order (18개): 영상의 히스토그램 기반 분석.
GLCM (Gray Level Co-occurrence Matrix) (24개): 상호 픽셀 간의 관계 파악.
GLRLM (Gray Level Run Length Matrix) (16개): 같은 그레이 레벨 값을 갖는 연속 픽셀(Run Length)을 찾는 분석.
GLSZM (Gray Level Size Zone Matrix) (16개): 픽셀 군집 단위의 규모와 강도 분석.
NGTDM (Neighbouring Gray Tone Difference Matrix) (5개): 픽셀 간 그레이 레벨 값의 상관관계 분석.
GLDM (Gray Level Dependence Matrix) (14개): 이미지에서 그레이 레벨 종속성 파악.
그림 4. 라디오믹스를 이용한 총 93가지 특징 추출 해석
이미지 및 마스크(Image & Mask)를 입력받아 First order, GLCM, GLRLM, GLSZM, NGTDM, GLDM의 6가지 라디오믹스 기법을 통해 총 93개의 정량적 특징 값을 추출하는 과정을 보여줍니다. 이 93개의 특징은 암 영역과 정상 영역을 분류할 라디오믹스 바이오마커 후보군입니다.
3. 특징 선택 기법 및 머신러닝 분류기
특징 선택(Feature Selection)은 모델의 학습 성능과 정확도를 개선하고, 계산 복잡성과 과적합(overfitting)을 줄이는 데 필수적입니다.
본 연구는 다음과 같은 4가지 특징 선택 기법과 3가지 머신러닝 분류기를 조합하여 총 12가지 모델의 성능을 비교 분석했습니다.
특징 선택 기법 (4가지):
LASSO (L1-norm): 계수가 0이 아닌 특징만 선택하여 복잡성을 줄이는 임베디드 방법.
Ridge (L2-norm): 모든 특징을 유지하면서 계수에 제약을 주는 임베디드 방법.
ANOVA (Analysis of Variance): 통계적 측정 방법으로 특징을 선택하는 필터 방법.
SFS (Sequential Forward Selection): 특징을 다양하게 조합하여 최적의 모델을 생성하는 래퍼 방법의 일종.
머신러닝 분류기 (3가지):
RF (Random Forest): 반복적인 예측 성능을 보여주며, 여러 결과를 합쳐 최종 결과를 도출하는 앙상블 모델.
LR (Linear Regression): 분류와 회귀가 가능하며 선형 상관관계를 파악하는 모델.
SVM (Support Vector Machine): 두 클래스로부터 최대한 멀리 떨어진 결정 경계를 찾는 모델.
그림 5. 사용한 특징 선택 기법 및 분류기와 성능 측정 방법 해석
본 연구의 핵심 프로세스인 '특징 선택(ANOVA, SFS, LASSO, Ridge)'과 '분류기(LR, SVM, RF)' 조합을 보여줍니다.
결과는 AUC-ROC 곡선을 통해 통계적으로 분석하고 성능을 비교하여 최적의 라디오믹스 바이오마커를 도출하는 연구 흐름을 나타냅니다.
II. 연구 결과: 최적의 조합과 바이오마커 후보 선정
모델의 성능 평가는 ROC 곡선의 면적인 AUC(Area Under the Curve)를 계산하여 진행되었습니다.
AUC 값이 높을수록 분류 모델의 성능이 더 정확하다는 것을 의미합니다.
1. 특징 선택 기법과 분류기 조합 성능 비교 (AUC)
본 연구는 4가지 특징 선택 기법과 3가지 분류기를 조합한 총 12가지 방법에 대해 암과 정상 영역 분류 성능을 평가했습니다.
표 3. 각 특징 선택 기법과 분류기 조합의 AUC 해석
| Classifier | LASSO | Anova | SFS | Ridge |
| RF | 0.99 | 0.98 | 0.87 | 0.99 |
| LR | 0.95 | 0.96 | 0.85 | 0.96 |
| SVM | 0.96 | 0.94 | 0.86 | 0.89 |
히트맵 형태로 12가지 조합의 AUC 값을 시각화한 결과입니다.
최고 성능: LASSO + RF 조합 및 Ridge + RF 조합이 AUC $0.99\pm0.005$로 가장 높은 분류 성능을 보였습니다.
최저 성능: SFS + LR 조합이 AUC 0.85로 가장 낮은 성능을 보였습니다.
특징 선택 기법별 평균: LASSO 방법은 평균 AUC $0.97\pm0.016$로 비교적 높았으나, SFS 방법은 평균 AUC $0.86\pm0.008$으로 가장 낮았습니다.
분류기별 분석: RF 분류기가 모든 특징 선택 기법에서 가장 높은 성능을 보여주었습니다. 이는 RF가 앙상블 모델로 과대적합 문제에 최소화되어 있기 때문으로 판단됩니다. 반면, 선형 기법인 LR은 데이터의 상관관계를 정확히 분석하지 못해 상대적으로 낮은 성능을 보인 것으로 판단됩니다.
이 결과는 LASSO와 Ridge와 같은 정규화 기반 특징 선택 기법과 RF 분류기의 조합이 전립선 육안 단면 영상에서 암/정상 영역 분류에 가장 적합함을 시사합니다.
L1-norm을 사용하는 LASSO는 불필요한 특징의 계수를 0으로 만들어 필요한 특징만 선별하며 , L2-norm을 사용하는 Ridge는 모든 특징을 유지하며 의미 있는 정보를 보존함으로써 높은 성능에 도달한 것으로 분석됩니다.
2. 상위 10개 특징 중요도 분석: 핵심 바이오마커 선정
전립선암 분류 성능에 기여하는 유의미한 특징을 선정하기 위해, 최고 성능을 보인 LASSO+RF와 Ridge+RF 조합에 대해 특징 중요도 분석을 수행했습니다.
그림 6. LASSO 특징선택 기법과 RF 분류기 조합의 특징 중요도 분석 결과 해석
LASSO+RF 조합에서 전립선암 분류에 중요도가 높은 상위 10가지 특징을 막대 그래프로 나타냅니다. 상위 특징들은 다음과 같습니다: RunLengthNonUniformity, GrayLevelNonUniformity, Energy, TotalEnergy, LargeAreaHighGrayLevelEmphasis, SizeZoneNonUniformity, Maximum, GrayLevelNonUniformity.1, Autocorrelation, SumAverage.
그림 7. Ridge 특징선택 기법과 RF 분류기 조합의 특징 중요도 분석 결과 해석
Ridge+RF 조합에서 전립선암 분류에 중요도가 높은 상위 10가지 특징을 막대 그래프로 나타냅니다. 상위 특징들은 다음과 같습니다: RunLengthNonUniformity, GrayLevelNonUniformity, GrayLevelNonUniformity.1, SizeZoneNonUniformity, LargeAreaHighGrayLevelEmphasis, Maximum, Autocorrelation, Minimum, ZoneEntropy, SumAverage .
공통 상위 특징 (라디오믹스 바이오마커 후보):
두 최고 성능 조합에서 공통적으로 중요하게 뽑힌 특징은 8가지입니다. 이 중에서도 특히 공통 상위 2개 특징은 RunLength NonUniformity와 GrayLevel NonUniformity입니다. 이 두 특징이 전립선암 진단 바이오마커로 활용 가능성이 높은 것으로 판단됩니다.
RunLength NonUniformity: 같은 그레이 레벨 값을 가진 연속 픽셀의 수, 즉 이미지의 동일한 그레이 레벨 값에 대한 균일함을 나타냅니다. 암 영역은 정상 영역에 비해 밝고 균일한 밝기를 갖기 때문에 중요도가 높게 추출된 것으로 분석됩니다.
GrayLevel NonUniformity: 그레이 레벨 강도 값의 가변성 측정과 관련되며, 값이 낮을수록 강도 값의 유사성이 커집니다. 암 영역이 정상 영역에 비해 그레이 레벨 강도 값의 유사성이 높았을 것으로 판단됩니다.
III. 결론 및 향후 연구 방향
본 연구는 전립선 육안 단면 영상에서 라디오믹스와 머신러닝을 활용하여 암 영역과 정상 영역을 객관적이고 정량적으로 분류하는 모델을 구축하고, 핵심 바이오마커를 검증했다는 점에서 큰 의의를 갖습니다.
총 44케이스의 전립선암 환자 데이터(289개 절편 이미지)를 대상으로 진행된 연구 결과 , 특징 선택 기법 LASSO 또는 Ridge와 분류기 RF의 조합이 최대 AUC 0.99\pm0.005라는 압도적인 분류 성능을 달성했습니다.
이 결과는 숙련된 병리 전문의조차 구별이 어려웠던 육안 단면 영상에서 전립선암의 유의미한 정량적 지표를 확보했음을 의미합니다.
특히, 최고 성능 조합에서 공통으로 중요도가 높은 상위 2가지 특징인 RunLength NonUniformity와 GrayLevel NonUniformity는 전립선암 진단 및 영역 분류를 위한 새로운 라디오믹스 기반 바이오마커로서의 활용 가능성을 강력하게 시사합니다.
향후 연구에서는 다음과 같은 방향으로 발전이 가능할 것으로 보입니다.
다기관/다량 케이스 연구: 본 연구 결과를 바탕으로 다량의 케이스를 포함하는 다기관 연구를 수행한다면, 실제 임상 환경에서 실용화가 가능한 모델을 개발할 수 있을 것입니다.
색상 채널 분리 분석: 현재 RGB 채널을 그레이스케일로 변환하여 라디오믹스를 수행했으나, 추후에는 RGB, HSV(Hue, Saturation, Value), 또는 YCbCr 색상 모델의 각 채널을 분리하여 특징을 추출하는 것도 분류 성능 향상을 위한 좋은 방향성이 될 수 있습니다.
결론적으로, 본 연구는 전립선암 진단 분야에서 라디오믹스와 머신러닝이 제공하는 객관적이고 정량적인 바이오마커의 가치를 입증했으며, 이는 향후 전립선암의 조기 진단 및 정밀 의료에 기여할 혁신적인 연구 성과입니다.
전립선암 진단 패러다임의 변화를 선도하는 이 기술의 발전에 지속적인 관심과 투자가 필요합니다.
참고문헌(References)
[1] Y. Zhu, H.-K. Wang, Y.-Y. Qu, and D.-W. Ye, "Prostate cancer in East Asia: evolving trend over the last decade," Asian journal of andrology, vol. 17, no. 1, p. 48, 201576.
[2] J. Y. Park, Y. J. Kim, J. Kim, and K. G. Kim, "Radiomics-based Biomarker Validation Study for Region Classification in 2D Prostate Cross-sectional Images," Journal of Biomedical Engineering Research, vol. 44, pp. 25–32, 202377777777.
[3] J. J. M. Van Griethuysen et al., "Computational Radiomics System to Decode the Radiographic Phenotype," Cancer research, vol. 77, no. 21, pp. 104–107, 201778.
[4] W. Han, C. Johnson, M. Gaed, J. A. Gómez, M. Moussa, J. L. Chin, S. Paulter, G. S. Bauman, and A. D. Ward, "Histologic tissue components provide major cues for machine learning-based prostate cancer detection and grading on prostatectomy specimens," Scientific reports, vol. 10, no. 1, pp. 1–12, 202079.
[5] M. Tsuneki and M. Abe, "A deep learning model for prostate adenocarcinoma classification in needle biopsy whole-slide images using transfer learning," Diagnostics, vol. 12, no. 3, p. 768, 202280.
[6] R. Muthukrishnan and R. Rohini, "LASSO: A feature selection technique in predictive modeling for machine learning," in 2016 IEEE international conference on advances in computer applications (ICACA), 2016, pp. 18–2081.
[7] A. T. Azar, H. I. Elshazly, A. E. Hassanien, and A. M. Elkorany, "A random forest classifier for lymph diseases," Computer methods and programs in biomedicine, vol. 113, no. 2, pp. 465–473, 201482.
[8] N. Otsu, "A threshold selection method from gray-level histograms," IEEE transactions on systems, man, and cybernetics, vol. 9, no. 1, pp. 62–66, 197983.
[9] B. I. Chung, T. V. Tarin, J. D. Ferrari, and D. B. James, "Comparison of prostate cancer tumor volume and percent cancer in prediction of biochemical recurrence and cancer specific survival," Urologic Oncology: Seminars and Original Investigations, vol. 29, no. 3, pp. 314–318, 201184.
댓글
댓글 쓰기