설암 조기진단, AI 영상 판독 기술로 획기적 전환! (딥러닝 CNN 분석)

http://dx.doi.org/10.31916/sjmi2022-01-02  

서론: 소리 없는 위협, 구강암과 설암

안녕하세요, 디지털 헬스케어와 최신 의료 기술에 대해 깊이 있는 정보를 전해드리는 AI 메디컬 인사이트입니다. 

오늘 다룰 주제는 많은 분들이 두려워하지만 정작 잘 알지 못하는 암, 바로 설암(혀암)과 구강암입니다.

구강암은 전 세계 암 발병률 10위 안에 드는 주요 질병 중 하나로, 특히 조기 진단이 어려워 예후가 좋지 않은 것으로 알려져 있습니다. 

구강암 중에서도 가장 흔하게 발생하는 부위가 바로 혀, 구강저(입안 바닥), 그리고 아랫입술입니다. 

안타깝게도 구강암의 5년 생존율은 50%로 매우 낮은 수준에 머물러 있으며, 이는 조기 발견이 얼마나 중요한지를 역설합니다. 

조기에 발견하기만 한다면 평균 생존 기간은 훨씬 길어질 수 있습니다.

따라서 구강암 환자의 생존율을 높이기 위해서는 암의 조기 발견과 함께, 주요 위험 요인으로 알려진 흡연 및 음주와 같은 생활 습관의 개선이 매우 중요합니다.

기존의 구강암 진단은 CT나 MRI 같은 영상 장비를 이용하거나, 조직을 직접 떼어내는 침습적 생검(biopsy)을 통해 이루어집니다. 

하지만 이러한 방법들은 비용과 시간 부담이 크고, 환자에게 고통을 줄 수 있어 조기 검진으로는 접근성이 떨어지는 것이 현실입니다.

만약 우리가 일상적으로 사용하는 일반 카메라로 촬영한 입안 사진을 통해 설암을 조기에 발견할 수 있다면 어떨까요? 

최근, 이러한 혁신적인 아이디어를 현실로 만드는 인공지능(AI) 딥러닝 기술이 의료계의 큰 주목을 받고 있습니다. 

본 칼럼에서는 일반 구강 이미지에 딥러닝 분석을 적용하여 설암의 등급을 분류하고, 그 신뢰성을 평가한 최신 연구를 바탕으로 AI 영상 판독 기술의 원리와 가능성을 심도 있게 파헤쳐 보겠습니다.

본론

1. 설암(Tongue Cancer)에 대한 깊은 이해

구강암이란 무엇인가? 구강암은 입술이나 구강 내에 발생하는 악성 종양을 의미합니다. 

치과 분야에서는 구강암의 90%가 편평상피세포에서 기원하기 때문에 이를 구강 편평상피세포암(Oral Squamous Cell Carcinoma, OSCC)으로 정의하기도 합니다.

주요 위험 요인과 생존율 음주와 흡연은 구강암을 유발하는 가장 위험한 요인으로 꼽힙니다. 

한 연구에 따르면, 비음주 및 비흡연자의 5년 생존율이 73.1%인 반면, 흡연만 하는 환자는 61.4%, 음주와 흡연을 모두 하는 환자는 41.4%까지 생존율이 급격히 떨어지는 것으로 나타났습니다.

또한, 암의 크기와 전이 정도를 나타내는 TNM 분류에 따라서도 생존율은 크게 달라집니다. 

종양의 크기가 작을수록(T1) 5년 생존율은 66.2%에 달하지만, 종양이 클수록(T4) 22.2%로 현저히 감소합니다. 

이는 종양의 크기가 커질수록 생존율이 낮아진다는 것을 의미하며, 다시 한번 조기 진단의 중요성을 강조합니다.

2. 의료 분야의 혁신: 인공지능(AI)과 머신러닝

지난 20년간 의료 분야에서는 컴퓨터 보조 진단(Computer Aided Diagnosis, CAD) 시스템이 눈부시게 발전해왔습니다. 

이는 의료 전문가를 대체하는 것이 아니라, 진단의 정확도를 높이는 보조 도구로서 자리 잡고 있습니다.

이러한 발전의 중심에는 머신러닝(Machine Learning, ML)이 있습니다. 

머신러닝은 데이터를 기반으로 컴퓨터가 스스로 학습하여 특정 작업을 더 잘 수행하도록 만드는 인공지능의 한 분야입니다. 

머신러닝은 크게 세 가지로 분류할 수 있습니다.

  • 지도 학습 (Supervised Learning): 정답(레이블)이 있는 데이터를 학습하여 새로운 데이터의 결과를 예측하는 방식입니다. 예를 들어, '정상' 또는 '암'으로 표시된 수많은 혀 사진을 학습한 후, 새로운 혀 사진이 암인지 아닌지 판별하는 것이 지도 학습에 해당합니다.

  • 비지도 학습 (Unsupervised Learning): 정답이 없는 데이터에서 스스로 패턴이나 구조를 찾아내는 방식입니다.

  • 강화 학습 (Reinforcement Learning): 특정 환경에서 보상을 최대화하는 방향으로 행동을 학습하는 방식입니다.

오늘 다룰 설암 진단 AI는 바로 이 지도 학습을 기반으로 합니다.

3. 딥러닝과 CNN: 이미지를 이해하는 AI의 눈

인공신경망(Artificial Neural Networks, ANN) 딥러닝을 이해하기 위해서는 먼저 인공신경망(ANN)에 대해 알아야 합니다. 

ANN은 동물의 뇌를 구성하는 생물학적 신경망에서 영감을 얻은 컴퓨팅 시스템입니다. 

뇌의 뉴런처럼 인공 뉴런(노드)들이 서로 연결되어 신호를 주고받으며 정보를 처리합니다.

Figure 1. 인공신경망의 구조; (a), (b)는 동물의 뇌에 있는 실제 뉴런과 시냅스를 보여줍니다. (c), (d)는 이를 모방한 인공 뉴런과 인공 시냅스의 개념도로, 입력(input)을 받아 처리한 후 출력(output)을 내보내는 기본 구조를 나타냅니다.

딥러닝(Deep Learning) 딥러닝은 이러한 인공신경망의 층(layer)을 매우 깊게 쌓아올린 형태입니다. 여러 개의 은닉층(hidden layer)을 통해 데이터의 특징을 단계별로, 그리고 더욱 복합적으로 학습할 수 있습니다.

Figure 2. 인공신경망의 예시; 데이터가 입력층(Input)을 통해 들어와 여러 은닉층(Hidden)을 거치면서 복잡한 연산을 수행하고, 최종적으로 출력층(Output)에서 결과를 도출하는 과정을 보여줍니다.

딥러닝 모델을 훈련시킬 때 주의해야 할 점이 바로 과적합(Overfitting)입니다. 과적합이란 모델이 훈련용 데이터는 지나치게 잘 학습했지만, 실제 새로운 데이터에 대해서는 예측 성능이 떨어지는 현상을 말합니다.

Figure 3. 과적합(Overfitting)의 이해; Underfitting'은 모델이 데이터를 너무 단순하게 학습한 상태, 'Overfitting'은 훈련 데이터의 노이즈까지 모두 학습하여 복잡한 곡선을 그린 상태, 'Ideal Balance'는 데이터의 전반적인 경향을 잘 학습한 이상적인 상태를 보여줍니다.

Figure 4. 모델 복잡도에 따른 과적합 영향; 모델의 복잡도가 증가함에 따라 훈련 데이터에 대한 손실(Training loss)은 계속 감소하지만, 실제 데이터에 대한 손실(Generalization loss)은 어느 지점(Optimum)부터 다시 증가하는 과적합 현상을 그래프로 보여줍니다.

합성곱 신경망(Convolutional Neural Network, CNN) 수많은 딥러닝 모델 중에서도 특히 시각적 이미지 분석에 가장 흔하게 적용되는 것이 합성곱 신경망(CNN 또는 ConvNet)입니다. CNN은 인간의 시각 피질이 이미지를 처리하는 방식에서 영감을 얻어 개발되었습니다.


Figure 5. 디지털 이미지의 생성 과정; (a) 아날로그 이미지를 (b) 샘플링(Sampling)과 (c) 양자화(Quantization)를 통해 컴퓨터가 이해할 수 있는 픽셀(pixel) 단위의 디지털 데이터로 변환하는 과정을 보여줍니다.<

CNN은 다음과 같은 핵심적인 층(Layer)들로 구성됩니다.

  1. 합성곱 층 (Convolutional Layer): 이미지의 특징을 추출하는 필터(커널)를 사용하여 이미지 전체를 훑으며 특징 맵(Feature Map)을 생성합니다. 이를 통해 이미지의 윤곽선, 질감 등 주요한 시각적 정보를 찾아냅니다.

Figure 6. 합성곱(Convolution) 원리; 특정 패턴을 감지하는 커널(Kernel)이 이미지 위를 이동하면서 각 위치의 픽셀 값과 곱셈 연산을 수행하고, 그 합(Sum of Products)을 통해 이미지의 특징을 추출하는 과정을 보여줍니다.<

Figure 7. 특징 맵(Feature map); 원본 이미지(Input)에 커널(Kernel) 연산을 적용하여 생성된 결과물입니다. 이 특징 맵은 원본 이미지의 특정 시각적 특징(예: 수직선, 질감 등)이 강조된 형태로 나타납니다.

  1. 풀링 층 (Pooling Layer): 합성곱 층에서 추출된 특징 맵의 크기를 줄여 데이터의 양을 감소시키고, 가장 중요한 특징만을 남기는 역할을 합니다. 주로 최대 풀링(Max Pooling) 방식이 사용됩니다.

Figure 8. 최대 풀링(Max Pooling)의 예시;  4x4 크기의 특징 맵을 2x2 크기의 필터로 나누고, 각 구역에서 가장 큰 값(6, 8, 3, 4)만을 추출하여 데이터의 크기를 1/4로 줄이는 과정을 보여줍니다. 이를 통해 연산 효율을 높이고 위치 변화에 덜 민감한 특징을 얻을 수 있습니다.


  1. 완전 연결 층 (Fully Connected Layer): 여러 번의 합성곱과 풀링을 거쳐 추출된 최종 특징들을 바탕으로 이미지를 최종적으로 분류하는 역할을 합니다. 예를 들어, 이미지가 '정상', '염증', '전암 병변', '악성 종양' 중 어디에 속할 확률이 가장 높은지를 계산합니다.

Figure 9. 완전 연결 층(Fully-connected layer);  이전 층의 모든 뉴런이 다음 층의 모든 뉴런과 연결되어, 최종적인 분류 결과를 도출하기 위해 종합적인 판단을 내리는 단계입니다.

이러한 과정을 통해 AI는 출력값의 오류를 역방향으로 전파하여 가중치를 업데이트하는 역전파(Backpropagation) 알고리즘을 사용해 점점 더 정확하게 학습합니다.

Figure 10. 역전파(Backpropagation) 개념도; 모델이 예측한 결과와 실제 값의 차이(Error Estimation)를 계산하고, 이 오차를 뒤쪽(출력층)에서 앞쪽(입력층)으로 다시 보내면서 각 연결의 가중치를 수정해나가는 학습 과정을 도식화한 것입니다.


4. 설암 등급 분류 AI 모델 연구 과정

이번 연구에서는 다음과 같은 과정으로 설암 진단 AI 모델을 개발하고 평가했습니다.

  • 데이터 수집 및 분류: 구강 이미지들을 수집하여 임상적 중요도에 따라 정상(Normal), 염증성 병변(Inflammatory lesion), 전암성 병변(Pre-cancerous lesion), 악성 종양(Malignant tumor)의 네 그룹으로 분류했습니다.

  • AI 모델 선정: 딥러닝 신경망으로는 Inception-ResNet-v2 모델을 사용했습니다. 이 모델은 이미지 인식 분야에서 매우 높은 성능을 보이는 것으로 알려져 있습니다.

  • 훈련 및 테스트: 전처리된 전체 이미지의 70%(1,307장)를 훈련 데이터로 사용하고, 나머지 30%(561장)를 테스트 데이터로 사용하여 모델의 성능을 평가했습니다.

Table 1. 대표적인 CNN 모델 비교

이미지 분류 대회에서 우수한 성적을 거둔 CNN 모델들의 발전 과정을 보여줍니다. Inception-ResNet-v2 (2016년)는 이전 모델들보다 훨씬 깊은 164개의 층(depth)을 가지며, 더 많은 파라미터와 큰 입력 이미지 사이즈를 사용해 높은 성능을 달성했습니다.

Table 2. ImageNet 데이터셋 기반 모델별 정확도
대규모 이미지 데이터셋(ImageNet)에서 각 모델의 성능을 비교한 표입니다. Inception-ResNet-v2는 Top-1 정확도(가장 확률 높은 예측 1개가 정답일 확률) 80.4%, Top-5 정확도(확률 높은 예측 5개 안에 정답이 있을 확률) 95.3%로 최상위권의 성능을 보였습니다.

  • 이미지 전처리: 더 나은 성능을 위해 표준 이미지 외에 히스토그램 평활화(Histogram Equalization)를 적용한 HE-1, HE-2 이미지를 추가로 생성하여 실험했습니다.

Figure 18. 이미지 전처리 예시; (a) 표준 원본 이미지, (b)와 (c)는 이미지의 대비(contrast)를 개선하는 히스토그램 평활화 기법을 적용한 HE-1, HE-2 이미지입니다. 이를 통해 AI가 병변의 특징을 더 쉽게 학습하도록 돕습니다.

5. 연구 결과: AI는 얼마나 정확하게 설암을 판독했는가?

AI 모델의 성능을 평가한 결과는 매우 놀라웠습니다.

  • 전체 성능: 민감도 90.37%, 특이도 95.03%, 정확도 93.21%라는 높은 수치를 기록했습니다. 이는 AI가 설암을 매우 정확하게 구별해냈음을 의미합니다.

  • 혼동 행렬(Confusion Matrix) 분석: 아래 표는 AI의 예측 결과(Output Class)와 실제 정답(Target Class)을 비교한 것입니다. 대각선(초록색 칸)의 수치가 높을수록 정확하게 분류했다는 의미입니다. 정상(Class 0)과 악성 종양(Class 3)은 매우 높은 정확도를 보였지만, 염증(Class 1)과 전암 병변(Class 2)은 상대적으로 혼동하는 경우가 있었습니다.

Figure 11. 혼동 행렬(Confusion Matrix) 결과; 0번(정상)을 0번으로 예측한 비율(58.0%)과 3번(악성 종양)을 3번으로 예측한 비율(16.1%)이 매우 높은 것을 볼 수 있습니다. 반면, 1번(염증)이나 2번(전암 병변)의 경우 다른 클래스로 잘못 예측하는 비율이 상대적으로 높게 나타났습니다.

Table 3. 클래스별 성능 지표

각 클래스별 정확도(Accuracy), 정밀도(Precision), 재현율(Recall) 등을 상세히 보여줍니다. 평균 정확도는 91.79%로 매우 높았으며, 특히 정상(Class 0) 분류의 정확도는 93.21%에 달했습니다.

  • AI의 시각화 (Grad-CAM): AI가 이미지의 어느 부분을 보고 판단을 내리는지 시각화하는 Grad-CAM 기술을 통해 확인한 결과, AI는 실제로 병변 부위에 집중하여 설암을 진단하고 있었습니다.


Figure 12. Grad-CAM을 이용한 정상(Class 0) 이미지 판독;  AI가 정상으로 분류된 이미지들을 분석할 때, 특정 병변 부위가 아닌 혀의 전반적인 영역을 보고 판단하는 것을 보여줍니다.

Figure 13. Grad-CAM을 이용한 염증성 병변(Class 1) 이미지 판독; AI가 염증 부위(붉게 활성화된 영역)에 집중하여 '염증성 병변'이라는 결론을 내리고 있음을 시각적으로 확인할 수 있습니다.

  • ROC 곡선 분석: 모델의 성능을 나타내는 ROC 곡선에서도 높은 수치(AUC)를 기록했습니다. 특히 정상(0.9781)과 악성 종양(0.9688) 분류 성능이 매우 우수했으나, 염증성 병변(0.9102)과 전암성 병변(0.8944)의 분류 성능은 상대적으로 낮았습니다. 이는 임상적으로도 구분이 모호한 두 병변을 AI 역시 일부 혼동하고 있음을 보여줍니다.

Figure 14. ROC 곡선; 곡선이 왼쪽 위 모서리에 가까울수록 성능이 우수함을 의미합니다. 파란색(Class 1, 정상)과 검은색(Class 4, 악성 종양) 곡선이 가장 이상적인 형태에 가까워, 이 두 클래스의 분류 성능이 매우 뛰어남을 알 수 있습니다.

Figure 15. 전처리 방식에 따른 정확도 비교; 표준(Standard) 이미지와 두 가지 전처리(HE1, HE2)를 적용한 이미지 간의 진단 정확도에는 통계적으로 유의미한 차이가 없었습니다.

결론: AI 영상 판독, 설암 조기 진단의 새로운 희망

이번 연구를 통해 딥러닝 기술을 구강 내 이미지에 적용한 진단 분류기의 성능은 평균 82.9%의 정확도를 보여, 다른 RGB 이미지를 사용한 선행 연구들보다 더 뛰어난 성능을 입증했습니다. 

최종 테스트에서는 93.21%라는 더욱 높은 정확도를 달성했습니다.

이러한 RGB 이미지 기반의 딥러닝 연구는 생검이나 혈액 검사와 달리 비침습적으로 데이터를 쉽게 얻을 수 있다는 큰 장점이 있습니다. 

또한, 이미 분류된 빅데이터를 활용할 수 있어 상용화가 빠르게 진행되는 추세입니다.

물론 아직 해결해야 할 과제도 남아있습니다. 

구강 내 이미지는 아직 사전 분류되어 공개된 빅데이터가 부족하고, 촬영 시 인공물이나 병변의 왜곡이 발생할 수 있습니다. 

따라서 앞으로 임상의와의 협력을 통해 이미지 획득 방법을 표준화하고, 정확하게 사전 분류된 대규모 빅데이터를 구축한다면, 이 기술은설암 조기 진단에 획기적인 도움을 줄 수 있을 것입니다.

인공지능 딥러닝 기술은 더 이상 먼 미래의 이야기가 아닙니다. 

카메라로 찍은 사진 한 장이 누군가의 생명을 구할 수 있는 시대, AI를 통한 설암 조기 진단 기술이 바로 그 시작을 알리고 있습니다.


참고문헌

[1] A. F. B. e. a. Jemal A, "Global cancer statistics," CA: a cancer journal for clinicians, vol. 61, no. 2, pp. 69-90, 2011. 

[2] J. A. P. E. T. a. M. A. C. Neville BW, Damm DD, Allen CM, Bouquot JE, "Oral and maxillofacial pathology," ed: Elsevier Health Sciences, 2015. 

[3] Y. LeCun, Y. Bengio, and G. Hinton, "Deep learning," nature, vol. 521, no. 7553, pp. 436-444, 2015. 

[4] A. Krizhevsky, I. Sutskever, and G. E. Hinton, "Imagenet classification with deep convolutional neural networks," Advances in neural information processing systems, vol. 25, pp. 1097-1105, 2012. 

[5] C. Szegedy et al., "Going deeper with convolutions," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 1-9. 

[6] K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556, 2014. 

[7] K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770-778. 

[8] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. A. Alemi, "Inception-v4, inception-resnet and the impact of residual connections on learning," in Thirty-first AAAI conference on artificial intelligence, 2017.

댓글

이 블로그의 인기 게시물

수면 건강 혁신: 기능성 직물 전도성 전극을 활용한 심전도 측정 기술의 최신 연구와 발전 방향

최첨단 진단 기술: 악성 포도막 흑색종 전이의 F-18 FDG PET/CT 조기 발견과 생존율 향상 전략

[유방암 영상의학] DCIS 업스테이징 예측을 위한 맘모그래피 기반 Radiomics: 최신 연구로 본 임상적 적용 가능성