[위 내시경 AI] 이미지 품질이 병변 검출 정확도에 미치는 영향: BRISQUE 및 RetinaNet 분석 가이드
http://dx.doi.org/10.9718/JBER.2023.44.2.118
의료 인공지능(AI)의 비약적인 발전에도 불구하고, 임상 현장에서의 진단 정확도는 여전히 입력 데이터의 품질에 크게 의존합니다. 특히 위암 조기 진단의 핵심인 위 내시경 검사에서 영상 품질은 병변 검출 모델의 성패를 가르는 결정적 요인입니다. 본 칼럼에서는 이미지 품질 평가(IQA) 알고리즘을 활용하여 데이터 품질이 딥러닝 모델의 성능에 미치는 영향을 정량적으로 분석한 최신 연구 결과를 전문가적 시각에서 고찰합니다.
1. 서론: 왜 위 내시경 영상 품질인가?
전 세계적으로 위암은 발생률과 사망률이 매우 높은 질환으로, 조기 진단이 예후 개선에 결정적입니다. 검사량의 증가와 전문의의 피로도 누적은 진단 정확도 저하와 편차를 야기할 수 있으며, 이를 보완하기 위한 컴퓨터 보조 진단(CADx) 시스템 도입이 가속화되고 있습니다. 그러나 다수의 연구가 아키텍처 개선과 데이터 양적 확대에 집중하는 반면, 학습 데이터 자체의 '품질'이 검출 성능에 미치는 구체적인 영향에 대한 연구는 상대적으로 부족한 실정입니다.
2. 이미지 품질 평가(IQA) 알고리즘의 정량적 접근
본 연구에서는 주관적 육안 평가를 넘어, 세 가지 핵심 알고리즘을 통해 영상 품질을 객관적으로 수치화했습니다.
- BRISQUE (Blind/Referenceless Image Spatial Quality Evaluator): 국지적으로 정규화된 휘도 계수를 사용하여 이미지의 자연스러움 손실을 측정합니다. 값이 낮을수록 선명한 영상임을 의미합니다.
- Laplacian Score: 2차 미분 연산자를 통해 이미지 외곽을 검출하고 블러(Blur) 세기를 측정합니다. 값이 높을수록 선명도가 높습니다.
- PSNR (Peak Signal-To-Noise Ratio): 신호 대 잡음비를 측정하며, 수치가 높을수록 원본 대비 손실이 적음을 나타냅니다. 일반적으로 30dB 이하인 경우 품질 수준이 낮다고 평가합니다.
[표 1] 알고리즘을 사용한 품질 평가 집단 통계량 및 T검정 결과
|
알고리즘 |
그룹 |
N |
Mean ±
SD (95% CI) |
p-value |
|
BRISQUE |
PQD |
430 |
48.86 ±
18.16 (47.15~50.56) |
<0.05 |
|
HQD |
430 |
44.08 ±
20.27 (42.89~46.73) |
||
|
Laplacian
Score |
PQD |
430 |
222.69 ±
300.13 (194.50~250.88) |
<0.05 |
|
HQD |
430 |
280.44 ±
230.16 (258.62~302.25) |
||
|
PSNR(dB) |
전체 |
860 |
10.62 ±
1.76 (10.45~10.79) |
<0.05 |
|
(출처: ) |
3. 데이터 구성 및 학습 환경
연구에는 가천대 길병원에서 수집된 2,490장의 위 내시경 이미지가 사용되었습니다. 전문의의 분류에 따라 고품질 데이터(HQD) 913장과 저품질 데이터(PQD) 1,577장으로 구분되었습니다.
[그림 1] 품질이 좋지
않은 데이터(PQD)의 예시
- (a) 정상 어두운 이미지: 밝기 저하로 인해 해부학적 구조 식별이 어려움.
- (b) 정상 빛 반사 이미지: 강한 광원으로 인해 점막 상세 정보가 손실됨.
- (c) 비정상 흐린 이미지: 초점 이탈로 병변 경계가 불분명함.
- (d) 비정상 흐린 빛 반사 이미지: 다중 영상 결함이 겹친 상태.
[그림 2] 품질이 좋은
데이터(HQD)의 예시
- (a), (b) 정상 이미지: 깨끗한 점막 상태와 적절한 조도 유지.
- (c) 암 이미지: 병변의 경계와 질감이 선명하게 노출됨.
- (d) 암 출혈 이미지: 출혈 부위와 주변 조직의 대비가 뚜렷함.
4. RetinaNet 기반 병변 검출 성능 분석
병변 검출 모델로는 ResNet-FPN을 백본으로 사용하는 RetinaNet이 활용되었습니다. RetinaNet은 Focal Loss를 통해 클래스 불균형 문제를 해결하며 작은 객체 검출에 탁월한 성능을 보입니다.
[그림 3] RetinaNet의 아키텍처; ResNet-FPN을 통해 특징 맵을 생성하고, 각 계층에서 분류(Classification) 및 상자 회귀(Box Regression)를 독립적으로 수행하여 정밀한 병변 위치를 추적합니다.
분석 결과, 고품질 데이터(HQD)가 저품질 데이터(PQD)보다 월등히 높은 검출 성능을 보였습니다. HQD의 F1-Score는 77.42±3.36%인 반면, PQD는 66.82±9.07%에 그쳐 통계적으로 유의미한 차이를 보였습니다.
[표 2] 품질에 따른 RetinaNet의 성능 평가 비교
|
데이터 그룹 |
Precision(%) |
Recall(%) |
F1-score(%) |
FPPI |
p-value |
|
PQD |
92.48 ±
4.98 |
53.80 ±
11.77 |
66.82 ±
9.07 |
0.02 ±
0.02 |
< 0.05 |
|
HQD |
85.08 ±
9.57 |
72.14 ±
5.48 |
77.42 ±
3.36 |
0.07 ±
0.06 |
|
|
(출처: ) |
5. 시각적 검출 결과 및 FROC 분석
[그림 4 (HQD)]: 초록색(참값)과 빨간색(예측값) ROI가 거의 일치하여 정확한 병변 위치를 검출함.
[그림5 (PQD)]: 영상 결함으로 인해 모델이 실제 병변(초록색)을 인식하지 못하거나 오검출하는 사례 발생.
[그림 6] 품질에 따른 FROC Curve; (a) 저품질 데이터 대비 (b) 고품질 데이터의 곡선이 상단에 위치함은 Recall(민감도) 값이 더 높음을 의미하며, 이는 데이터 품질이 모델의 신뢰도와 직결됨을 시사합니다.
6. 결론 및 향후 전망
본 연구는 IQA 알고리즘을 통해 내시경 이미지의 품질을 정량화하고, 이것이 실제 딥러닝 병변 검출 성능에 미치는 영향을 입증한 중요한 첫 시도입니다. 특히 PSNR 값이 10.62dB 수준으로 낮게 나타난 저품질 데이터는 병변 검출 성능을 심각하게 저하시켰습니다. 향후 의료 AI 시스템의 성능 극대화를 위해서는 학습 단계에서부터 BRISQUE나 Laplacian Score와 같은 객관적 지표를 활용한 데이터 필터링 기준 정립이 필수적입니다.
📚 참고문헌
- Ferlay
J, et al. Global cancer observatory: cancer today. Lyon, France: IARC. 2018;3(20):1-2.
- Kim
DH, Cho HC. Deep Learning based Computer-aided Diagnosis System for
Gastric Lesion using Endoscope. T.KIEE. 2018;67(7):928-933.
- Mittal
A, Moorthy AK, Bovik AC. No-reference Image Quality Assessment in the
Spatial Domain. IEEE Trans. Image Process. 2012;21(12):4695-4708.
- He X,
Cai D, Niyogi P. Laplacian score for feature selection. NIPS. 2006;18:507-514.
- Lin
TY, et al. Focal loss for dense object detection. Proc. IEEE ICCV. 2017;2980-2988.
- Kang
KS, Lee JH. PSNR appraisal of MRI image. J. Korean Soc. Radiol. 2009;3(4):13-21.
- Lee YH, Kim YJ, Kim KG. A Performance Comparison Study of Lesion Detection Model according to Gastroscopy Image Quality. JBER. 2023;44:118-124.
댓글
댓글 쓰기