[위 내시경 AI] 이미지 품질이 병변 검출 정확도에 미치는 영향: BRISQUE 및 RetinaNet 분석 가이드

 http://dx.doi.org/10.9718/JBER.2023.44.2.118

의료 인공지능(AI) 비약적인 발전에도 불구하고, 임상 현장에서의 진단 정확도는 여전히 입력 데이터의 품질에 크게 의존합니다. 특히 위암 조기 진단의 핵심인 내시경 검사에서 영상 품질은 병변 검출 모델의 성패를 가르는 결정적 요인입니다. 칼럼에서는 이미지 품질 평가(IQA) 알고리즘을 활용하여 데이터 품질이 딥러닝 모델의 성능에 미치는 영향을 정량적으로 분석한 최신 연구 결과를 전문가적 시각에서 고찰합니다.

1. 서론: 내시경 영상 품질인가?

세계적으로 위암은 발생률과 사망률이 매우 높은 질환으로, 조기 진단이 예후 개선에 결정적입니다. 검사량의 증가와 전문의의 피로도 누적은 진단 정확도 저하와 편차를 야기할 있으며, 이를 보완하기 위한 컴퓨터 보조 진단(CADx) 시스템 도입이 가속화되고 있습니다. 그러나 다수의 연구가 아키텍처 개선과 데이터 양적 확대에 집중하는 반면, 학습 데이터 자체의 '품질' 검출 성능에 미치는 구체적인 영향에 대한 연구는 상대적으로 부족한 실정입니다.

2. 이미지 품질 평가(IQA) 알고리즘의 정량적 접근

연구에서는 주관적 육안 평가를 넘어, 가지 핵심 알고리즘을 통해 영상 품질을 객관적으로 수치화했습니다.

  • BRISQUE (Blind/Referenceless Image Spatial Quality Evaluator): 국지적으로 정규화된 휘도 계수를 사용하여 이미지의 자연스러움 손실을 측정합니다. 값이 낮을수록 선명한 영상임을 의미합니다.
  • Laplacian Score: 2 미분 연산자를 통해 이미지 외곽을 검출하고 블러(Blur) 세기를 측정합니다. 값이 높을수록 선명도가 높습니다.
  • PSNR (Peak Signal-To-Noise Ratio): 신호 잡음비를 측정하며, 수치가 높을수록 원본 대비 손실이 적음을 나타냅니다. 일반적으로 30dB 이하인 경우 품질 수준이 낮다고 평가합니다.

[ 1] 알고리즘을 사용한 품질 평가 집단 통계량 T검정 결과

알고리즘

그룹

N

Mean ± SD (95% CI)

p-value

BRISQUE

PQD

430

48.86 ± 18.16 (47.15~50.56)

<0.05

HQD

430

44.08 ± 20.27 (42.89~46.73)

Laplacian Score

PQD

430

222.69 ± 300.13 (194.50~250.88)

<0.05

HQD

430

280.44 ± 230.16 (258.62~302.25)

PSNR(dB)

전체

860

10.62 ± 1.76 (10.45~10.79)

<0.05

(출처: )

 

3. 데이터 구성 학습 환경

연구에는 가천대 길병원에서 수집된 2,490장의 내시경 이미지가 사용되었습니다. 전문의의 분류에 따라 고품질 데이터(HQD) 913장과 저품질 데이터(PQD) 1,577장으로 구분되었습니다.

[그림 1] 품질이 좋지 않은 데이터(PQD)의 예시

  • (a) 정상 어두운 이미지: 밝기 저하로 인해 해부학적 구조 식별이 어려움.
  • (b) 정상 반사 이미지: 강한 광원으로 인해 점막 상세 정보가 손실됨.
  • (c) 비정상 흐린 이미지: 초점 이탈로 병변 경계가 불분명함.
  • (d) 비정상 흐린 반사 이미지: 다중 영상 결함이 겹친 상태.

 

[그림 2] 품질이 좋은 데이터(HQD)의 예시

  • (a), (b) 정상 이미지: 깨끗한 점막 상태와 적절한 조도 유지.
  • (c) 이미지: 병변의 경계와 질감이 선명하게 노출됨.
  • (d) 출혈 이미지: 출혈 부위와 주변 조직의 대비가 뚜렷함.

4. RetinaNet 기반 병변 검출 성능 분석

병변 검출 모델로는 ResNet-FPN 백본으로 사용하는 RetinaNet 활용되었습니다. RetinaNet Focal Loss 통해 클래스 불균형 문제를 해결하며 작은 객체 검출에 탁월한 성능을 보입니다.

 


[그림 3] RetinaNet의 아키텍처; ResNet-FPN 통해 특징 맵을 생성하고, 계층에서 분류(Classification) 상자 회귀(Box Regression) 독립적으로 수행하여 정밀한 병변 위치를 추적합니다.

분석 결과, 고품질 데이터(HQD) 저품질 데이터(PQD)보다 월등히 높은 검출 성능을 보였습니다. HQD F1-Score 77.42±3.36% 반면, PQD 66.82±9.07% 그쳐 통계적으로 유의미한 차이를 보였습니다.

[ 2] 품질에 따른 RetinaNet 성능 평가 비교

데이터 그룹

Precision(%)

Recall(%)

F1-score(%)

FPPI

p-value

PQD

92.48 ± 4.98

53.80 ± 11.77

66.82 ± 9.07

0.02 ± 0.02

< 0.05

HQD

85.08 ± 9.57

72.14 ± 5.48

77.42 ± 3.36

0.07 ± 0.06

(출처: )

 

5. 시각적 검출 결과 FROC 분석

 

[그림 4 (HQD)]: 초록색(참값)과 빨간색(예측값) ROI가 거의 일치하여 정확한 병변 위치를 검출함.

 

[그림5 (PQD)]: 영상 결함으로 인해 모델이 실제 병변(초록색)을 인식하지 못하거나 오검출하는 사례 발생.

 

[그림 6] 품질에 따른 FROC Curve; (a) 저품질 데이터 대비 (b) 고품질 데이터의 곡선이 상단에 위치함은 Recall(민감도) 값이 높음을 의미하며, 이는 데이터 품질이 모델의 신뢰도와 직결됨을 시사합니다.

6. 결론 향후 전망

연구는 IQA 알고리즘을 통해 내시경 이미지의 품질을 정량화하고, 이것이 실제 딥러닝 병변 검출 성능에 미치는 영향을 입증한 중요한 시도입니다. 특히 PSNR 값이 10.62dB 수준으로 낮게 나타난 저품질 데이터는 병변 검출 성능을 심각하게 저하시켰습니다. 향후 의료 AI 시스템의 성능 극대화를 위해서는 학습 단계에서부터 BRISQUE Laplacian Score 같은 객관적 지표를 활용한 데이터 필터링 기준 정립이 필수적입니다.


📚 참고문헌

  1. Ferlay J, et al. Global cancer observatory: cancer today. Lyon, France: IARC. 2018;3(20):1-2.
  2. Kim DH, Cho HC. Deep Learning based Computer-aided Diagnosis System for Gastric Lesion using Endoscope. T.KIEE. 2018;67(7):928-933.
  3. Mittal A, Moorthy AK, Bovik AC. No-reference Image Quality Assessment in the Spatial Domain. IEEE Trans. Image Process. 2012;21(12):4695-4708.
  4. He X, Cai D, Niyogi P. Laplacian score for feature selection. NIPS. 2006;18:507-514.
  5. Lin TY, et al. Focal loss for dense object detection. Proc. IEEE ICCV. 2017;2980-2988.
  6. Kang KS, Lee JH. PSNR appraisal of MRI image. J. Korean Soc. Radiol. 2009;3(4):13-21.
  7. Lee YH, Kim YJ, Kim KG. A Performance Comparison Study of Lesion Detection Model according to Gastroscopy Image Quality. JBER. 2023;44:118-124.

댓글

이 블로그의 인기 게시물

수면 건강 혁신: 기능성 직물 전도성 전극을 활용한 심전도 측정 기술의 최신 연구와 발전 방향

최첨단 진단 기술: 악성 포도막 흑색종 전이의 F-18 FDG PET/CT 조기 발견과 생존율 향상 전략

[유방암 영상의학] DCIS 업스테이징 예측을 위한 맘모그래피 기반 Radiomics: 최신 연구로 본 임상적 적용 가능성