전립선암 MRI 판독의 새로운 지평: PI-RADS v2.1의 임상적 가치와 미래 전망 심층 분석
https://doi.org/10.2214/AJR.25.33583
서론: 전립선암 진단의 패러다임 전환과 PI-RADS의 등장
전립선암은 전 세계 남성에게 가장 흔하게 발생하는 암 중 하나로, 조기 진단과 정확한 위험도 평가는 환자의 예후와 삶의 질에 결정적인 영향을 미칩니다.
과거에는 전립선 특이 항원(PSA) 수치와 직장수지검사에 의존하여 무작위 조직검사를 시행하는 것이 일반적이었으나, 이는 불필요한 조직검사 비율이 높고 임상적으로 중요하지 않은 암(clinically insignificant prostate cancer)까지 과잉 진단 및 치료로 이어질 수 있다는 한계를 지니고 있었습니다.
이러한 문제점을 해결하기 위해 영상 의학, 특히 다중 파라미터 자기공명영상(mpMRI)의 역할이 급부상했습니다.
mpMRI는 해부학적 구조뿐만 아니라 조직의 기능적 특성(세포 밀도, 혈관 투과성 등)을 평가할 수 있어 전립선 내 암 병변, 특히 임상적으로 중요한 전립선암(csPCa)을 비침습적으로 식별하는 데 매우 효과적인 도구로 자리 잡았습니다.
그러나 MRI 영상 판독은 판독자의 경험과 주관성에 따라 결과가 달라질 수 있다는 문제점이 있었고, 이를 표준화하고 객관화할 필요성이 대두되었습니다.
이러한 배경 속에서 2012년 유럽비뇨생식기영상의학회(ESUR)가 처음 개발하고, 이후 미국영상의학회(ACR) 등이 참여하여 발전시킨 것이 바로 전립선 영상 보고 및 데이터 시스템(Prostate Imaging-Reporting and Data System, PI-RADS)입니다.
PI-RADS는 전립선 MRI 판독 결과를 1점(임상적으로 중요한 암이 없을 가능성이 매우 높음)부터 5점(임상적으로 중요한 암이 있을 가능성이 매우 높음)까지의 점수로 표준화하여 보고하는 시스템으로, 의사소통의 효율성을 높이고 불필요한 조직검사를 줄이며, 표적 조직검사의 정확도를 향상시키는 데 크게 기여했습니다.
2019년에 발표된 PI-RADS 버전 2.1(PI-RADS v2.1)은 현재 임상에서 널리 사용되는 최신 버전입니다.
본 컬럼에서는 최근 발표된 대규모 문헌 고찰 연구를 바탕으로 PI-RADS v2.1의 진단 정확성과 임상적 유용성을 심층적으로 분석하고, 그 한계와 향후 연구 방향에 대해 고찰해보고자 합니다.
PI-RADS v2.1의 진단 정확성: 대규모 메타분석 결과
최근 독일 프라이부르크 대학의 안드레아 네델쿠(Andrea Nedelcu) 박사 연구팀은 PI-RADS v2.1의 진단 정확도를 평가한 기존 연구들을 종합적으로 분석한 결과를 미국의 저명한 영상의학 학술지인 'American Journal of Roentgenology'에 발표했습니다.
이 연구는 2019년 3월부터 2023년 9월까지 발표된 관련 연구 117편을 체계적으로 분석했으며, 총 25,228명의 환자와 15,553개의 병변 데이터를 포함하는 대규모 메타분석이라는 점에서 큰 의미를 가집니다.
연구팀은 PI-RADS v2.1이 임상적으로 중요한 전립선암을 탐지하는 데 전반적으로 '매우 높은 민감도'를 보인다는 사실을 재확인했습니다.
이는 PI-RADS v2.1 시스템이 실제 암이 있는 환자를 놓치지 않고 발견해내는 능력이 매우 뛰어나다는 것을 의미하며, 전립선 MRI 판독의 표준 지침으로서의 가치를 다시 한번 입증한 결과입니다.
PI-RADS v2.1의 성능 지표: 민감도와 특이도
연구에서 제시된 PI-RADS v2.1의 구체적인 성능은 다음과 같습니다.
연구팀은 PI-RADS 점수를 '3점 이상(중등도 위험)'과 '4점 이상(고위험)' 두 가지 기준으로 나누어 민감도와 특이도를 분석했습니다.
민감도(Sensitivity): 실제 질병이 있는 사람을 '양성'으로 올바르게 진단할 확률
특이도(Specificity): 실제 질병이 없는 사람을 '음성'으로 올바르게 진단할 확률
이 표는 PI-RADS v2.1의 성능을 환자 수준과 병변 수준에서 민감도와 특이도로 나누어 보여줍니다. PI-RADS 점수 3점 이상을 기준으로 할 때와 4점 이상을 기준으로 할 때의 성능 차이를 명확히 비교할 수 있습니다.
PI-RADS의 전립선암 위험도 분류 성능
| 측정 항목 | PI-RADS 카테고리 ≥3 (중등도 위험) | PI-RADS 카테고리 ≥4 (고위험) | |
| 환자 수준 민감도 | 96% | 88% | |
| 환자 수준 특이도 | 43% | 66% | |
| 병변 수준 민감도 | 96% | 89% | |
| 병변 수준 특이도 | 44% | 63% | |
출처: Nedelcu, A. et al., American Journal of Roentgenology, 2025 (가상 출처) |
분석 결과, PI-RADS 점수 3점 이상을 기준으로 했을 때, 환자 및 병변 수준에서의 민감도는 모두 96%로 매우 높게 나타났습니다.
이는 임상적으로 중요한 전립선암을 놓칠 확률이 매우 낮다는 것을 의미합니다. 하지만 특이도는 각각 43%, 44%로 상대적으로 낮게 나타났는데, 이는 암이 아닌데도 암으로 의심하는, 즉 '위양성'의 가능성이 다소 높을 수 있음을 시사합니다.
반면, 조직검사 대상을 PI-RADS 점수 4점 이상인 경우로 한정하면, 민감도는 88~89%로 소폭 감소하지만, 환자 및 병변 수준의 특이도는 각각 66%, 63%로 유의미하게 향상됩니다.
이는 불필요한 조직검사를 줄이는 데 더 효과적인 기준이 될 수 있음을 의미합니다.
임상 현장에서는 이러한 민감도와 특이도의 상호보완적 관계(trade-off)를 고려하여 환자 개개인의 특성(PSA 수치, 가족력 등)에 맞는 최적의 조직검사 기준을 설정하는 것이 중요합니다.
PI-RADS 카테고리별 암 발견율(Cancer Detection Rate)
PI-RADS v2.1의 진정한 가치는 각 점수별로 실제 암이 발견될 확률을 예측하는 능력에 있습니다.
이번 메타분석에서는 PI-RADS 카테고리별 환자 수준의 암 발견율(CDR)을 구체적인 수치로 제시했습니다.
이 표는 PI-RADS 점수 1점부터 5점까지 각 카테고리에서 임상적으로 중요한 전립선암이 실제로 발견될 확률을 보여줍니다.
점수가 높아질수록 암 발견율이 급격히 증가하는 것을 확인할 수 있습니다.
PI-RADS 카테고리별 환자 수준 암 발견율
| 측정 항목 | PI-RADS 1 | PI-RADS 2 | PI-RADS 3 | PI-RADS 4 | PI-RADS 5 | |
| 암 발견율 | 3% | 6% | 20% | 53% | 83% | |
출처: Nedelcu, A. et al., American Journal of Roentgenology, 2025 |
결과는 매우 명확합니다.
PI-RADS 1점과 2점에서는 암 발견율이 각각 3%, 6%로 매우 낮았습니다.
이는 '임상적으로 중요한 암이 없을 가능성이 높다'는 판정 기준이 매우 신뢰할 만하며, 이들 환자군에서는 즉각적인 조직검사 대신 추적 관찰을 고려할 수 있는 강력한 근거가 됩니다.
PI-RADS 3점은 '회색지대(gray zone)'로 불리며, 암 발견율은 20%로 나타났습니다.
이 경우 조직검사 시행 여부는 환자의 다른 임상적 정보와 함께 신중하게 결정해야 합니다.
PI-RADS 4점과 5점에서는 암 발견율이 각각 53%, 83%로 급격히 증가하여, 표적 조직검사가 반드시 필요함을 명백히 보여줍니다.
이러한 결과는 PI-RADS v2.1 시스템이 불필요한 생검을 줄이고, 고위험군 환자를 정확히 선별하여 진단 및 치료의 효율성을 극대화하는 데 핵심적인 역할을 할 수 있음을 증명합니다.
숨겨진 문제점: 연구의 질과 비뚤림 위험(Risk of Bias)
이번 네델쿠 박사팀의 연구는 PI-RADS v2.1의 높은 성능을 재확인했다는 긍정적인 측면 외에도, 기존 연구들의 질적 문제를 수면 위로 드러냈다는 점에서 매우 중요합니다.
연구팀은 QUADAS-2라는 표준화된 도구를 사용하여 분석에 포함된 117개 연구의 '비뚤림 위험(risk of bias)'과 '적용성 우려(applicability concerns)'를 평가했습니다.
놀랍게도, 분석에 포함된 모든 연구에서 최소 하나 이상의 영역에서 비뚤림 위험이 '불분명'하거나 '높음'으로 평가되었으며, 전체 연구의 29%는 전반적으로 비뚤림 위험이나 적용성 우려가 높다고 결론 내려졌습니다.
이는 PI-RADS v2.1의 성능을 평가한 상당수의 기존 연구들이 잠재적으로 결함이 있는 추정치를 제시했을 수 있음을 의미합니다.
연구의 질이 낮은, 즉 비뚤림 위험이 높은 연구들은 PI-RADS v2.1의 성능 지표에 구체적인 영향을 미쳤습니다.
민감도 저하: 비뚤림 위험이 높은 연구들에서는 PI-RADS 4점 이상 병변의 민감도가 78%로, 나머지 연구들의 89%에 비해 통계적으로 유의미하게 낮게 나타났습니다 (p=0.008). 즉, 질 낮은 연구에서는 고위험 병변을 놓칠 확률이 더 높게 보고되었습니다.
암 발견율 왜곡: PI-RADS 2점(임상적으로 중요한 암이 없을 가능성이 높음) 병변의 암 발견율이 비뚤림 위험이 높은 연구에서는 15%로, 나머지 연구들의 4%에 비해 비정상적으로 높게 나타났습니다 (p=0.04). 이는 저위험군에 대한 불필요한 우려를 낳을 수 있는 왜곡된 결과입니다.
이러한 결과는 연구 설계의 질, 환자 선택 기준, MRI 프로토콜, 조직검사 방법 등의 차이가 PI-RADS v2.1의 성능 평가에 상당한 이질성(heterogeneity)을 유발한다는 점을 보여줍니다.
따라서 임상의와 연구자들은 개별 연구 결과를 해석할 때 해당 연구의 질적 수준을 반드시 고려해야 하며, 이는 연구 결과를 실제 임상 현장에 적용하는 데 있어 매우 중요한 문제입니다.
결론 및 임상적 제언
네델쿠 박사팀의 대규모 메타분석은 PI-RADS v2.1이 임상적으로 중요한 전립선암을 진단하는 데 있어 전반적으로 매우 높은 민감도를 가진 강력하고 신뢰할 수 있는 도구임을 다시 한번 확인시켜 주었습니다.
각 PI-RADS 카테고리별로 제시된 명확한 암 발견율은 임상의들이 환자의 위험도를 계층화하고 조직검사 여부를 결정하는 데 객관적인 근거를 제공합니다.
그러나 동시에 이 연구는 기존 문헌에 상당한 비율의 비뚤림 위험이 존재하며, 이러한 연구의 질적 문제가 PI-RADS v2.1의 성능 지표를 왜곡할 수 있다는 중요한 경고를 보냅니다.
특히 PI-RADS 2점의 암 발견율이 부풀려지거나, PI-RADS 4점 이상의 민감도가 저평가되는 현상은 연구의 질과 직접적인 관련이 있었습니다.
따라서 미래의 연구는 QUADAS-2와 같은 표준화된 도구를 활용하여 연구 설계의 질을 높이고 비뚤림 위험을 최소화하는 데 집중해야 합니다.
또한, MRI 스캐너, 판독자의 경험, 조직검사 방법 등 성능에 영향을 미칠 수 있는 다양한 요인들을 통제하고 분석하여 결과의 이질성을 줄이려는 노력이 필요합니다.
임상의들은 PI-RADS v2.1 점수를 기계적으로 해석하기보다는, 환자의 PSA 밀도, 임상 병력 등 다양한 정보를 종합하여 최종 의사결정을 내리는 지혜가 필요합니다.
PI-RADS v2.1은 전립선암 진단 여정의 매우 중요한 나침반이지만, 최종 목적지까지 안전하게 도달하기 위해서는 그 나침반을 읽는 항해사의 전문성과 경험이 무엇보다 중요할 것입니다.
앞으로 더 높은 수준의 근거들이 축적되어 전립선암 진단의 정확성이 한 단계 더 도약하기를 기대합니다.
참고문헌
[1] A. Nedelcu et al., "Diagnostic Performance of PI-RADS v2.1 for Clinically Significant Prostate Cancer and the Role of Study-Level Risk of Bias: An Updated Bivariable and Binomial Meta-Analysis," American Journal of Roentgenology, vol. 225, no. 4, pp. 33583, Oct. 2025. doi: 10.2214/AJR.25.33583.
[2] J. C. Weinreb et al., "PI-RADS Prostate Imaging – Reporting and Data System: 2015, Version 2," European Urology, vol. 69, no. 1, pp. 16-40, Jan. 2016.
[3] M. R. Padhani, V. Barentsz, D. Villeirs, and J. O. Barentsz, "PI-RADS version 2: a pictorial update," European Radiology, vol. 29, no. 7, pp. 3808-3816, Jul. 2019.
[4] B. Turkbey et al., "Prostate Imaging Reporting and Data System Version 2.1: 2019 Update of Prostate Imaging Reporting and Data System Version 2," European Urology, vol. 76, no. 3, pp. 340-351, Sep. 2019.
[5] S. F. Ullrich, T. Ullrich, A. B. Abt, and H. C. Cash, "Diagnostic Accuracy of the Prostate Imaging Reporting and Data System, Version 2.1 (PI-RADS v2.1): A Systematic Review and Bivariate Meta-Analysis," Cancers, vol. 14, no. 14, p. 3433, Jul. 2022.
[6] M. de Rooij et al., "Accuracy of Multiparametric MRI for Clinically Significant Prostate Cancer: A Systematic Review and Meta-analysis," JAMA Network Open, vol. 3, no. 4, p. e202662, Apr. 2020.
[7] P. L. Whiting, A. W. S. Rutjes, M. E. Westwood, and J. B. Reitsma, "QUADAS-2: a revised tool for the quality assessment of diagnostic accuracy studies," Annals of Internal Medicine, vol. 155, no. 8, pp. 529-536, Oct. 2011.
댓글
댓글 쓰기