란셋에 진단 보조 인공지능 시스템 대조 연구 결과 게재
다국가 연구진 검증 결과 위험 폴립 1.37배 추가 검출
대장내시경시 진단 보조 인공지능(AI)을 활용할 경우 전문의가 놓치는 폴립을 1.37배나 더 찾아낼 수 있다는 연구 결과가 나왔다.
특히 그동안 논란이 됐던 위양성률, 즉 폴립이 아닌 것을 잘못 검출하는 비율도 전혀 높아지지 않았다는 점에서 향후 활용도가 매우 높다는 것이 전문가들의 의견이다.
현지시각으로 22일 란셋 리디털헬스(LANCET Digital health)에는 대장내시경 진단 보조 인공지능의 유효성과 안전성에 대한 대규모 연구 결과가 게재됐다(10.1016/S2589-7500(23)00242-X).
현재 대장내시경시 머신러닝이나 딥러닝을 통해 전문의의 진단을 보조하는 인공지능은 다양한 모델이 개발돼 활용되고 있다.
하지만 임상시험이 아닌 실제 진료 환경에서 이 인공지능이 제대로 작동하는지에 대해서는 아직까지 근거가 부족한 것이 사실.
특히 일각에서는 이러한 인공지능이 너무 민감해 폴립이 아닌 것을 과도하게 알리는 거짓 알람을 포함해 위양성률이 높다는 지적도 나오고 있는 것도 사실이다.
데널란드 라드바우드 의과대학 마이클 하스(Michiel HJ Maas) 교수가 이끄는 다국가 연구진이 실제 진료 환경에서 무작위 대조 연구를 진행한 배경도 여기에 있다.
이 인공지능이 실제 진료 환경에서 정말로 안전하고 효과가 있는지를 정확히 파악하기 위해서다.
이에 따라 연구진은 미국과 유럽, 이스라엔의 10개 병원에서 총 916명의 환자를 모집하고 절반은 전문의가 인공지능 도움 없이 내시경을 진행하고 절반은 AI를 활용하는 방법으로 비교 분석을 진행했다.
그 결과 AI 의 도움을 받았을때 대장 내시경 검사 당 평균 폴립 검출수는 0.70개로 활용하지 않았을때 0.51개보다 유의미하게 높았다.
다른 요인을 모두 제외하고 대장내시경 인공지능의 유효성을 평가한 결과 1.372배 폴립 검출 확률이 높아지는 것으로 분석됐다.
논란이 되고 있는 위양성룰도 전혀 문제가 없었다. 두 그룹간 위양성률을 비교하자 아무런 차이가 나타나지 않았기 때문이다.
마이클 하스 교수는 "이번 연구는 실제 진료 환경에서도 인공지능이 아무런 시간이나 물리적 자원을 더 들이지 않고도 폴립 발견에 매우 큰 도움을 준다는 것을 보여준다"며 "논란이 된 위양성률도 전혀 나타나지 않았다"고 설명했다.
이어 그는 "메타분석 결과 숙련된 전문의라 하더라도 평균 26%의 폴립을 두고 나온다는 점에서 이같은 인공지능은 이러한 위험 감소에 큰 도움이 될 것"이라며 "이를 적극적으로 활용하기 위한 전략이 필요하다"고 밝혔다.