북미영상의학회지에 대규모 메타분석 연구 결과 게재
통합 민감도 오히려 인공지능이 앞서…특이도도 유사
골절 진단 보조를 위한 의료 인공지능(AI)이 이미 전문의 수준까지 발전한 만큼 충분히 임상에서 활용 가능하다는 연구 결과가 나왔다.
대규모 메타분석 연구를 통해 유효성을 검증한 것으로 정확도 면에서 이미 차이가 없는 만큼 응급 상황 등에 활용 방안을 찾아야 한다는 것이 연구진의 설명이다.
현지시각으로 29일 북미영상의학회지(Radiology)에는 골절 진단 보조 AI의 유효성에 대한 메타 분석 연구 결과가 게재됐다(doi.org/10.1148/radiol.211785).
현재 전 세계적으로 의료 AI에 대한 관심이 높아지면서 다양한 질환에 대한 진단 보조 소프트웨어들이 나오고 있는 것이 현실이다.
하지만 이에 대한 정확도와 임상 적용 가능성을 놓고서는 여전히 의학계에서도 의견이 분분한 것이 사실이다.
이에 따라 영국 옥스포드 보트나 연구센터(Botnar Research Centre) 레이첼(Rachel Kuo) 박사가 주도하는 연구진은 기술의 정확도를 검증하기 위해 체계적 메타분석을 진행했다.
X레이를 활용한 AI 성능 연구 37건과 CT를 사용한 5건의 연구를 검토해 전문의와 AI간 진단의 정확도를 비교 분석한 것.
그 결과 내부 검증을 위한 테스트 세트의 경우 AI는 통합 민감도 92%를 기록했다. 전문의가 기록한 91%보다 오히려 높은 수치다.
또한 통합 특이도는 AI가 91%, 전문의가 92%로 차이를 보이지 않았다. 마찬가지로 다른 요인들을 모두 제외해도 통계적으로 유의한 차이가 없었다.
외부 검증을 위한 테스트 세트도 마찬가지 결과가 나왔다. 내부 검증 데이터 세트와 마찬가지로 AI와 전문의간 차이가 없었던 것.
외부 검증 테스트 세트를 통해 통합 민감도를 분석하자 AI는 91%, 전문의는 94%를 기록했다.
또한 통합 특이도도 AI가 91%, 전문의가 94%로 집계돼 이 또한 AI와 전문의간 통계적으로는 유의한 차이를 보이지 않았다.
제1저자인 레이첼 박사는 "이미 골절 진단 분야에서는 AI가 전문의와 견줄 만큼 높은 정확도를 보이고 있다는 것을 체계적 분석을 통해 입증했다"며 "특히 외부 데이터 세트를 통해 검증됐다는 점에서 충분히 임상에서 활용이 가능하다는 것을 의미한다"고 설명했다.
이에 따라 연구진은 우선 인턴이나 레지던트 등 주니어 의사들의 진단을 돕거나 응급실 등에서 신속하게 진단을 해야할 경우 이를 충분히 활용할 수 있다고 결론을 냈다.
또한 전문이라 하더라도 오진의 가능성이 있는 만큼 이를 한번 더 확인할 수 있는 도구로도 충분히 활용이 가능하다고 평가했다.
레이첼 박사는 "환자가 다발성 골절을 입은 경우 등 신속하게 진단을 내려야 할 시점에 이러한 AI는 충분히 제 기능을 발휘할 것"이라며 "또한 주니어 의사들의 경험 부족을 메울 수 있는 도구로도 활용이 가능하다"고 말했다.
그는 이어 "특히 AI는 오류나 편견이 없다는 점에서 전문의가 내린 진단에 확신을 주거나 한번 더 검증할 수 있는 도구로도 충분히 활용이 가능할 것으로 평가한다"고 밝혔다.