급속도로 발전하고 있는 의료 인공지능(AI)이 과연 이제는 전문의 수준까지 올라섰을까?
이에 대한 답을 유추할 수 있는 연구 결과가 나와 주목된다. 실제 의료 인공지능과 영상의학과 전문의에게 전문의 시험에 치게 한 뒤 결과를 비교한 것. 결과는 참담했다.
현지시각으로 25일 영국의학저널(BMJ)에는 의료 인공지능과 영상의학과 전문의간에 정확도 등을 비교 분석한 이색적인 연구 결과가 게재됐다(10.1136/bmj-2022-072826).
현재 의료 인공지능은 나날히 정확도를 높이며 일각에서는 사실상 임상 의사를 대체할 수도 있다는 평가를 내놓고 있다.
특히 영상의학 분야에서 딥러닝을 통한 진단 보조 인공지능이 활성화되고 있는 것도 사실. 가장 학습에 유리한 구조를 가지고 있기 때문이다.
영국 그레이트 오먼트 스트리트 아동병원(Great Ormond Street Hospital for Children) 수잔(Susan Cheng Shelmerdine) 박사가 이끄는 연구진이 이에 대한 검증에 나선 것도 이러한 배경 때문이다.
실제로 의료 인공지능이 영상의학과 전문의 수준에 이르렀는지를 확인하기 위해서다.
수잔 박사는 "지난 2016년 튜링상 수상자 제프리 힌튼(Geoffrey Hinton) 박사가 5년안에 딥러닝이 영상의학과 전문의를 앞선다고 선언했다"며 "이후 5년이 지난 만큼 실제로 얼마나 인공지능이 발전했는지를 확인하기 위해 이번 연구를 진행했다"고 설명했다.
이에 대한 방법으로 연구진은 영국에서 영상의학과 전문의로 활동하기 위해 거쳐야하는 필수 코스인 FRCR(Fellowship of the Royal College of Radiologists)를 활용했다. 국내로 얘기하면 일종의 영상의학과 전문의 자격 시험이다.
영상의학과 전문의로서 활동하기 위한 가장 첫 단계인 만큼 과연 인공지능이 이를 통과할 수 있는지 테스트를 진행한 셈이다.
이를 위해 연구진은 인공지능과 함께 지난해 FRCR 시험에 합격한 26명의 영상의학과 전문의를 같은 시험대에 올려 비교 분석했다.
FRCR 시험을 구성하는 세가지 모듈 중 하나를 기반으로 10개의 모의 신속 테스트를 만들어 양쪽에 모두 풀게 한 것.
이 모의 시험은 FRCR 시험의 난이도를 그대로 적용해 30개의 이미지로 구성했다. 합격을 위해서는 35분 이내에 30개 이미지 중 최소 27개를 올바르게 해석해야 하는 구조다.
그 결과 의료 인공지능은 해석이 불가능다하고 한, 즉 딥러닝이 되어 있지 않은 이미지의 경우 모두 예외를 줬음에도 평균 79.5%의 정확도 밖에 보이지 못했다.
결과적으로 10개의 모의 FRCR 시험에서도 2개 밖에 통과하지 못하는 저조한 성적표를 받았다.
지난해 FRCR를 통과한 새내기 영상의학과 전문의들이 평균 84.8%의 정확도를 기록하고 10개의 시험 중 4개를 통과한 것과 비교되는 수치다.
또한 의료 인공지능은 민감도(질환이 있는 환자에게 질환이 있다고 식별하는 비율)도 83.6%에 그쳤고 특이도(질환이 없는 환자에게 질환이 없다고 식별하는 비율)도 75.2%에 머물렀다.
반면 새내기 영상의학과 전문의들은 민감도 84.1%, 특이도 87.3%로 모두 의료 인공지능을 앞섰다.
세부 분석에서도 이같은 차이는 더욱 크게 나타났다. 90% 이상의 영상의학과 전문의들이 올바르게 해석한 148개의 이미지에 대해 의료 인공지능은 9%나 틀렸기 때문이다.
아울러 영상의학과 전문의 절반이 잘못 해석한 20개의 이미지 중에서 의료 인공지능은 10개를 또 잘못 해석했다.
흥미로운 점은 오히려 영상의학과 전문의들이 의료 인공지능을 상당히 과대평가하고 있었다는 점이다. 인공지능이 몇개의 시험을 통과할 것 같냐고 묻자 적어도 10개 시험 중 3개는 자신보다 더 점수가 좋을 것이라고 예상했기 때문이다.
수잔 박사는 "만약 새내기 영상의학과 전문의와 같은 기준을 적용하면 의료 인공지능은 단 하나의 시험도 통과할 수 없었을 것"이라며 "그나마 훈련되지 않은 이미지를 모두 해석 불가로 처리해 사실상 맞춘 것으로 여겼기에 이러한 결과가 나왔다"고 설명했다.
그는 이어 "이번 연구는 의료 인공지능이 영상의학과 전문의가 통과하는 시험 중 단 하나도 통과할 수 없으며 이는 아직 의사를 대체할 수 있는 준비가 되지 않았다는 것을 암시한다"며 "하지만 진단의 효율성과 정확도를 더욱 높일 수 있는 잠재력이 있다는 것은 분명한 만큼 이에 대한 더욱 고도화된 딥러닝이 필요하다"고 밝혔다.
ex) medi****** 아이디 앞 네자리 표기 이외 * 처리
댓글 삭제기준 다음의 경우 사전 통보없이 삭제하고 아이디 이용정지 또는 영구 가입이 제한될 수 있습니다.
1. 저작권・인격권 등 타인의 권리를 침해하는 경우
2. 상용프로그램의 등록과 게재, 배포를 안내하는 게시물
3. 타인 또는 제3자의 저작권 및 기타 권리를 침해한 내용을 담은 게시물
4. 욕설 및 비방, 음란성 댓글