
"의료 인공지능 데이터 양보다 결측값이 성능에 더 큰 영향"
[메디칼타임즈=이인복 기자]의료 인공지능의 성능에 의료진의 판단에 따른 결측값이 어떠한 영향을 주는지에 대한 연구가 나왔다.의료 인공지능의 성능이 데이터의 양보다 의료진의 임상 판단이 반영된 결측률에 더 영향을 받는다는 연구 결과가 나왔다.에이아이트릭스(AITRICS, 대표 김광준)는 의료 데이터 결측이 단순한 정보 부족이 아닌, 의료진의 임상 판단을 반영한 결과일 수 있다는 내용을 다룬 연구가 SCIE급 국제학술지 임상의학저널(Journal of Clinical Medicine)에 게재됐다고 2일 밝혔다.이번 연구는 예수병원에서 수집된 일반 내과·외과 병동에 입원한 성인 환자 총 2만 4359명의 임상 데이터를 후향적으로 분석해 '데이터를 수집한 임상적 맥락(Informative Presence)'이라는 개념을 실제 데이터로 입증한 결과다.즉, 데이터 결측 자체가 의료진의 판단 결과일 수 있다는 것을 의미한다.연구팀은 선행 연구를 바탕으로 환자의 중증도에 따라 수집되는 데이터와 결측률이 달라질 수 있다는 가설을 검증했다. 환자들을 '동반 질환 지수(Charlson Comorbidity Index, CCI)' 기준으로 고위험군(CCI > 3)과 중저위험군(CCI ≤ 3)으로 나눈 뒤 각 집단의 데이터의 결측률과 AI 성능을 비교한 것.연구 결과 상태가 위중한 고위험군은 더 많은 검사를 시행하기 때문에 결측률이 낮은 반면 중저위험군은 상대적으로 검사 빈도가 적어 결측률이 높았다. 그러나 고위험군과 중저위험군 모두에서 임상 악화 이벤트가 발생한 환자는 그렇지 않은 환자에 비해 전반적으로 결측률이 낮게 나타났다. 이를 통해 의료진이 환자의 중증도와 관계없이 임상 악화를 의심할 경우 보다 집중적으로 검사를 시행한다는 사실을 확인할 수 있었다.이처럼 환자 집단 간 검사 빈도와 결측률에는 차이가 있었지만 예측 정확도(AUROC)는 전체 환자에서 0.86, 고위험군은 0.86, 중저위험군은 0.85로 중증도에 따른 유의미한 성능 차이는 나타나지 않았다. 즉, 단순한 데이터 양보다 검사 시행 여부에 내포된 임상적 맥락을 반영하는 것이 알고리즘 성능에 더 중요한 영향을 미칠 수 있음을 시사한다.에이아이트릭스 김광준 대표는 "환자 상태에 따라 검사 빈도와 결측 패턴이 다르게 나타나는 만큼 AI 모델도 이러한 중증도별 진료 행태의 차이를 인식하고 해석할 수 있어야 한다"며 "단순히 수치나 양적인 정보에만 의존할 것이 아니라 임상적 판단까지 반영하는 AI 모델이 실제 현장에서 신뢰받고 효과적으로 적용될 수 있을 것"이라고 밝혔다.