344명 환자 데이터 기반 EHR 인바스켓 답변 비교 결과
정확성과 완전성 차이 없어…문장력은 AI가 훨씬 높아
거대언어모델(LLM)로 불리는 인공지능이 급속도로 고도화되면서 일부 영역에서는 이미 의사를 능가한다는 연구 결과가 나왔다.
전자건강기록(EHR)에 대응하는 능력에 있어 정확성과 완전성은 비등한 반면 문장력 등에서 훨씬 좋은 결과를 보여줬기 때문이다.
현지시각으로 17일 미국의사협회지(JAMA)에는 EHR 시스템의 커뮤니케이션 도구인 인바스켓(In-Basket) 대응에 있어 의사와 LLM을 비교한 연구가 게재됐다(10.1001/jamanetworkopen.2024.22399).
코로나 대유행 이후 원격 진료가 증가하고 이에 맞춰 EHR을 통한 의사와 환자간 커뮤니케이션이 급격하게 늘어나면서 의사들의 업무는 지속적으로 증가하고 있는 상태다.
EHR시스템인 EPIC을 활용하는 뉴욕대 부속병원에 따르면 코로나 대유행 이후 인바스켓 메시지가 연간 30%씩 늘어나고 있는 상황.
이로 인해 뉴욕대 부속병원 의사들은 현재 매일 150개 이상의 인바스켓 메시지에 답변을 입력하고 있는 것으로 집계됐다.
뉴욕대 의과대학 데빈 만(Devin Mann)교수가 이끄는 연구진이 인바스켓 메시지에 대응하기 위해 LLM을 도입한 것도 이러한 이유 때문이다.
대다수 의사들이 퇴근 후 최소 3~4시간 이상 인바스켓 메시지 답변을 다는 추가 업무를 수행하면서 48%가 번아웃을 겪고 있다고 답했기 때문이다.
이에 따라 연구진은 생성형 인공지능(genAI)를 통해 EHR의 인바스켓에 대응할 수 있는 챗봇 솔루션을 만들고 연구를 통해 이를 검증했다.
344명의 환자가 보낸 인바스켓 메시지에 대해 의사가 직접 답변을 단 것과 인공지능이 답변을 단 것을 무작위로 섞은 뒤 전문의 16명에게 검증을 요구한 것이다.
즉, 교수 16명이 그 답변이 의사가 작성한 것인지, 인공지능이 작성한 것인지 모른 채 답변이 적정하고 정확한지를 평가한 셈이다.
그 결과 의사가 작성한 답변과 인공지능의 답변은 정확도 면에서 통계적 차이가 나타나지 않았다.
마찬가지로 그대로 답변을 보내도 된다고 합격점을 받은 비율도 의사와 인공지능이 전혀 차이가 나지 않았다.
하지만 이해도와 문장력 면에서는 분명한 차이를 보였다.
실제로 커뮤니케이션 효율성을 비교하자 인공지능은 실제 의사보다 더 높은 평가를 받았다(3.70대 3.38).
마찬가지로 더 공감되는 답변을 비교하자 인공지능은 37.2%, 의사의 답변은 16.5%로 두배 차이를 보였다.
데빈 만 교수는 "인공지능 챗봇이 EHR 인바스켓의 대응에 있어 오히려 의사보다 정보를 더 잘 전달하고 공감을 이끌어 내는 것으로 분석됐다"며 "번아웃 위기에 놓인 의사들에게 매우 희망적 소식이 될 수 있을 것"이라고 밝혔다.