같은 의사들도 인정한 Chat GPT…"의사 답변보다 낫다"

발행날짜: 2023-05-03 05:30:00
  • 총 195개 주요 질문 대상 의사 대 Chat GPT 답변 비교 평가
    5점 평가 대부분 Chat GPT 우세…"품질과 공감도 등 우세"

환자들이 의사에게 묻는 대부분의 질문에 대해 의사들의 답변보다 대화형 인공지능인 Chat GPT가 오히려 낫다는 평가가 나왔다. 실제 의사들의 평가라는 점에서 의미가 있는 부분.

이에 따라 향후 원격의료 등에서 단순한 의학적 질문 등에 Chat GPT를 충분히 활용할 수 있다는 것이 전문가들의 결론이다.

Chat GPT와 의사의 답변을 실제 의사들이 직접 평가한 연구 결과가 나왔다.

현지시각으로 2일 미국의사협회지(JAMA)에는 환자의 질문에 대한 의사의 직접 답변과 Chat GPT의 답변을 비교 평가한 연구 결과가 게재됐다(10.1001/jamainternmed.2023.1838).

현재 대화형 인공지능인 Chat GPT의 우수한 성능이 공개되면서 각 학계에서는 이에 대한 실제적 기능에 대한 평가가 활발히 이뤄지고 있다.

특히 Chat GPT가 미국 의사시험은 물론 변호사시험 등을 무난하게 통과하면서 과연 실제 현장에서 이를 활용할 수 있을지에 대한 검증이 이뤄지고 있는 상황.

캘리포니아 의과대학 존(John W. Ayers) 교수가 이끄는 연구진이 실제 Chat GPT를 활용한 환자 대응의 가능성을 점검하고 나선 것도 이러한 이유 때문이다.

실제로 Chat GPT가 의사의 로딩을 줄이고 환자의 건강관리 등에 활용될 수 있는지를 파악하기 위해서다.

이에 따라 연구진은 환자가 의사에게 자주 묻는 총 195가지의 질문 목록을 만들고 이에 대한 실제 의사의 답변과 Chat GPT의 답변을 비교 분석했다. 어떤 것이 의사의 답변인지, Chat GPT의 답변인지 모르는 블라인드 테스트다.

의사의 답변과 Chat GPT의 답변에 대해 소아과와 내과, 종양내과, 감염내과, 예방의학과, 노인내과 전문의들이 직접 적합도와 정확성 등을 답변만 보고 5점 척도(매우 나쁨, 나쁨, 수용 가능, 좋음, 매우 좋음)로 평가한 것.

그 결과 일단 의사의 답변보다 Chat GPT의 답변이 훨씬 더 자세했다. 답변에 대한 평균 길이를 비교하자 의사는 52개의 단어에 그친 반면 Chat GPT는 무려 211개의 단어를 활용해 자세히 답변한 것.

그렇다면 이에 대한 정확도와 적절성 등 답변의 품질은 어떠한 평가를 받았을까.

이 또한 Chat GPT가 더 우수한 평가를 받았다. 전문의 패널이 의사의 답변과 Chat GPT의 답변의 답변 정확도와 품질을 5점 척도로 평가한 결과 의사의 응답은 평균 3.26점에 그친 반면 Chat GPT는 평균 4.13점으로 유의하게 앞선 것.

특히 수용 가능하지 않은 정도의 잘못된 정보나 품질(3점 미만)의 답변으로 평가받는 비율도 의사는 27.2%에 달했지만 Chat GPT는 2.6%로 월등하게 적었다.

더욱이 특별히 더할 것이 없이 매우 좋다(4점 이상)는 평가를 받은 답변의 비율 또한 의사는 22.1%에 불과한 반면, Chat GPT는 무려 789.5%로 압도적으로 높았다.

이로 인해 답변에 공감하고 수용할 수 있다는 평가도 오히려 의사보다 Chat GPT의 손을 들어준 전문의들이 많았다.

공감도 또한 5점(매우 공감하지 않음, 공감하지 않음, 공감함, 약간 공감함, 매우 공감함) 척도로 평가한 결과 의사의 응답은 평균 2.15점을 기록한 반면 Chat GPT는 3.65점으로 의사의 답변을 앞섰다.

아울러 공감하기 힘들다(3점 미만)의 답변의 비중도 의사는 80.5%에 달한 반면, Chat GPT는 14.9%로 유의미하게 적었다.

실제 관련 분야 전문의들조차 의사가 직접 답변한 내용보다 Chat GPT의 답변이 더 정확하고 품질이 좋으며 공감할 수 있다는 결론을 내린 셈이다.

존 교수는 "대부분의 질문에 있어 관련 분야 전문의들은 실제 의사의 답변보다 Chat GPT의 답변이 더 정확하고 공감대가 가며 품질이 좋다는 답변을 내놨다"며 "Chat GPT가 가진 한계론에도 불구하고 이를 활용할 수 있는 충분한 근거가 있다는 것을 시사한다"고 설명했다.

그는 이어 "물론 환자에 대한 진단과 약물의 조절 등의 중요한 부분에 대해서는 반드시 의사의 최종적 판단이 우선시 돼야 한다"며 "하지만 Chat GPT가 내놓은 답변을 의사가 검수하는 등의 방법으로 의사의 로딩을 크게 줄일 수 있을 것"이라고 밝혔다.

관련기사

의료기기·AI 기사

댓글

댓글운영규칙
댓글을 입력해 주세요.
더보기
약관을 동의해주세요.
닫기
댓글운영규칙
댓글은 로그인 후 댓글을 남기실 수 있으며 전체 아이디가 노출되지 않습니다.
ex) medi****** 아이디 앞 네자리 표기 이외 * 처리
댓글 삭제기준 다음의 경우 사전 통보없이 삭제하고 아이디 이용정지 또는 영구 가입이 제한될 수 있습니다.
1. 저작권・인격권 등 타인의 권리를 침해하는 경우
2. 상용프로그램의 등록과 게재, 배포를 안내하는 게시물
3. 타인 또는 제3자의 저작권 및 기타 권리를 침해한 내용을 담은 게시물
4. 욕설 및 비방, 음란성 댓글