똑똑해지는 챗 지피티…한국어 퇴원 요약도 가능할까

발행날짜: 2024-04-23 05:30:00
  • 미국, 유럽 등 이어 국내에서도 소프트웨어 검증 시도
    Few-shot 프롬프트 적용시 임상 적용 가능 수준 작성

거대언어모델인 챗 지피티(Chat-GPT)는 영어가 아닌 한국어로도 환자에게 제공하는 퇴원 요약서를 제대로 작성할 수 있을까.

결과적으로 '그렇다'는 결론이 나왔다. 많은 데이터를 학습시키지 않고도 실제 임상 현장에서 쓸 수 있을 정도의 문서를 만들어냈기 때문이다.

챗 지피티가 한국어로된 퇴원 요약서도 능숙하게 작성할수 있다는 연구가 나왔다

오는 29일 대한의학회 국제학술지 Journal of korean medical science에는 챗 지피티를 활용한 퇴원 요약서 프로그램에 대한 검증 연구 결과가 게재될 예정이다.

현재 챗 지피티를 임상 현장에 활용하기 위한 연구는 전 세계적으로 이뤄지고 있는 상태다.

특히 세계적으로 의사의 번아웃이 심각한 문제로 떠오르면서 업무량을 줄이기 위한 대안으로 급부상하고 있는 상황.

미국과 유럽 등에서 의사의 가장 큰 로딩 중 하나인 의무기록과 퇴원 요약서 작성에 챗 지피티를 활용을 적극적으로 도입하고 있는 이유다.

실제로 지난달 국제학술지 액타 올쏘피디카(Acta Orthopaedica)에는 챗 지피티를 통한 퇴원요약서 작성의 유효성에 대한 연구 결과가 게재된 바 있다(10.2340/17453674.2024.40182).

전문의와 전공의 10명이 작성한 퇴원 요약서와 챗 지피티가 작성한 요약서를 무작위로 섞은 뒤 15명의 전문의가 정확도를 평가한 것.

결과는 놀라웠다. 15명의 전문가 평가에서 전문의가 작성한 퇴원 요약서와 챗 지피티가 작성한 요약서는 점수에 차이가 없었다. 전문가가 봐도 어느 것이 챗 지피티가 작성한 것인지 몰라볼 정도라는 의미다.

그러나 퇴원 요약서 작성에 걸리는 시간은 큰 차이를 보였다. 챗 지피티가 전문의들의 평균 작성 시간에 비해 10배나 빨리 문서를 작성했기 때문이다.

그렇다면 영어에 비해 아직까지 완성도가 크게 떨어진다는 평가를 받는 한국어 챗 지피티 버전은 어떨까.

연세대 의과대학 유승찬 교수가 이끄는 연구진은 이를 검증하기 위해 심근경색 환자 50명과 일반 외과 환자 50명의 퇴원 요약서 100개를 사용해 챗 지피티가 한국어 퇴원 요약서 작성이 가능한지를 검증했다.

또한 각 문서에 대해 세가지 프롬프트(Zero-shot, One-shot, Few-shot)을 사용해 각 요약서를 비교 분석했다. 평가 척도는 5점 만점의 리커트(Likert) 척도였다.

러닝머신의 학습법을 뜻하는 샷(shot)은 학습 데이터의 양을 뜻한다. 제로샷은 아예 라벨링이 없는 데이터로 학습한 것을 의미하며 원샷은 1개 데이터로 학습시킨 것을, 퓨샷은 2~5개 데이터로 학습한 것을 의미한다.

평가 결과 제로샷 프로프트의 경우 평균 점수가 3.73±0.44를 기록했다. 또한 원샷의 경우 4.11±0.36로 집계됐다. 이어 퓨샷 프롬프트는 4.19±0.36로 나왔다. 당연하게도 퓨샷 프롬프트가 가장 높은 평가 점수를 받은 셈이다.

전체 평가 중 가장 높은 평가를 받은 문서는 퓨샷에서 생성돼 4.9점으로 거의 만점을 받았다. 가장 낮은 평가는 제로샷에서 만들어진 것으로 2.7점을 기록했다. 신뢰할 수 없다는 의미가 된다.

결과적으로 4점 이상, 즉 신뢰할만한 퇴원 요약서를 만들어낸 비율을 보면 퓨샷의 경우 77%, 원샷의 경우 70%, 제로샷은 32%로 분석됐다.

신뢰할 수 없는 수준인 3점 이하는 퓨샷과 원샷 프롬프트에서 모두 0%를 기록했으며 제로샷만 2%로 조사됐다.

연구진은 이러한 결과에 대해 챗 지피티가 한국어로도 충분히 활용 가능한 퇴원 요약서를 만들 수 있다는 것을 의미한다고 설명했다.

퓨샷과 원샷 모두 5점 만점에 4점 이상의 평균 종합 점수를 얻은 것은 사실상 바로 임상에서 활용이 가능하다는 것이다.

연구진은 "특히 심근경색 환자와 일반외과 환자 모두에서 점수에 차이가 없었다는 것은 충분히 범용으로 활용이 가능하다는 것을 의미한다"며 "당장에라도 임상 의사의 퇴원 요약서 작성 로딩을 덜어줄 수 있다는 것을 보여준다"고 전했다.

이어 "특히 퓨샷 프롬프트의 경우 평균 용이성 점수가 4.39 ± 0.45로 이는 영어가 주를 이루는 의학 용어에 대한 지식이 없는 사람들도 아무 부담없이 이를 읽고 이해할 수 있다는 것을 의미한다"며 "의사들의 고민을 크게 줄여줄 수 있을 것"이라고 밝혔다.

관련기사

의료기기·AI 기사

댓글

댓글운영규칙
댓글을 입력해 주세요.
더보기
약관을 동의해주세요.
닫기
댓글운영규칙
댓글은 로그인 후 댓글을 남기실 수 있으며 전체 아이디가 노출되지 않습니다.
ex) medi****** 아이디 앞 네자리 표기 이외 * 처리
댓글 삭제기준 다음의 경우 사전 통보없이 삭제하고 아이디 이용정지 또는 영구 가입이 제한될 수 있습니다.
1. 저작권・인격권 등 타인의 권리를 침해하는 경우
2. 상용프로그램의 등록과 게재, 배포를 안내하는 게시물
3. 타인 또는 제3자의 저작권 및 기타 권리를 침해한 내용을 담은 게시물
4. 욕설 및 비방, 음란성 댓글