거대 언어 모델(LLM)의 대표 주자인 챗 지피티(Chat-GPT)가 전문의 수준에 이르렀다는 보고가 이어지고 있지만 한계는 여전하다는 연구 결과가 나왔다.
필요한 논문을 제시하고 학생 수준의 객관식 시험을 출제한 뒤 모범 답안을 제시하는 일을 시키자 탈락 수준의 결과를 내놨기 때문이다.
현지시각으로 21일 학술 병리학(Academic Pathology)지에는 챗 지피티를 활용해 시험 문제를 생성하는 최초의 연구 결과가 게재됐다(10.1016/j.acpath.2023.100099).
거대 언어 모델, 이른바 생성형 인공지능을 불리는 챗 지피티는 의학 분야에서도 활용성을 두고 활발한 연구가 이뤄지고 있는 도구 중 하나다.
모델이 고도화되면서 사실상 전문의 수준까지 이르렀다는 보고가 나오면서 기대감을 높이고 있는 상황.
실제로 미국 앤서블헬스(Ansible Health)의 연구 결과 챗 지피티는 이미 미국 의사 시험(USMLE)를 무난하게 통과한 바 있다.
스텝 1,과 스텝2, 스텝 3 등 3단계에 걸친 의사 시험 문제에서 추출한 305개 문항을 단 5초만에 풀어내며 합격점을 받은 것.
특히 미국 유타의과대학에서 이뤄진 연구에서는 전문의 수준의 심층적인 임상 분석 질문 13개를 의학적 오류 없이 풀어내 주목받은 바 있다.
챗 지피티가 풀어낸 답변을 세계적 권위의 미국암연구소에 의뢰하자 전문가 모두가 100%의 동의로 의학적 근거가 충분하며 정확한 답변이라고 평가한 것이다.
미국 보스턴 의과대학 알렉산더(Alexander Ngo) 교수가 이끄는 연구진이 챗 지피티에게 학생들을 위한 시험 문제 출제 과제를 준 배경도 여기에 있다.
이미 전문의 수준까지 이르렀다면 학생들에게 필요한 문제를 내고 모범 답안을 작성하는 일도 가능할 것이라는 가정에서다.
이에 따라 연구진은 보스턴 의과대학에서 진행되는 면역학 수업에 대한 자료를 모두 챗 지피티에게 주고 학생들을 위한 모의 문항을 만들라고 주문했다.
객관식 문항을 만들고 정답에 대한 설명을 붙여 학생들을 위한 교육 자료를 만들라고 지시한 셈이다.
하지만 결과는 참담했다. 필요한 학습 자료와 논문을 모두 챗 지피티에게 주었음에도 60개의 질문 중 19개만 제대로 만들어냈기 때문이다.
알렉산더 교수는 "매우 안타깝게도 챗 지피티는 그 많은 자료를 가지고도 불과 32%만 제대로 된 근거를 갖춘 질문과 답변을 만들었다"며 "지금까지 챗 지피티의 성능을 참조해 충분히 가능하다고 판단된 주문을 했지만 결과는 기대에서 한참 떨어졌다"고 설명했다.
또한 챗 지피티는 질문에 대한 올바른 답변을 내는데도 실패했다. 절반이 넘는 질문에 대해 잘못된 답변을 제시했기 때문이다.
거짓말도 여전했다. 실제로 60개의 질문 중 25%는 의학적 근거가 없거나 낭설에 불과한 정보를 끌어왔다.
알렉산더 교수는 "현재 챗 지피티를 활용해 리포트나 나아가 논문 작성까지 활용하고 있다는 점을 감안하면 매우 실망스러운 결과"라며 "그럼에도 챗 지피티를 학생 교육에도 활용할 수 있는지 여부에 대해 동료 평가(피어 리뷰)를 거친 최초의 연구라는 점에서 의미는 있다"고 설명했다.
이어 그는 "32%의 결과는 사실상 학생 수준에서도 낙제점에 해당한다"며 "하지만 여전히 많은 연구자들은 학생 교육에 있어 챗 지피티가 유용하다는 생각에 변함이 없는 만큼 관련 연구는 이어질 것으로 보인다"고 내다봤다.
ex) medi****** 아이디 앞 네자리 표기 이외 * 처리
댓글 삭제기준 다음의 경우 사전 통보없이 삭제하고 아이디 이용정지 또는 영구 가입이 제한될 수 있습니다.
1. 저작권・인격권 등 타인의 권리를 침해하는 경우
2. 상용프로그램의 등록과 게재, 배포를 안내하는 게시물
3. 타인 또는 제3자의 저작권 및 기타 권리를 침해한 내용을 담은 게시물
4. 욕설 및 비방, 음란성 댓글