[메디칼타임즈] 의료 접목 시작한 거대언어모델…누가 제일 똑똑할까

제보하기

2025년 07월 24일 (목)
로그인

로그인

로그인을 하시면 메디칼타임즈의
다양한 연관서비스를 이용하실 수 있습니다. 가입 시 등록한 정보를 입력해주세요.

개인정보 보호를 위한 비밀번호 변경안내 주기적인 비밀번호 변경으로 개인정보를 지켜주세요.
안전한 개인정보 보호를 위해 3개월마다 비밀번호를 변경해주세요. ※ 비밀번호는 마이페이지에서도 변경 가능합니다.

30일간 보이지 않기

비밀번호 변경하기

의료기기·AI
진단

의료 접목 시작한 거대언어모델…누가 제일 똑똑할까

이인복 기자

발행날짜: 2024-12-30 05:30:00

가
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
URL복사

챗 지피티부터 제미니, 라마 등 임상 현장 접목 활발
각 모델별 학습 능력 격차 커…챗 지피티 성능 압도적

의료 분야에서도 챗 지피티 등 거대언어모델(LLM)을 활용하기 위한 시도가 이어지고 있는 가운데 실제 임상 환경에서 각 제품별 성능을 비교한 결과가 공개돼 이목을 끌고 있다.

각 제품별로 의학 지식과 임상 정보를 학습시키고 얼마나 효과적으로 대응하는지를 확인한 것. 결과적으로 챗 지피티가 정확도 면에서 타 제품을 압도했다.

현지시각으로 27일 의료인공지능 저널(Journal of Medical Artificial Intelligence)에는 거대언어모델별 실제 임상 적용 가능성을 비교한 연구 결과가 공개됐다(10.21037/jmai-24-174).

현재 거대언어모델이 급속도로 고도화되면서 의학 분야에서도 이를 접목하기 위한 시도가 지속적으로 이어지고 있다.

특히 일부 모델은 이미 미국의사시험을 매우 높은 점수로 합격한 것은 물론 전문의보다 환자 분류나 퇴원 요약 등의 부분에서 더 우수하다는 보고가 이어지면서 기대감을 높이고 있는 상황.

하지만 현재 개발된 각 거대언어모델간에 어느 정도 성능 차이가 있는지 또한 의학 분야에서 얼마나 효과를 발휘할 수 있을지에 대한 연구는 없었다.

이탈리아 AOU 의과대학 지안루카 몬딜로(Gianluca Mondillo) 교수가 이끄는 연구진이 이에 대한 연구를 진행한 배경도 여기에 있다.

과연 거대언어모델별로 의학 지식을 학습하는데 얼마나 성능 차이가 나며 또한 정확도 면에서 어느 제품이 우수한지를 팡가하기 위해서다.

이에 따라 연구진은 오픈에이아이의 챗 지피티(Chat-GPT)와 구글의 제미니(Gemini), 미스트랄에이아이의 믹스트랄(Mixtral 8x7B), 메타의 라마(Llama2 70B)를 대상으로 비교를 시작했다.

소아과학 교과서와 최근 임상 논문들, 또한 전문의들이 작성한 의무기록을 데이터 세트로 만들어 동일하게 학습시키고 과연 이를 통해 실제 임상에서 반응할 수 있는지를 비교한 것이다.

이에 대한 비교는 총 227개로 구성된 동일한 질문을 통해 진행됐다. 동일한 데이터로 학습을 시킨 뒤 이 227개의 질문에 어떻게 답하는지를 비교한 셈이다.

그 결과 교육 전, 즉 소아과 분야에 대한 전문지식을 학습시키기 전에는 챗 지피티 4.0 버전이 정답률 77.09%로 가장 높은 정확도를 보였다.

이어서는 믹스트랄 8x7B가 71.37%로 뒤를 이었으며 제미니가 70.48%, 챗 지피티 3.5 버전이 65.20%, 라마2 70B가 47.5%의 정확도를 보였다.

그렇다면 학습 후에는 어땠을까. 소아과학 교과서와 임상 논문, 의무기록을 학습시킨 뒤 정확도를 비교하자 챗 지피티 4.0 버전이 81.62%로 압도적 성능을 보였다. 이는 10년 이상의 소아과 전문의 수준이다.

이후 순위는 학습 전과 후에 차이가 있었다. 학습 전 정확도 4위에 랭크됐던 챗 지피티 3.5가 학습 후에는 83.70%의 정확도를 보이며 2위로 올라섰고 학습 전 정확도 2위를 기록했던 믹스트랄 8x7B은 학습 후 78.86%의 정확도를 보이며 순위가 뒤바뀌었다.

학습에 따른 정확도 증가분을 봐도 챗 지피티 4.0 버전이 14.53%로 압도적으로 높았고 챗 지피티 3.5가 18.5%, 제미니가 7.93%, 믹스트랄 8x7B이 7.49%로 큰 차이를 보였다.

챗 지피티가 의학 분야에서는 학습에 따라 정확도가 큰 폭으로 증가한다는 의미가 된다.

지안루카 몬딜로 교수는 "학습 후 정확도면에서 이미 거대언어모델은 숙련된 전문의 수준으로 임상적 판단을 내릴 수 있다는 것을 보여준다"며 "제대로된 데이터 세트만 마련된다면 임상 현장에서 매우 유용한 도구가 될 수 있다는 것"이라고 설명했다.

이어 그는 "특히 챗 지피티는 자체 데이터 뿐 아니라 다른 데이터를 통한 학습 능력도 매우 뛰어나며 의학 분야에서도 전문성을 발휘할 수 있는 충분한 성능을 보여줬다"며 "특히 영어가 아닌 이탈리어로 학습했음에도 충분한 정확도를 보였다는 점은 매우 고무적인 일"이라고 밝혔다.

의료기기·AI 기사

국내 필러 전문가 22명 그들이 한 곳에 모인 이유는? 2025-01-13 05:00:00
스킨퀄리티 개선 열쇠 바이오스티뮬레이터…최적 활용법은? 2025-01-07 05:00:00
알츠하이머병을 통한 예술적 탐구 2024-12-30 05:00:00
임신성 당뇨병 삶의 질 저하 심각…"CGM 효과적 대안" 2024-12-26 05:30:00
빈혈 동반 심근경색 환자 '추가 수혈' 유효성 마침내 정립 2024-12-24 11:59:34

새로고침

최신순
추천순

댓글운영규칙

댓글은 로그인 후 댓글을 남기실 수 있으며 전체 아이디가 노출되지 않습니다.
ex) medi****** 아이디 앞 네자리 표기 이외 * 처리
댓글 삭제기준 다음의 경우 사전 통보없이 삭제하고 아이디 이용정지 또는 영구 가입이 제한될 수 있습니다.
1. 저작권・인격권 등 타인의 권리를 침해하는 경우
2. 상용프로그램의 등록과 게재, 배포를 안내하는 게시물
3. 타인 또는 제3자의 저작권 및 기타 권리를 침해한 내용을 담은 게시물
4. 욕설 및 비방, 음란성 댓글

의료기기·AI 기사

많이 읽은 뉴스

이메일 무단수집 거부

메디칼타임즈 홈페이지에 게시된 이메일 주소가 전자우편 수집 프로그램이나
그 밖의 기술적 방법을 이용하여 무단으로 수집되는 것을 거부하며,
이를 위반할 시에는 정보통신망법에 의해 형사 처벌될 수 있습니다.

의료 접목 시작한 거대언어모델…누가 제일 똑똑할까

챗 지피티부터 제미니, 라마 등 임상 현장 접목 활발각 모델별 학습 능력 격차 커…챗 지피티 성능 압도적

관련기사

의료기기·AI 기사

의료기기·AI 기사

많이 읽은 뉴스

챗 지피티부터 제미니, 라마 등 임상 현장 접목 활발
각 모델별 학습 능력 격차 커…챗 지피티 성능 압도적