스탠포드 의과대학 연구진, 차세대 AI 솔루션 공개
라벨링과 주석없이 데이터 학습…성능도 합격점
인공지능(AI)에 라벨링 작업없이 데이터를 그대로 입력해 학습시키는 차세대 모델이 나와 주목된다.
현재 AI 개발에 가장 큰 걸림돌이자 부담이었던 라벨링 작업을 완전히 건너뛰고도 우수한 성능을 입증한 것. 연구진은 더이상 라벨링 데이터 세트에 따라 AI 성능이 좌우되던 시대가 끝났다고 선언했다.
현지시각으로 15일 네이쳐 자매지인 네이처 바이오메디컬 엔지니어링(Nature Biomedical Engineering)에는 스탠포드 의과대학 연구진이 개발한 AI 시스템이 소개됐다(10.1038/s41551-022-00936-9).
이번에 공개된 차세대 AI는 스탠포드의대 에킨(Ekin Tiu) 박사가 이끄는 연구진이 개발한 것으로 라벨링없이 학습이 가능하도록 하는데 초점을 맞춘 시스템이다.
현재 AI 시스템을 개발, 발전시키는데는 데이터에 일일히 사람이 라벨을 달아 학습용 데이터 세트를 만드는 일명 라벨링 작업이 필수적이다.
문제는 이 라벨링이 결국 사람이 직접 하나씩 주석을 달아가며 진행한다는 점에서 상당한 노동력과 시간이 들어간다는 것.
AI가 전문의 등과 같이 문서나 사진을 그대로 식별할 수 없는 만큼 학습이 가능한 형태로 하나씩 다 라벨을 붙여줘야 하기 때문이다. 말 그대로 사람의 얼굴 사진에 눈썹과 눈, 코 등을 하나씩 다 설명하는 라벨이 필요하다는 뜻이다.
또한 결국 이렇게 구성된 데이터 세트가 AI의 성능을 좌우한다는 점에서 얼마나 숙련된 인력이 이를 진행하는가에도 많은 영향을 받은 것이 사실이다.
결과적으로 지금까지 AI는 얼마나 숙련된 전문가가 수십만개의 훈련용 데이터를 얼마나 꼼꼼하게 정리해 데이터 세트로 만드는지, 나아가 이를 어떻게 미세 조정하는지에 따라 성능 차이가 났다는 의미다.
하지만 연구진이 개발한 CheXzero는 이러한 과정을 완전히 없앴다는데서 학계의 주목을 받고 있다.
이러한 라벨링 작업없이 단순히 X레이를 찍으면 나오는 사진과 보고서에 적힌 메모만으로 독립적으로 학습이 가능하기 때문. 결국 X레이를 찍은 그대로 이를 AI에게 주면 알아서 학습을 한다는 의미다.
현재 37만개의 흉부 X레이와 22만개의 임상 기록을 아무런 라벨없이 학습시킨 결과 CheXzero는 이미 전문의 수준의 정확성을 갖춘 것으로 파악됐다.
실제로 연구 결과 이렇게 라벨링 없는 데이터 세트와 일일이 라벨링을 마친 데이터 세트로 동시에 AI를 가동하고 결과를 살펴본 결과 성능에 유의한 차이가 없었다.
또한 CheXzero 단독으로 진행한 임상에서도 숙련된 영상의학과 전문의 3명의 판독과 통계적으로 차이가 없었다. 라벨링없는 데이터 세트로 학습한 AI가 전문가와 동일한 수준의 판독을 한다는 의미가 된다.
에킨 박사는 "지금까지 대부분의 AI 모델은 성능을 보장하기 위해 최소 10만개 이상의 이미지에 수동으로 라벨링 작업을 진행해 학습을 시켜왔다"며 "하지만 CheXzero는 그 과정없이 동일한 성능을 내는데 성공했다"고 설명했다.
이어 그는 "이는 더 이상 AI 개발과 고도화 작업이 수동으로 라벨이 지정된 대규모 데이터 세트에 좌우될 필요가 없다는 것을 준다"며 "머신러닝의 새 지평을 연 것으로 앞으로 X레이를 넘어 CT와 MRI 분야 등에 적용될 수 있을 것"이라고 발혔다.