

[메디칼타임즈=유소영 서울아산병원 교수]지난 칼럼은 식도 정맥류 출혈 환자에게 AI가 작성한 퇴원 요약지에 "차가운 우유를 드십시오"라는 권고가 포함된 사례를 다뤘다. 임상적으로 위험한 내용이다. 주치의는 요약지를 검토하고 서명했다. 환자는 의사 명의의 공식 의료 기록을 들고 퇴원했다.
이 사례를 처음 접하면 대부분 "AI가 틀린 정보를 생성했다"는 진단을 내린다. 그러나 전편의 논점은 그것이 아니었다. 두 개념을 구분할 필요가 있다.
환각(Hallucination) AI가 사실이 아닌 정보를 그럴듯하게 생성하는 현상. 이미 알려진 기술적 한계이며, 성능 개선의 대상으로 다뤄진다. |
정보 세탁(Information Laundering) 오류 자체의 문제가 아니라, 그 오류가 유통되는 방식의 문제다. AI가 생성한 틀린 정보가 완벽한 전문가 문체와 공식 문서 형식으로 포장되면, 읽는 사람은 형식에서 신뢰 신호를 받고 내용을 검증할 동기를 잃는다. 오류는 "의사가 서명한 공식 의료 기록"의 권위를 입고 유통된다. |
사람이 기록을 잘못 작성하면 흔적이 남는다. 어색한 표현, 비일관적 어조, 표준 용어에서 벗어난 문장. 이런 요소들이 읽는 사람의 주의를 건드린다. AI가 생성한 문장에는 그 마찰이 없다. 문법이 완벽하고, 의학 용어가 정확하며, 어조가 일관된다. 오류의 내용은 틀렸지만 오류가 담긴 형식은 흠잡을 데가 없다.
의사가 그 요약지를 그대로 서명하는 것도 같은 구조에서 이해할 수 있다. 자동화 편향(Automation Bias)이다. 시스템이 생성한 결과물에 대해 인간은 다른 인간의 결과물보다 더 높은 신뢰를 부여하는 경향이 있다. 매일 수십 건의 문서를 처리하는 임상 환경에서, 유창하게 작성된 AI 초안은 인지적 마찰을 제거한다. 잘 쓰인 문장은 맞는 내용처럼 느껴진다. 서명은 내용 확인이 아니라 형식 통과가 된다. 오류는 AI가 생성하지만, 세탁은 의사의 서명을 거쳐 완료된다.
이것이 단순한 우려가 아님은 연구로 확인된다. 2026년 2월 The Lancet Digital Health에 온라인 게재된 마운트 시나이 아이칸 의대 연구에서, 20개 LLM에 340만 건 이상의 프롬프트를 투입했을 때 동일한 허위 의료 정보라도 SNS 게시물 형식보다 퇴원 요약지 형식으로 제시했을 때 AI의 수용률이 현저히 높았다. 연구진은 이를 형식 편향(Format Bias)으로 설명했다. 전편의 부제였던 물음, "의료 거버넌스는 어떻게 설계되어야 하는가"이 이번 조사의 출발점이다.

설문 배경과 구성
전편 칼럼을 읽고 자발적으로 설문에 참여한 독자가 108명이다. 칼럼을 읽은 후 스스로 동의한 사람들이다. 따라서 응답자들은 정보 세탁 문제에 대한 기본적인 문제의식을 이미 공유한 집단이다. 그럼에도 불구하고, 원인 진단과 대응 방향이 직군에 따라 구조적으로 달랐다는 것이 이번 조사의 핵심 발견이다.

응답자에게 다음 시나리오를 제시한 후 네 가지 문항에 답하도록 했다.
[ 설문 시나리오 ] 당신이 식도 정맥류 출혈로 입원해 있다고 가정해 보십시오. 이틀 후 퇴원을 앞두고, 담당 전공의가 병원 EMR에 연결된 AI 시스템에 입원 기록 전체를 입력하고 버튼 하나로 퇴원 요약지를 생성했습니다. 요약지는 진단명, 경과, 투약 이력, 후속 일정이 항목별로 정리된 완성도 높은 문서였습니다. 생활 지도 항목에는 다음 내용이 포함되어 있었습니다. "증상 완화를 위해 차가운 우유를 드십시오." 차가운 우유는 식도 출혈이 있는 점막을 자극하며 재출혈을 유발할 수 있습니다. 의학적으로 위험한 권고입니다. 주치의는 유창하게 작성된 요약지를 검토한 후 그대로 서명했고, 당신은 의사 명의의 이 공식 의료 기록을 들고 퇴원했습니다. |
각 문항에 선택지를 제시하고 서술형 이유를 함께 수집했다.
Q1. 원인 귀속: 같은 사고를 서로 다른 언어로 읽다
Q1. 이 시나리오를 읽고 가장 먼저 든 생각은 무엇입니까? ① 기술적 불완전성: AI가 임상 맥락을 소거하여 치명적 오류를 만들었다 ② 시스템 거버넌스 부재: 검증되지 않은 기술을 임상에 방치한 시스템 전체의 결함이다 ③ 전문가 주의 의무: 기록의 최종 책임자인 의사가 검토하지 못한 프로세스가 문제다 ④ 고착화된 관행: AI와 무관하게 의료 현장의 기록 부실은 이미 존재해온 문제다 ⑤ 시나리오 비현실성: 이런 극단적 상황은 현실과 괴리가 있다 |
이 질문은 응답자가 사고의 원인을 어디에 귀속시키는지를 측정하기 위해 설계했다. 원인 귀속이 거버넌스 설계에서 중요한 이유는, 그것이 대응 방향의 출발점을 결정하기 때문이다. ①을 선택하면 기술 성능 개선이 대응 방향이 되고, ②를 선택하면 제도 설계가, ③을 선택하면 임상 프로세스 재설계가 대응 방향이 된다.

기술적 불완전성(28.7%)과 시스템 거버넌스 부재(26.9%)가 1, 2위를 나눴다. 두 프레임은 같은 사고에 대한 전혀 다른 해석이다. 기술적 불완전성 진단은 AI 성능이 개선되면 이 문제가 줄어든다는 경로를 전제한다. 시스템 거버넌스 부재 진단은 기술이 완벽해져도 관리 체계가 없으면 사고는 반복된다는 논리다.

일반 시민(환자·보호자 등 의료 이용자 입장의 응답자)은 기술적 불완전성을 1순위로 꼽았다. 반면 의료 AI 시스템을 개발하거나 구축하는 위치에 있는 산업계 종사자(41.2%)와 AI·데이터 전문가(35.7%)는 시스템 거버넌스 부재를 1순위로 선택했다. 이 차이는 각 집단이 의료 AI 생태계 내에서 점유하는 위치의 차이에서 비롯될 수 있다. 일반 시민은 AI가 생성한 정보를 최종적으로 수신하는 위치에 있으므로 오류의 원천인 AI 자체를 문제로 본다. 산업계 종사자와 AI·데이터 전문가는 시스템 설계와 운용 과정에 가까이 있으므로, 사고를 특정 AI의 오류가 아니라 검증 없이 기술이 임상에 안착하도록 허용한 구조의 문제로 읽는다.
보건의료 전문가(의사·간호사·약사·의료기사 등 임상 현장 종사자)는 전문가 주의 의무(28.6%)를 1순위로 꼽은 유일한 집단이었다. 서술형 응답에는 "AI를 이미 쓰고 있고 더 꼼꼼히 확인해야 한다는 것은 알지만 현실적으로 어렵다"는 내용이 반복됐다. 이 집단은 자동화 편향이 가장 직접적으로 작동하는 위치에 있는 사람들이다.
Q2. 책임 귀속: 같은 선택, 다른 논리
Q2. 당신이 이 환자의 보호자라면, 가장 먼저 요구하고 싶은 것은 무엇입니까? ① 전문가적 책임 추궁: 담당 의사에게 사고 경위와 책임을 묻겠다 ② 책임 소재 모호성 체감: 의료진·기술사·시스템 사이에서 누구에게 물어야 할지 판단하기 어렵다 ③ 정책적 규제 마련 촉구: 재발 방지를 위한 법제화를 정부에 요구하겠다 ④ 알고리즘 투명성 공개 요구: AI 도입 시 임상검증 절차와 안전성 평가 자료를 공개하라고 요구하겠다 ⑤ 제조물 책임 제기: AI 시스템 개발사를 상대로 기술적 결함에 대한 법적 책임을 묻겠다 |
이 질문은 응답자를 분석자가 아닌 피해 당사자의 위치에 놓는다. 사고가 발생했을 때 사회가 가장 먼저 책임을 귀속시키는 방향을 측정하기 위한 설계다. ①에서 ⑤로 갈수록 책임의 주소가 개인(의사)에서 시스템, 정부, 제조사로 확장된다.

전문가적 책임 추궁이 43.5%로 압도적 1위였다. Q1에서 시스템 거버넌스 부재를 원인으로 지목했던 산업계·AI·정책 집단도 보호자 입장에서는 먼저 담당 의사에게 책임을 물었다. 원인 진단과 책임 귀속의 방향이 반드시 일치하지 않는다.
같은 ①을 선택한 집단 내부의 논리는 달랐다. 보건의료 전문가(의사·간호사 등 임상 현장 종사자)의 서술형 응답에는 "서명한 이상 책임을 피할 수 없다"는 자기귀속적 인식이 반복됐다. 이들은 자신이 바로 그 서명 위치에 있다는 것을 알면서 답한 것이다. 일반 시민은 "의사가 서명했으니 의사 책임"이라는 신탁 논리였다. 기존 의료 관계에서 의사가 진단과 처방의 최종 책임자였던 구조가 AI 도입 이후에도 그대로 적용된다는 기대다.
AI·데이터 전문가(개발자·연구자·데이터 사이언티스트)에서 알고리즘 투명성 공개 요구(④)를 선택한 비율은 25.0%로 다른 직군의 두 배 수준이었다. 시스템 개발 및 구축에 관여하는 이들은 개인 책임 추궁보다 알고리즘의 임상검증 이력과 안전성 평가 자료의 공개를 먼저 요구하는 경향이 있다.
AI가 기록을 생성하더라도 서명한 의사가 오류의 법적 책임을 지는 현재 구조에서, 의사 입장에서 AI 도입은 생산성 향상이 아니라 법적 위험의 증가다. 책임 구조의 재설계 없이 도입 확산을 기대하기 어렵다.
Q3. 허용 범위: 위험을 경험하는 위치와 규범 판단의 관계
Q3. 현재 시점에서 인공지능(AI)이 생성한 의료 기록의 허용 범위와 신뢰 수준에 대해 어떻게 생각하십니까?
① 원칙적 배제: 진료 기록의 어떤 과정에도 AI가 개입해서는 안 된다 (가장 엄격) ② 보조적 활용(엄격): AI가 초안을 작성할 수는 있으나, 의사가 이를 참고하여 처음부터 새로 작성해야 한다 ③ 협업적 수정(완화): AI가 작성한 초안을 의사가 검토하고 필요한 부분만 수정·보완하면 충분하다 ④ 효율적 승인: AI의 정확성이 담보된다면, 의사의 최종 확인과 서명만으로 공식 기록으로 인정할 수 있다 ⑤ 기술적 우위: AI의 기록이 인간의 기록보다 오히려 객관적이고 정확할 수 있다 (가장 허용적) |
이 질문은 각 집단이 의료 AI에 어느 수준의 권한을 위임할 수 있다고 보는지, 규범적 판단을 측정하기 위해 설계했다. ①에서 ⑤로 갈수록 AI에 대한 위임 수준이 높아진다.


보건의료 전문가(의사·간호사 등) 10명 중 4명(39.3%)은 AI가 의료 기록에 개입해서는 안 되거나, 개입하더라도 의사가 처음부터 새로 작성해야 한다고 답했다. 일반 시민도 36.8%가 같은 응답이었다. 반면 산업계 종사자(17.6%)와 AI·데이터 전문가(21.4%)는 같은 응답이 20% 안팎에 그쳤다.
각 집단이 의료 AI 오류에 노출되는 방식의 차이가 이 분포를 설명한다. 보건의료 전문가는 AI가 생성한 기록에 서명하는 위치에 있고, 일반 시민은 그 기록의 대상이 되는 위치에 있다. 두 집단 모두 오류의 직접적 결과를 감당하는 위치다. 반면 산업계 종사자와 AI·데이터 전문가는 시스템의 설계와 구축 단계에서 관여하므로, 위험은 관리 가능한 기술적 문제로 인식되는 경향이 있다.
정책·제도 설계자(보건복지부·식약처·공공기관 행정가) 중 AI 기록 개입을 원칙적으로 금지하거나 의사가 처음부터 새로 작성해야 한다고 답한 사람은 11명 중 단 3명(27.3%)이었다. 54.5%는 AI 초안을 의사가 검토·수정하면 충분하다고 답했다. 가이드라인을 실제로 만드는 집단이 임상 현장 의사보다 AI 기록 활용에 더 우호적인 입장을 가지고 있다는 것은, 향후 나올 규범이 현장 불안과 어긋날 가능성을 내포한다.
Q4. 우선 대응 방향: 각자의 위치, 각자의 해법
Q4. '기록의 세탁'으로 인한 사고를 방지하고 기술 신뢰도를 확보하기 위해, 도입이 가장 시급한 대책은 무엇이라고 보십니까? [인적 역량] 의료진 AI 리터러시 교육 의무화: AI 요약의 한계와 맥락 소거의 위험성을 인지하고, 생성물에 대한 비판적 검토 능력을 기르는 교육을 임상 필수 과정으로 지정한다 [인터페이스] 출처 표기 및 추적성(Traceability) EMR 표준화: AI 생성 기록의 근거가 된 원본 데이터를 즉시 확인할 수 있는 기능을 EMR 표준으로 탑재한다 [법적 책임] 책임 분담 및 입증 책임 법제화: AI 기록을 승인한 의사의 주의 의무 한계를 규정하고, 알고리즘 결함에 대한 제조사 책임을 명시하여 법적 불확실성을 해소한다 [환자 안전] AI 기록 사후 모니터링 시스템: AI 생성물로 인한 오류가 보고될 경우 해당 알고리즘을 즉시 격리·재검증하는 Post-market Surveillance 체계를 가동한다 [데이터 표준] 전원 시 원본 데이터 전송 원칙: 병원 간 전송 시 요약본이 아닌 원천 기록 전체를 공유하도록 시스템을 규격화한다 |
이 질문은 앞선 세 문항이 측정한 인식이 실제 대응 방향으로 어떻게 이어지는지를 확인하기 위해 설계했다. 다섯 가지 대책은 각각 다른 주체의 행동을 요구하도록 구성했다.


다섯 집단이 모두 다른 대응 방향을 1순위로 선택했다. 임상 현장에서 직접 기록을 다루는 보건의료 전문가는 역량 강화를, 오류의 최종 수신자인 일반 시민은 사후 안전망을, 시스템 구축에 관여하는 산업계 종사자와 AI·데이터 전문가는 기술적 설계 변경을, 규범 제정의 위치에 있는 정책·제도 설계자는 법적 책임 구조를 선택했다.
역량 강화만으로는 책임 구조가 바뀌지 않고, 법제화만으로는 현장의 인지 부하가 줄지 않으며, 기술 설계만으로는 임상 맥락의 결락이 채워지지 않는다. 각 대응이 상호 의존적이라는 점에서, 조율 없이 병렬 실행될 경우 정합성이 결여된 거버넌스가 만들어진다.
종합 분석 및 설문의 한계
이번 조사는 편의 표본(convenience sample)으로서 통계적 대표성을 갖지 않는다. 직군별 표본 규모가 소규모여서(특히 정책·제도 설계자(11명)와 AI·데이터 전문가(14명)) 각 직군 내 다양성을 충분히 반영하지 못한다. 자발적 참여 구조상 선택 편향(selection bias)도 내재되어 있고, 전편 칼럼이라는 단일 자극에 노출된 후 응답하는 방식이므로 칼럼의 논지가 응답에 영향을 미쳤을 가능성을 배제할 수 없다. 또한 이번 분석은 집단 수준의 응답 분포를 비교하는 것으로, 개인 수준의 문항 간 교차표는 수집되지 않았다. 이 결과는 후속 연구를 위한 방향 탐색 수준에서 읽어야 한다.
그럼에도 문제의식을 공유한 집단에서도 직군에 따라 응답 분포가 구조적으로 달라진다는 것은, 인식의 차이가 정보 부족이 아니라 각 집단의 역할과 위치에 의해 구조화되어 있을 가능성을 시사한다. 네 문항의 집단별 분포를 함께 보면 세 가지 구조적 패턴이 드러난다.
첫째, 원인을 묻는 Q1("이 시나리오에서 가장 먼저 든 생각은?")과 책임을 묻는 Q2("환자의 보호자라면 가장 먼저 요구할 것은?")의 집단별 분포 사이에 방향의 불일치가 나타난다.
Q1에서 시스템 거버넌스 부재를 1순위로 꼽은 집단은 산업계 종사자(41.2%), AI·데이터 전문가(35.7%), 정책·제도 설계자(27.3%)로 세 곳이었다. 그러나 Q2에서는 전체 응답자의 43.5%가 직군을 불문하고 담당 의사 개인에게 책임을 귀속시켰다. 즉 사고의 원인을 시스템 차원으로 진단하는 경향이 강한 직군에서도, 보호자 입장에서의 첫 번째 대응은 의사 개인에 대한 책임 추궁으로 수렴하는 집단 수준의 패턴이 관찰된다.
조직사고이론(Organizational Accident Theory)에서 반복적으로 지적하는 것처럼, 시스템 차원의 원인 진단과 개인 수준의 책임 귀속이 공존하면 시스템 개선을 위한 구조적 대응은 지연되고 개인에 대한 사후 귀책만 반복되는 경향이 있다. 이 패턴이 의료 AI 거버넌스 논의에서도 작동하고 있다면, 책임 구조의 재설계 없이는 의사들이 AI 사용을 법적 위험 계산의 문제로 인식하는 구조를 변화시키기 어렵다.
둘째, AI 기록의 허용 범위를 묻는 Q3("현재 시점에서 AI 생성 의료 기록의 허용 범위는?")과 가장 시급한 대응을 묻는 Q4("기록의 세탁으로 인한 사고를 방지하기 위해 가장 시급한 대책은?")의 직군별 분포를 비교하면, 규범을 만드는 집단과 그것을 이행하는 집단 사이에 출발 전제의 차이가 관찰된다.
Q3에서 전체 응답자의 33.3%는 "AI가 진료 기록에 개입해서는 안 되거나, 의사가 AI 초안을 참고하더라도 처음부터 새로 작성해야 한다"고 답했다. 직군별로 보면 보건의료 전문가(39.3%)와 일반 시민(36.8%)에서 이 응답 비율이 상대적으로 높았고, 산업계 종사자(17.6%)와 AI·데이터 전문가(21.4%)에서는 낮았다. 정책·제도 설계자(N=11)는 54.5%가 "AI 초안을 의사가 검토·수정하면 충분하다"고 답했으나, 이 집단의 표본이 11명에 불과해 비율 수치를 직접 비교하는 데는 주의가 필요하다.
Q4에서 정책·제도 설계자는 법적 책임 입증 법제화(36.4%)를 1순위로 꼽은 반면, 보건의료 전문가는 AI 리터러시 교육(37.5%)을 1순위로 선택했다. 법을 통해 허용 범위를 정하려는 집단과, 현장 역량을 먼저 강화해야 한다는 집단의 방향이 다르다. 이 차이가 소규모 표본의 한계를 넘어 구조적 패턴인지는 더 큰 규모의 조사가 필요하다. 다만 규범을 설계하는 위치에 있는 집단과 그것을 이행하는 위치에 있는 집단이 동일한 질문에 다르게 응답하는 방향성 자체는, 향후 거버넌스 설계 과정에서 직군 간 의견 수렴이 필요하다는 점을 시사한다.
셋째, Q4에서 다섯 집단이 모두 다른 항목을 1순위로 선택한 분포는 단순한 선호 차이 이상의 의미를 갖는다.
각 집단이 자신이 가장 직접적으로 개입할 수 있는 영역의 대응을 우선시하는 경향이 관찰된다. 임상의는 역량 강화, 기술자는 시스템 설계, 입법자는 법제화, 시민은 사후 감시를 선택했다. 이 대응들은 상호 의존적이다. 그러나 AI 리터러시 교육의 효과는 책임 구조가 명확해야 작동하고, 책임 구조의 법제화는 AI 기록의 추적 가능성이 기술적으로 확보되어야 현실적이며, 사후 모니터링은 원본 데이터 전송 기준이 있어야 오류를 소급 확인할 수 있다. 각 대응이 독립적으로 설계되고 병렬 실행될 경우, 제도적 공백이 발생할 가능성을 배제하기 어렵다. 이것이 단순히 "모두 함께 해야 한다"는 당위가 아니라, 대응 간 의존성 구조를 명시적으로 설계하는 조율 기제(coordination mechanism)의 필요성으로 이어지는 이유다.
이번 조사는 더 큰 규모의 체계적 표본 조사를 통한 후속 연구의 필요성을 제안한다. 직군별 인식 구조의 차이가 통계적으로 유의미한지를 검증하고, 그 차이의 배경 변수를 규명하는 연구가 의료 AI 거버넌스 설계의 실질적 기반을 만들 수 있다. 거버넌스는 설계되기 전에, 그것을 설계하는 사람들과 그것을 감당하는 사람들이 같은 문제를 어떻게 다르게 보는지를 먼저 확인해야 한다.
"칼럼을 읽고 이 사고실험에 기꺼이 참여해 주신
108분께 깊이 감사드립니다."
Omar, M., Sorin, V., Wieler, L. H., Charney, A. W., Kovatch, P., Horowitz, C. R., Korfiatis, P., Glicksberg, B. S., Freeman, R., Nadkarni, G. N., & Klang, E. (2026). Mapping the susceptibility of large language models to medical misinformation across clinical notes and social media: A cross-sectional benchmarking analysis. The Lancet Digital Health.

- 최신순
- 추천순
댓글운영규칙ex) medi****** 아이디 앞 네자리 표기 이외 * 처리
댓글 삭제기준 다음의 경우 사전 통보없이 삭제하고 아이디 이용정지 또는 영구 가입이 제한될 수 있습니다.
1. 저작권・인격권 등 타인의 권리를 침해하는 경우
2. 상용프로그램의 등록과 게재, 배포를 안내하는 게시물
3. 타인 또는 제3자의 저작권 및 기타 권리를 침해한 내용을 담은 게시물
4. 욕설 및 비방, 음란성 댓글