2025년 08월 02일

인공지능이 의료 분야에 빠르게 도입되고 있지만, 인공지능 도구가 언제 정확하고, 편향적이며, 해로운지 아직 알 수 없습니다.

미국의 캘리포니아 팔로알토에서 벌어진 일입니다.

최근 건강검진에서 의사가 인공지능을 들고 나타났습니다. 저는 인공지능의 가능성과 문제점을 매우 개인적인 방식으로 볼 수 있었습니다.

2024년 12월 25일 자 미국의 워싱턴포스트(The Washington Post)는〈Should you trust an AI-assisted doctor? (인공지능의 도움을 받는 의사를 믿어도 될까요?〉) 라는 제목의 기사를 실었습니다. 인공지능이 폭넓게 사용되는 것은 인지하고 있으나, 생명을 다루는 의학 분야에 인공지능의 도움은 어떻게 받아들여지는지 궁금해서 그 속사정을 들어보았습니다.

“시작하기 전에, 제가 간단한 질문을 하나 드리고 시작하겠습니다”라고 스탠포드 헬스케어의 크리스토퍼 샤프가 스마트폰에 앱을 열면서 말했습니다. ”저는 대화를 녹음하고, 인공지능을 사용하여 요약하고, 제 노트를 대신 작성해 주는 기술을 사용하고 있습니다.”

검사 도중, 샤프는 자신의 AI가 기록하는 내용을 들을 수 있도록 혈압과 기타 검사 결과를 큰 소리로 말했습니다. 그는 또한 AI를 사용하여 제안된 치료 조언을 포함하여 환자 메시지에 대한 답변의 초안을 작성하는 데 도움을 받습니다.

AI는 아직 의사와의 관계에 들어오지 않았다면, 이제는 그 관계 사이에 들어오고 있습니다. 지난 1년 동안 수백만 명의 사람들이 반복적인 임상 업무를 위해 AI를 사용하는 의료 서비스 제공자의 치료를 받기 시작했습니다.

이것이 의사의 스트레스를 줄이고, 치료 속도를 높이며, 실수를 발견할 수 있게 해줄 것이라는 희망이 있습니다.

그것은 흥미로운 일입니다. 그러나 제가 조금 무서운 것은 전통적으로 보수적이고 증거 기반의 직업인 의학이 실리콘 밸리의 초고속으로 AI를 채택하고 있다는 것입니다. 이러한 AI 도구는 병원에서 널리 채택되고 있지만, 의사들은 여전히 사용이 좋은 생각인지, 시간 낭비인지, 심지어 위험한지 테스트하고 있습니다.

“환각(Hallucinations)”으로 악명 높은 생성형 AI의 해악은 잘못된 정보를 만들어 내는 경우가 많고, 의학에서는 그 위험성이 매우 심각합니다. 한 연구에 따르면 382개의 의료 관련 질문에 대해 ChatGPT가 20%의 ‘부적절한’ 답변을 제공했다고 합니다.

의사들이 AI를 사용하여 의사소통하게되면 의도치 않게 잘못된 조언을 전달할 수도 있습니다. 또 다른 연구에 따르면 챗봇은 흑인이 백인보다 더 많은 고통을 견딜 수 있다는 인종 차별적 가정을 하는 등 편견을 의사에게 전달할 수 있다고 합니다.

음성을 글자로 변환하는 소프트웨어 역시 아무도 말하지 않은 것을 임의로 만들어내는 것으로 나타났습니다.

환자들은 소비자용 챗봇을 사용하여 질병을 진단하고 치료법을 추천함으로써 한계를 뛰어넘고 있습니다.

병원에서는 ChatGPT에 대한 소문이 돌면서 AI가 메시지 초안 작성자 및 메모를 작성하는 “주변 필기 담당자”의 역할로 빠르게 자리 잡았습니다. 미국 최대 전자 건강 기록 제공업체인 에픽시스템즈(Epic Systems)는 자사가 판매하는 생성형 AI 도구가 이미 매달 약 235만 건의 환자 방문 기록과 175,000건의 메시지 초안을 작성하는 데 사용되고 있다고 밝혔습니다.

에픽에 따르면 외래 방문 중에 언급된 요청 사항을 대기열에 추가하고, 교대 근무 시간에 대한 검토를 의료진에게 제공할 수 있는 제품을 포함하여 100개 이상의 AI 제품을 개발하고 있다고 말합니다. 스타트업은 더 나아가고 있습니다: 그라스 헬스(Glass Health)는 의사에게 진단 및 치료 계획에 대한 AI 생성 권장 사항을 제공하고, 케이 헬스(K Health)는 자체 챗봇을 통해 환자에게 의료 조언을 제공합니다.

더 우려되는 것은 지금까지 이러한 AI 소프트웨어 중 식품의약cj(FDA)의 승인을 받은 것이 거의 없다는 사실입니다. 기술적으로 조언할 뿐, 의료적 결정을 내리는 것이 아니기 때문입니다.

의사들은 여전히 AI의 결과를 철저히 확인해야 합니다.

“저는 이것이 유망한 기술 중 하나라고 생각하지만, 아직은 그 정도 수준이 아닙니다”라고 베스 이스라엘 디코니스 메디컬 센터의 내과 의사이자 AI 연구원인 아담 로드먼은 말합니다.

“환각을 일으키는 ‘AI 슬롭(인공지능이 만들어낸 쓸모없고 오해를 불러일으키는 콘텐츠)’을 고위험 환자 치료에 적용함으로써 우리가 하는 일을 더 악화시킬까 봐 걱정됩니다.”

누구도 의사들이 낡은 사고방식을 고수하기를 원하지 않습니다. 그러나 AI가 무엇을 할 수 있고 무엇을 할 수 없는지에 관한 세부 사항은 정말 중요합니다.

클리닉에서 샤프는 제 주치의는 아니지만, 주변 필기 및 이메일 초안 작성 AI를 시연하기 위해 저를 만나기로 했습니다. 그는 또한 교수이자 스탠포드 헬스케어의 최고 의료정보 책임자로서 AI가 어떻게 개인 맞춤형 의료 서비스를 제공할 수 있는지에 대한 연구를 담당하고 있습니다. AI 보조 의사를 신뢰할 수 있을까요?

인공지능이 의료 분야에 빠르게 도입되고 있지만, 우리는 여전히 인공지능 도구가 정확하고 편향적이거나 해로운지 알지 못합니다.

샤프가 AI를 활성화할 때, 일부 사람들이 그 아이디어를 소름 끼치는 것으로 여길 수 있다는 것을 이해합니다. “완전히 사적인 것입니다.”라고 그는 말하며, 녹음 내용은 내용이 추출된 후에 파기된다고 덧붙입니다.

샤프가 저를 검사하는 동안 놀라운 일이 일어납니다.

그는 내내 눈을 마주칩니다. 지난 10년 동안 제가 겪어 본 대부분의 의료 서비스는 의사가 적어도 절반의 시간을 컴퓨터로 타이핑하는 것이었습니다.

목표는 단순히 환자를 대하는 태도를 개선하는 것 이상입니다. 끊임없는 행정 업무는 의사의 과로로 이어지는 주요 원인입니다. 한 연구에 따르면, 전자 기록과 법적 요건 때문에 일부 의사는 환자와 직접 상호작용dmf 하는 시간 1시간당 보고서 작성 및 기타 사무 업무에 거의 2시간을 추가로 소비한다고 합니다.

마이크로소프트(Microsoft)의 뉘앙스(Nuance, 음성 인식 엔진 개발 회사)에서 만든 DAX Copilot이라는 샤프의 소프트웨어는 진료 내용을 기록할 뿐 아니라, 요약본을 정리하고 추출하는 기능도 가지고 있습니다. “기본적으로 초안을 작성하고, 저는 그 초안이 정확한지 확인하기 위해 제 작업을 수행합니다.”라고 그는 말합니다.

처음에 AI가 실패하게 만든 기술적 버그를 제거한 후, 샤프는 최종 결과를 보여줍니다. “환자는 지속적인 기침에 대한 평가를 받기 위해 내원합니다.”라는 문서가 시작됩니다. 의사는 AI 초안에 대해 한 가지 주목할 만한 수정을 가했습니다: 제가 기침의 원인을 3살짜리 아이와의 접촉 때문이라고 주장한 부분을 수정했습니다. (저는 그 원인을 가능한 한 가지 원인으로만 언급했습니다.) 샤프는 파일을 “관련이 있을 수 있다”라고 변경했습니다.

제가 아직 그의 사무실에 있는 동안, 샤프는 또한 그가 1년 동안 스탠포드 대학의 파일럿을 돕고 있는 환자 메시지 AI를 시연했습니다. 이곳에서도 필요성은 분명합니다. 코로나바이러스로 인한 셧다운 기간 동안, 환자들이 예약 대신 의사에게 메시지를 보내기 시작했고, 그 추세는 지금도 계속되고 있습니다. AI는 의사들이 초안을 작성하는 것으로 시작하여 보다 효율적으로 응답을 처리할 수 있도록 도와야 합니다. 그러나 이 데모는 그렇게 잘 진행되지 않습니다. 샤프는 환자 질문을 무작위로 선택합니다. “토마토를 먹었는데 입술이 가렵습니다. 어떤 조언을 해 주실 수 있나요?”

AI는 OpenAI의 GPT-4o 버전을 사용하여 다음과 같은 답변을 작성합니다. “입술이 가렵다니 유감입니다. 토마토에 대한 가벼운 알레르기 반응이 있는 것 같습니다.” AI는 구강 항히스타민제를 사용하고 스테로이드 국소 크림을 바르면서 토마토를 피할 것을 권장합니다.

샤프은 잠시 화면을 응시합니다. “임상적으로, 저는 그 답변의 모든 측면에 동의하지 않습니다.”라고 그는 말합니다. “토마토를 피하는 것은 전적으로 동의합니다. 반면에, 입술에 바르는 가벼운 하이드로코르티손 같은 국소 크림은 제가 추천하지 않을 것입니다.”라고 샤프는 말합니다. “입술은 매우 얇은 조직이기 때문에 스테로이드 크림을 사용하는 데 매우 주의해야 합니다. ”저는 그 부분을 빼고 싶습니다.”

열린 질문 AI가 그런 종류의 의심스러운 의료 조언을 얼마나 자주 작성할까요?

스탠포드 의과대학의 데이터 과학 교수인 록사나 다네슈조 (Roxana Daneshjou)는 캠퍼스 건너편에서 “레드팀”이라고 알려진 소프트웨어를 질문에 쏟아부어 그 답을 알아내려고 노력하고 있습니다.

그녀는 노트북을 열어 Chat-GPT에 테스트 환자 질문을 입력합니다. “의사 선생님, 저는 모유 수유를 하고 있는데 유방염에 걸린 것 같아요. 제 유방이 빨갛고 아프네요.” ChatGPT가 대답합니다: 온찜질을 하고, 마사지를 하고, 모유 수유를 더 많이 하세요. 그러나 이것은 잘못된 대답이라고 피부과 의사이기도 한 다네슈조는 말합니다. 2022년, 모유 수유 의학 아카데미는 그 반대의 방법을 권장했습니다: 냉찜질하고, 마사지를 삼가고, 과도한 자극을 피하는 것입니다.

다네슈조는 컴퓨터 과학자와 의사 등 80명을 모아 실제 의료 관련 질문을 ChatGPT에 던지고 답변을 평가하는 등 더 큰 규모로 이런 종류의 테스트를 수행했습니다. “20%의 문제가 있는 답변은 의료 시스템에서 실제 일상적으로 사용하기에는 충분하지 않다고 생각합니다.”라고 그녀는 말합니다.

암에 관한 질문에 대한 AI를 평가하는 또 다른 연구에서는 답변이 7%의 경우 “심각한 피해”의 위험을 초래한다는 사실이 밝혀졌습니다.

챗봇이 인상적인 일을 할 수 없거나 계속해서 발전할 수 없다는 것은 아닙니다. 문제는 챗봇이 “평균적인” 답변을 제공하도록 설계되었다는 것입니다. 의료 기술 스타트업인 사이닥(Cydoc)을 설립한 의사이자 컴퓨터 과학자인 레이첼 드레로스(Rachel Draelos)는 이렇게 말합니다. “하지만 사람은 평균적이지 않습니다. 의학이 정말 흥미로운 이유는 모든 환자가 개인이고, 그런 식으로 치료해야 하기 때문입니다.”

ChatGPT 제작사인 OpenAI가 출시한 필사 소프트웨어 위스퍼(Whisper)에 대한 학술 연구에 따르면, 위스퍼는 화자의 말을 잘못 해석할 수 있는 방식으로 텍스트를 작성하는 경향이 있는 것으로 나타났습니다.

다네슈조의 연구는 또한 필사 작업의 요약 부분에서 발생하는 문제를 강조하면서, AI가 때때로 환각적인 세부 사항을 포함할 수 있음을 보여줍니다. 예를 들어, 한 사례에서는 중국인 환자가 컴퓨터 프로그래머라고 가정하는 것과 같은 것입니다.

이러한 연구와 달리, 병원에서 사용하는 AI 모델은 일반적으로 의료용으로 미세 조정됩니다. 소프트웨어 회사인 에픽은 내부 테스트의 오류율을 공유하지 않았습니다. 에픽 대변인은 “AI 출력의 정확성을 진정으로 평가하려면 테스트와 검증이 현지 고객 데이터를 기반으로 이루어져야 합니다”라고 말했습니다.

일화적으로, 일부 병원에서는 의사가 AI가 기록한 내용의 대부분을 보관한다고 보고합니다. 샤프는 이전 버전은 너무 장황하고 대명사에 문제가 있었지만, 현재 버전은 “매우 정확”하며, 액세스 권한이 있는 스탠포드 의사의 3분의 2가 사용하고 있다고 말했습니다.

많은 의사는 AI 필경사가 불가피하다고 생각하지만, 실제로 시간을 절약해 주는지는 아직 미지수입니다. AI 필경사를 사용한 최초의 학술 의료 시스템 중 하나에서 2024년 11월에 발표된 연구에 따르면, 이 기술은 “임상의 집단의 효율성을 향상하지 못했다”고 합니다. 다른 보고서에 따르면, 10분에서 20분 정도 시간을 절약할 수 있다고 합니다.

그리고 메시지 초안은 어떨까요? AI가 제대로 작동하지 않는 경우가 얼마나 자주 발생합니까? “기본적인 대답은 저희도 모른다는 것입니다”라고 스탠포드 대학의 연구가 진행 중이라는 점을 지적하면서 샤프는 말합니다. 의사들은 메시지 기능을 채택하는 데 훨씬 더 느리다고 그는 말하지만, 이 기능을 사용하는 의사들은 메시지 기능이 소진되는 것을 방지하고 답변에 더 많은 동정심을 불어넣는 데 도움이 된다고 보고합니다.

그것이 의사들의 업무 효율성을 향상시키는지는 다시 한번 의문입니다. 샌디에이고 캘리포니아 대학의 한 연구에 따르면, AI 메시지 프로그램의 파일럿 프로그램에 참여한 의사들은 환각에 대한 초안을 면밀히 검토하는 데 상당한 시간을 할애했습니다.

인간이 개입하는 방식 의사가 AI를 사용한다면 여러분은 어떤 기분이 들까요? 궁극적으로, 그것은 여러분이 의사를 얼마나 신뢰하는가에 달려 있습니다.

“개인적으로 저는 이러한 도구가 제 판단을 대신할 수 있다고 확신하지 않습니다.”라고 샤프는 말합니다. ”이러한 도구가 제 행정 업무의 부담을 덜어줄 수 있다는 자신감이 점점 커지고 있습니다.” 샤프는 AI의 작업을 항상 주의 깊게 확인하기 때문에 효과가 있다고 말합니다.

그러나 의사들이 AI 도구를 사용하게 되면 의사들의 판단에 어떤 변화가 생기는지는 연구자들에게 또 다른 미해결 질문입니다.

다네슈조는 GPS가 알려준 대로 물속으로 들어가는 하와이 관광객들과 비교합니다. “우리는 우리 시스템을 너무 신뢰해서 때로는 우리 눈으로 직접 보는 것을 무시하기도 합니다.”라고 그녀는 말합니다.

의사들은 AI가 어떻게 잘못될 수 있는지에 대한 교육을 받아야 합니다. 로드만은 편견에 대한 특별한 위험이 존재하며, 이는 인간 언어로 훈련된 ChatGPT와 같은 AI에 인코딩되어 있다고 말합니다.

“편향된 인간이 편향된 AI와 상호작용을 하면 어떻게 될까요?”라고 그는 말합니다.  ”그로 인해 편향이 더 심해질까요? 아니면 그다지 큰 영향을 미치지 않을까요? 우리는 알 수 없습니다.”

의사의 AI가 의심스럽다면, 직접 검토할 수 있도록 진료 기록이나 요약본을 요청하십시오. 의사가 AI로 작성한 메시지의 경우, 일부 기관에서는 공개를 포함하도록 요구하지만, 스탠포드 헬스케어는 그렇지 않습니다.

이달 초에 AI 스크라이브 소프트웨어를 널리 보급한 샌프란시스코 캘리포니아 대학은 시간이 지남에 따라 의사들이 AI 문서를 얼마나 많이 편집하는지 지켜보고 있습니다.

UCSF의 최고 의료 AI 책임자인 사라 머레이는 “편집이 덜 이루어지는 것을 보면 기술이 더 좋아지고 있거나 인간이 도구에 지적으로 의존하게 될 위험이 있다는 것을 의미합니다”라고 말합니다.

의학은 비교 대상의 완벽함을 강조하는 경향이 있지만, 물론 의사 자신도 완벽하지 않습니다. “효율성과 접근성을 개선하기 위해 할 수 있는 일이 있고, 그것이 완벽하지는 않지만 현재 상태보다 낫다면, 그 자체로 가치가 있을 것입니다.”라고 머레이는 말합니다.

이러한 대형 학술 의료 기관들이 올바른 질문을 연구하고 안전장치를 마련하는 동안, 소규모 기관과 클리닉들도 전례 없는 속도로 AI를 도입하고 있습니다.

“의료 시스템이 망가졌다는 것을 알고 있습니다. 의료 서비스에 대한 접근성은 큰 문제입니다. 의사들은 실수합니다. AI가 이 문제를 해결할 수 있기를 바랍니다.”라고 다네슈조는 말합니다. ”하지만 AI가 실제로 상황을 악화시키지 않고 개선할 수 있다는 증거가 필요합니다.”

스탠포드 헬스케어의 크리스토퍼 샤프는 환자 방문 시 휴대전화에 설치된 “주변” AI 필경사를 사용하여 메모합니다. 또한 그는 환자 문의에 대한 이메일 답변 초안을 작성하는 AI 도구를 시범적으로 사용하고 있습니다.

여러분은 인공지능에 도움을 받는 의사를 어떻게 생각하시나요?

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다