35. 인공지능에서 ‘치매’ 위험 유사성을 발견

인지 과제를 수행하는 인공지능의 능력에 대한 가벼운 연구가 의료 분야에서 인공지능과 의사의 역할에 대한 의문을 불러일으켰습니다.

노화 기술

이스라엘의 연구원들은 임상 의사 결정을 안내하는 인공지능의 능력에 대한 연구에 착수했고, 노화 인공지능과 인간의 뇌에서 나타나는 ‘치매’ 위험의 유사성을 발견했습니다.

이스라엘의 신경학자들이 미국 대통령들의 정신 건강을 평가하는 데 사용되는 인지 검사를 주요 인공지능 챗봇에 적용한 연구가 농담으로 시작되었지만, 임상적 의사 결정을 안내하는 데 점점 더 많이 사용되는 기술의 “진짜 결함”을 발견했다고 공동 저자인 로이 다얀 박사가 뉴스위크와의 인터뷰에서 밝혔습니다.

2025년 2월 21일 자, 미국에서 발간한 주간 잡지 뉴스위크(News Week)에서는 36면부터 39면까지 4면에 걸쳐 〈 The AI will See You Now (인공지능(AI)이 지금 당신을 지켜볼 것입니다) 〉라는 기사가 실렸습니다. 이 기사의 핵심은 인공지능에서 ‘치매’ 위험의 유사성을 발견했다는 것입니다. 문제는 인공지능을 의료 분야에서 사용 범위를 늘려가고 있는데, 치매의 위험을 갖고 환자에게 접근한다는 것은 큰 문제가 아닐까요? 뉴스위크의 의료 담당 편집자인 알렉시스 카이저의 기사입니다.

뉴스위크는 기사를 통해 “예루살렘의 하다사 의료 센터의 신경과 전문의인 다얀은 그와 그의 동료들이 인공지능(AI)이 의사보다 더 우수한 성능을 발휘한다는 수많은 연구에서 영감을 받았다고 말했습니다. 지난 2년 동안의 연구에 따르면, 챗(Chat)GPT는 MCAT(미국 의학대학원 입학시험으로 Medical College Admission Test의 약자)와 미국 의료 면허 시험을 통과할 수 있는 것으로 나타났습니다. 대규모 언어 모델(LLM)은 특정 전문 분야의 의사보다 더 정확한 진단을 내릴 수 있으며, 디지털 문의를 처리할 때 더 높은 환자 만족도 점수를 받을 수도 있습니다.”라고 전하고 있습니다.

국제 의학 저널과 주요 언론 기관들은 인공지능이 결국 의사를 대체할 것인지에 대해 심도 있게 논의했습니다. IT 서비스 및 컨설팅 회사인 커스터머 타임스(Customer Times)가 2024년 6월에 실시한 설문조사에 따르면, 소비자의 10%가 가까운 미래에 인공지능(AI)이 필요하다고 생각하고 있습니다. 인공지능(AI)이 주도권을 잡으려면 충분한 검증이 필요하다고 다얀(Dayan)은 주장합니다: “인지 기능 저하가 의심되는 환자를 검사하는 방식과 같이, 저희의 도구로 챗(Chat)GPT를 검사하는 것이 흥미로울 것이라고 생각했습니다.”

AI에 치매가 있습니까?

다얀과 그의 동료들(하다사 의료 센터의 선임 신경과 의사이자 인지 전문가인 벤자민 울리엘 박사, 텔아비브 대학의 선임 데이터 과학자이자 런던에 기반을 둔 퀀텀블랙 애널리틱스의 갈 코플리비츠)은 몬트리올 인지 평가(Montreal Cognitive Assessment, MoCA)를 5개의 주요 대규모 언어 모델(LLM, 챗GPT-4, GPT-4o, 클로드, 제미니 1, 제미니 1.5)에 실시했습니다. 이것은 환자에게 다양한 간단한 작업을 제공함으로써 인지 장애를 평가합니다. 예를 들어, 이 입방체 그림을 복사하세요. “F”로 시작하는 단어를 최대한 많이 말하세요. 100에서 7을 빼서 0이 될 때까지 세세요.

다얀의 놀랍게도, 어떤 모델도 30점 만점을 받지 못했습니다. 대부분의 점수는 18점에서 25점 사이로, 초기 치매와 관련된 가벼운 인지 장애를 나타냅니다. 모든 모델이 주의력과 기억력 관련 과제는 평균적인 사람보다 잘 수행했지만, 우주에서 방향을 잡거나 그림을 그리는 것과 같은 시각 공간 과제는 제대로 수행하지 못했습니다.

연구자들은 또한 보스턴 진단 실어증 검사 “쿠키 도둑질” 그림을 챗봇에게 보여줬습니다. 이 그림은 어머니가 설거지를 하는 동안 쿠키를 훔치기 위해 의자에 서 있는 소년의 모습입니다. 환자는 이 상황을 묘사하고, 분석가는 환자의 언어 및 언어 기능을 평가합니다. 연구에 따르면 모든 모델이 이미지의 일부를 올바르게 해석했지만, 소년이 곧 넘어질 것이라는 우려를 표한 모델은 없었습니다. 연구 저자들은 이러한 공감의 부족이 전두측두치매와 관련이 있다고 말했습니다. 특히 구형 모델은 최신 버전보다 MoCA(Montreal Cognitive Assessment, 경도인지장애검사)에서 더 낮은 점수를 받았습니다. 저자들은 노화 인공지능(AI)과 인간 두뇌의 “치매” 위험 사이에 유사점을 발견했습니다.

2024년 12월 연구는 세계에서 가장 엄격한 의학 저널인 영국의학저널(The BMJ)의 크리스마스 에디션을 위해 수행되었으며, 모든 기사는 철저한 동료 평가 과정을 거쳤습니다. 이 연구는 축제 에디션에 대해서도 동일한 기준을 적용하지만, 더 창의적이고 “가벼운 내용”을 포함합니다.

데이얀은 이 연구가 좀 더 “농담조로” 쓰였다고 말했습니다. 방법론적으로, 법학석사 과정은 사람을 대상으로 하는 방법으로 시험해서는 안 됩니다. 그러나 그는 이 연구 결과가 인공지능과 인간 의사 사이의 차이점에 대한 대화를 촉발하고, 둘 다 중요한 역할을 할 수 있다는 것을 보여줄 수 있기를 희망합니다.

진단을 내릴 때 시각 공간 인식은 중요합니다. 특히 신경과 같은 전문 분야에서는 답이 표면 아래에 숨겨져 있을 수 있기 때문에 더욱 그렇습니다. 다얀은 환자의 신체 언어와 억양을 통해 진단을 내립니다. 인공지능(AI)은 환자의 말에 반응할 수 있지만, 그들이 말하는 방식도 마찬가지로 중요합니다.

공감도 역시 중요합니다. 연구에 따르면 공감은 건강과 회복에 긍정적인 영향을 미칩니다. 2024년에 발표된 한 연구에 따르면 만성 통증 환자의 경우, 의사들의 공감 능력이 오피오이드 치료, 요추 수술, 비약물 치료보다 긍정적인 결과와 더 밀접한 관련이 있는 것으로 나타났습니다. ChatGPT가 의사들을 능가하는 방법을 보여주는 기사가 쏟아지는 가운데, “사람들은 즉시 ‘좋아, 그럼 의사는 쓸모가 없어졌군’이라고 말했습니다”라고 Dayan은 말했습니다. “우리는 여전히 사람과 사람의 상호 작용이 필요하다는 것을 보여 주려고 노력했습니다.”

인공지능과 공감에 대한 견해

이 연구는 의사들과 의료계 경영진들로부터 다양한 반응을 이끌어냈습니다. 퍼머넌트 메디컬 그룹의 전 CEO이자 현재 스탠포드 의과대학의 성형외과 임상 교수이자 스탠포드 경영대학원 교수인 로버트 펄 박사는 이 연구와 다른 결론을 내렸습니다. 법학석사 과정의 단점은 노인의 인지 기능 저하가 아니라, 어린이의 인지 발달을 떠올리게 했다고 그는 말했습니다.

인공지능(AI)는 단기간에 상당한 발전을 이루었다고 펄은 뉴스위크와의 인터뷰에서 말했습니다. ChatGPT는 2년 전에 출시되었고, 만 2세에 이 정도로 똑똑하다면 5살짜리 아이가 방탕하게 자란 것과 다름없을 것입니다. 펄은 AI를 아직 배워야 하는 의대생으로 취급합니다. 그는 학생이 확실한 진단을 내리고 치료를 처방하는 것을 결코 믿지 않지만, 연구 보조원으로서는 신뢰하고 항상 그 작업을 다시 확인합니다. 사실, 펄은 2024년 4월에 출판된 그의 저서, 《ChatGPT, MD: How AI-Empowered Patients & Doctors Can Take Back Control of American Medicine》에서 의대생처럼 ChatGPT와 협력하여 글을 썼습니다. 펄은 ChatGPT가 제공한 정보의 98%가 “훌륭했다”고 말했지만, 나머지 2%는 환각에 가까운 정보였다고 말했습니다.

그럼에도 불구하고 그는 이 기술이 점점 더 강력해지고 있으며, 결국 매년 많은 생명을 구할 것이라고 믿습니다. “제가 가장 걱정하는 것은 오늘날 우리 사회가 의학의 수많은 실패를 무시하고 있다는 것입니다.”라고 펄은 말했습니다. “매년 40만 명의 사람들이 오진으로 사망합니다. 저는 우리가 이 기술로 그 수를 줄일 수 있는 방법을 찾아야 한다고 생각합니다.”

AI는 또한 의사들의 소진을 줄여주고, 일상 업무를 전환시켜 의사들이 진료의 인간적인 측면에 집중할 수 있도록 해줍니다.

“환자들은 여러분의 전문성을 매우 높이 평가합니다. 그러나 대부분의 경우, 그들은 의사의 공감, 대면 관계, 은유적인 손잡기를 원합니다.”라고 펄은 말했습니다. 다트머스 의과대학의 신경과학 부교수이자 컴퓨터과학과의 부교수인 토마스 테센 박사도 이 연구에서 비슷한 결론을 도출했습니다.

“이러한 모델들에게 인간을 실제로 테스트하는 방식에 대한 다중 모드 테스트를 하도록 요청하는 것은 계산기에 팔굽혀펴기를 하라고 요청하는 것과 비슷합니다.”라고 테센(Thesen)은 뉴스위크(Newsweek)에 말했습니다. ”계산기는 팔굽혀펴기를 할 수 없지만, 계산기가 훈련을 받았거나 계산기가 수행하도록 설계된 다른 작업은 잘 수행할 수 있습니다.”

그러나 이 연구는 다트머스 의과대학 교수진이 고민해 온 중요한 질문을 제기한다고 테센은 말했습니다. 이 대학의 커리큘럼은 의대생들에게 디지털 건강과 인공지능(AI) 도구를 책임감 있게 다루는 방법을 가르칩니다. 어떤 경우에는 인공지능(AI)이 공감 능력을 키우는 데 도움이 된다고 테센은 말했습니다. 그는 인공지능(AI) 모델을 사용하여 환자 상호 작용을 시뮬레이션함으로써 학생들을 교육합니다. 인공지능(AI)은 환자의 침대 옆에서 환자를 대하는 태도에 대한 피드백을 제공하여 환자의 고통을 인정하거나 좀 더 개방적인 질문을 하도록 유도합니다. 그러나 테센에 따르면 로봇이 결코 흉내낼 수 없는 수준의 공감 능력이 있습니다.

“나를 돌봐주는 사람이 있다는 생각은 사람들의 행동, 환자의 순응도, 그리고 치료 관계에 대한 일반적인 전망에 큰 영향을 미칩니다.”라고 그는 말했습니다. ‘이 효과를 인공지능(AI)에만 아웃소싱하면 이러한 효과를 잃게 될 것 같습니다.’

다트머스 의과대학 입학처 부학장인 로시니 핀토-파월 박사는 테센의 우려에 대해 자세히 설명했습니다. 연구 결과에 따르면 환자들은인공지능(AI)이 의사보다 더 공감적으로 질문에 답한다고 보고하는 경우가 많습니다. 그러나 핀토-파월(Pinto-Powell)에 따르면 인간과 기술의 공감 표현 사이에는 중요한 차이가 있습니다.

‘중요한’ 요소

인지적 공감은 사람의 고통을 이해하는 것이고, 정서적 공감은 그 고통을 느낄 수 있게 해준다고 그녀는 말했습니다. 임상적 공감은 정서적 공감을 한 단계 더 발전시킨 것으로, 의사가 환자의 고통에 대해 뭔가를 하도록 동기를 부여합니다.

인공지능은 정서적 또는 임상적 공감 능력을 결코 이해할 수 없을 것이라고 핀토-파월은 말했습니다. “그리고 저는 임상적 공감 능력이 매우 중요하다고 생각합니다.” 따라서 그녀는 인공지능이 조만간 그녀의 일자리를 빼앗아갈 것이라는 영국의학저널(BMJ) 연구의 결론에 동의합니다.

의사들은 ChatGPT가 의사보다 더 잘한다고 생각하면 걱정하는 경향이 있습니다. 그러나 핀토-파월(Pinto-Powell)이 의과대학 지원서를 면밀히 검토할 때, 그녀는 높은 미국 의학대학원 입학시험(MCAT) 점수를 찾는 것이 아니라 노력, 봉사, 임상 실습, 지도력 등을 찾습니다. 그리고 사람을 깊이 배려하는 지원자들에 대해서는 인공지능(AI)이 경쟁할 수 없습니다. “모든 것을 알고 있다고 생각하는 뛰어난 학생을 받아들이고 싶지 않습니다.”라고 그녀는 말했습니다. “그런 학생이 가장 위험한 학생입니다.”