AI는 인간처럼 분위기를 읽지 못합니다

신체 언어를 이해하는 능력은 여전히 AI에게 큰 과제입니다

AI가 하지 못하는 한 가지?

바로 몸짓 언어를 읽는 일입니다.

인공지능이 신체적인 단서를 얼마나 잘 해석하는지를 알아보기 위해, 존스홉킨스대학교의 연구진은 인간과 AI 모델을 비교하는 실험을 진행하였습니다. 연구진은 사람들과 AI에게 두 사람이 서로 상호작용하고 있는지 여부를 보여주는 짧은 영상과 이미지를 제시하고, 그 장면 속 인물들이 실제로 서로 교감하고 있는지를 평가하도록 했습니다. 미국의 일간지 월스트리트저널은 2025년 5월 23일〈AI는 인간처럼 분위기를 읽지 못합니다 「AI Can’t Read The Room Like Humans Can」〉라는 제목으로 에릭 나일러(Eric Niiler) 기자가 보도했습니다.

사람과 AI는 장면 속에서 사회적 상호작용을 판단하는 데 도움이 되는 다양한 요소들—예를 들어, 서로 얼마나 가까운 거리인지, 어떤 행동을 하고 있는지 등을—1부터 5까지의 점수로 평가했습니다.

예를 들어, 한 영상에서는 요리사가 자신을 바라보는 여성에게 말을 걸었고, 또 다른 영상에서는 아버지가 공방에서 아이와 이야기를 나누며 아이를 껴안았습니다. 한 정지 이미지에서는 테니스 선수가 공을 치기 위해 자세를 잡고 있고, 선심이 그 뒤에서 웅크리고 있습니다.

사람들은 장면 평가에서 대체로 일치하는 경향을 보였지만, AI는 그렇지 못했습니다. AI 영상 모델은 인물들이 무엇을 하고 있었는지 정확하게 평가하지 못했고, 이미지 모델은 그들이 실제로 서로 소통 중이었는지를 신뢰할 수 있게 판단하지 못했습니다.

이 연구 결과는 지난 4월 국제학회인 *학습 표현에 관한 국제회의(International Conference on Learning Representations)*에서 발표되었으며, 356개의 오픈소스 이미지 및 영상 AI 모델과 1,910명의 인간 참여자 간의 결과를 비교했습니다. 연구진은 AI가 인간의 사회적 시각 인식을 모방하는 데 큰 격차가 있음을 확인했습니다.

“인간은 두 사람이 상대적으로 무엇을 하고 있는지를 정말 예민하게 파악합니다,”라고 이 연구의 공동 저자인 존스홉킨스대학 인지과학과의 레일라 아이식(Leyla Isik) 교수는 말했습니다. “우리가 컴퓨터 비전 시스템을 훈련시키는 방식은, 그러한 단서를 쉽게 포착하도록 설계되어 있지 않습니다.”

그녀는 이어 “이 문제는 앞으로 더 많이 고민하고, 어쩌면 AI 모델 자체를 보다 인간답게 만들기 위한 구조로 바꾸어야 할 문제일 수도 있다”고 덧붙였습니다.

AI는 방대한 양의 데이터를 학습할수록 더 정교해지지만, 이번 연구의 한계는 데이터 규모가 작았다는 점이었습니다. 연구는 총 250개의 3초짜리 영상 클립을 사용했으며, 일부는 정지 이미지로도 활용되었습니다.

구글 딥마인드(Google DeepMind)의 연구원 라두 소리쿠트(Radu Soricut) 박사는 이번 연구에는 참여하지 않았지만, 현재의 AI 프로그램들이 사회적 단서를 잘 감지하지 못한다는 데 동의했습니다. 그러나 그는 AI가 점차 안경, 로봇 등 다양한 기기에 탑재되고 더 많은 정보를 수집하게 되면, 사회적 단서를 읽는 능력 또한 발달할 것으로 예측했습니다.

그는 이렇게 말했습니다.

“언젠가 AI는 사회적 단서를 잘 읽지 못하는 사람들조차 도와줄 수 있을 것입니다. 모든 사람이 ‘분위기를 읽는 데’ 능숙한 것은 아니니까요. 대화가 엉뚱한 방향으로 흘러가는 상황에서 이를 감지하고 방향을 되돌려줄 수 있는 인공지능 도우미는 굉장히 유용할 수 있습니다.”