생각하는 AI의 출현? ‘왜’ 앞에서 멈춘 ‘영리한 한스’ 일뿐 > 뉴스룸

본문 바로가기
사이트 내 전체검색
한겨레경제사회연구원 바로가기

뉴스룸

뉴스룸

생각하는 AI의 출현? ‘왜’ 앞에서 멈춘 ‘영리한 한스’ 일뿐

페이지 정보

profile_image
작성자 최고관리자
댓글 0건 조회 50회 작성일 25-12-22 09:08

생각하는 AI의 출현? ‘왜’ 앞에서 멈춘 ‘영리한 한스’ 일뿐

작성일 25-12-22 조회수 50

본문

공유하기

  • 구글플러스로 공유
  • 페이스북으로 공유
  • 트위터로  공유

인공지능이 사람처럼 사고하고 추론하는 능력까지 지닐 수 있을까?

최근 인공지능 기업들이 잇따라 최신 모델을 발표하면서 심층 사고와 추론 기능을 홍보하고 있다. 챗지피티(GPT)5.2, 제미나이3.0, 클로드 3.7 소네트 등 최신 인공지능 모델은 추론 기능 강화를 공통으로 내세운다. 이들 인공지능 모델은 또한 이용자들이 인공지능이 생각하고 추론하는 것처럼 느끼도록 서비스 방식도 바꿨다. 인공지능의 답변 방식에서 ‘깊이 생각하기’ ‘사고 모드’를 선택하면 ‘생각의 사슬(chain of thought)’ 프롬프트를 통해 인공지능이 단계별로 자료 조사, 추론하는 과정을 이용자에게 보여준다. 언뜻 보기에 인공지능이 사고하고 추론하는 기능을 보유한 것처럼 느껴진다. 최신 인공지능 모델들은 ‘환각’으로 불리는 거짓말 답변이 크게 줄었고, 각종 성능테스트(벤치마크)에서 이전보다 크게 개선된 성적을 보여준다. 이들 최신 모델은 과학분야의 박사급 고난도 시험(GPQA)에서 인간 박사(70%수준)보다 훨씬 높은 성적(90%대)을 얻었고, 과학올림피아드 등에서도 금메달 점수를 기록해 화제가 됐다.

최신 모델의 치명적 한계

하지만 인공지능은 최신 모델들이 과시하는 기능 개선에도 불구하고 여전히 치명적 한계를 지니고 있다. 상관 관계를 인과적 관계로 잘못 판단하는 현상이 대표적이다. 현재의 인공지능 모델은 방대한 데이터에 대한 기계학습을 통해 반복되는 패턴을 찾아내고 통계적 연관성을 기반으로 예측이나 판단을 내리는 구조다. 예측과 판단에서 뛰어난 정확도를 보여 사람 지능보다 앞선 것처럼 보이지만, 인공지능은 의미 이해나 인과적 추론은 하지 못 한다. 현재 인공지능이 추론하는 것처럼 보이는 능력도 사실은 패턴 인식에 불과하다는 주장이 제기된다.

아이동 장 버지니아대 교수진이 지난 10월 아카이브(arXiv)에 업데이트한 ‘영리한 한스 신기루’ 논문은 인공지능의 추론 기능이 허위 상관관계 오류를 벗어나지 못하는 상황을 정리했다. 인공지능은 기계학습을 통해 ‘무엇이 함께 나타나는가’를 학습할 뿐, ‘왜 그런 일이 생기는가’를 이해하거나 추론하지 못하기 때문에, 다양한 오류를 벗어나지 못한다는 게 ‘영리한 한스 신기루’ 논문 내용이다. 인공지능이 그럴듯해 보이는 상관관계를 잘못된 인과 관계로 판단하는 오류는 20세기 초 독일에서 산수 문제를 푼다고 알려졌던 말 ‘영리한 한스’와 비슷하다고 해서 붙은 이름이다. 이 말은 사람이 산수 문제를 내면 정답 앞에서 발굽을 구르며 문제를 맞춰 ‘영리한 한스’로 불렸다. 그런데 한스는 산수를 이해해서 정답을 맞힌 게 아니라 사람들이 정답 앞에서 긴장하고 표정이 변화하는 것을 읽어내고 반응한 것이라는 게 밝혀지며 해프닝으로 끝났다.

1904년 청중 앞에서 ‘산수’ 실력을 보여주고 있는 말 ‘한스’. 위키미디어커먼즈 제공
1904년 청중 앞에서 ‘산수’ 실력을 보여주고 있는 말 ‘한스’. 위키미디어커먼즈 제공

지능의 핵심은 인과적 이해

기계학습의 딥러닝은 데이터에서 복잡한 연관성을 패턴화하는데는 뛰어나지만, 이 과정에서 본질적인 특징보다는 특정한 배경이나 소품 같은 비본질적인 요소를 지름길로 택해 학습한다. 예를 들어, 소를 분류할 때 소의 생김새가 아닌 들판 배경을 특징으로 학습하는 경우다. 이럴 경우 소가 사막에 있다면, 인공지능은 낙타로 오인할 가능성이 크다. 거리 풍경에 소화전이 없어도 학습 데이터에서 거리와 소화전이 자주 같이 등장했다면 인공지능 모델은 소화전이 있다고 오판한다. 거대언어모델의 환각 현상이 생기는 배경이다.

의료 인공지능이 흉부 엑스선 촬영으로 폐렴을 진단할 때 실제 폐의 병변을 학습하는 것이 아니라, 특정 병원에서 사용하는 마크나 비품을 병의 지표로 잘못 학습하는 사례도 보고됐다. 이러한 잘못된 상관관계를 인과 관계로 판단하면 치명적 오류로 이어진다. 폐렴 사망 위험을 예측해 치료하는 인공지능 모델을 만들었더니, 천식 환자는 오히려 사망 위험이 낮다는 결과가 나왔다. 그 원인은 천식이 나타난 폐렴 환자는 즉시 중환자실로 보내 집중치료를 받게 했기 때문인데, 이로인해 천식 증상은 사망률을 낮춘다는 잘못된 결론이 도출된 셈이다.

2011년 튜링상을 받은 저명한 컴퓨터과학자 주데아 펄은 지능의 핵심이 ‘인과적 이해’이며, 사람은 누구나 인과적 사고모델을 갖고 태어난다고 주장한다. 펄은 딥러닝과 거대언어모델(LLM)이 인과 관계를 이해하지 못하고 통계적 연관성에만 의존하기 때문에 범용인공지능(AGI) 도달을 오히려 늦췄다고 본다.

펄은 인과적 사고가 3단계의 사다리 구조로 돼 있다고 말했다. 1단계는 ‘관찰과 상관관계의 영역’으로, 파블로프의 개처럼 종소리와 먹이의 연관성을 파악하는 방식이다. 인공지능이 뛰어난 영역이다. 2단계는 ‘능동적 개입의 영역’으로 “만약 금연을 하면 몸 상태가 어떻게 달라질까” 같은 질문을 하고 추론하는 능력이다. 인과적 사고의 정점인 3단계는 ‘반대되는 사실적 추론과 상상의 영역’이다. “만약 드론이 평양을 침투 때 북한군이 무력 보복에 나섰다면 어떤 상황이 펼쳐졌을까?”와 같은 상상과 추론을 해보는 수준이다.

추론 기능을 내세우는 현재의 인공지능 모델은 1단계를 넘어 2단계에 도달했거나 직전 단계로 여겨진다. 펄은 현재 인공지능 모델이 일부 인과적 추론 능력을 지녔지만, 이는 훈련데이터 자체에 인과 정보가 포함돼 있기 때문이라고 말한다. 펄에 따르면, 상관관계 파악에 뛰어난 인공지능과 인간이 다른 지점은 “왜?”를 묻고 “그걸 하지 않았더라면 어떻게 됐을까”를 상상하며 추론할 수 있는 고유한 능력에 있다.

구본권 사람과디지털연구소 객원연구위원 starry9@hani.co.kr

목록으로 이동

회원로그인

회원가입