“믿을 수 없을 만큼 똑똑, 충격적으로 멍청” 인공지능, 소라는 다를까? > 뉴스룸

본문 바로가기
사이트 내 전체검색
한겨레경제사회연구원 바로가기

뉴스룸

뉴스룸

“믿을 수 없을 만큼 똑똑, 충격적으로 멍청” 인공지능, 소라는 다를까?

페이지 정보

profile_image
작성자 최고관리자
댓글 0건 조회 79회 작성일 24-03-04 11:00

“믿을 수 없을 만큼 똑똑, 충격적으로 멍청” 인공지능, 소라는 다를까?

작성일 24-03-04 조회수 79

본문

공유하기

  • 구글플러스로 공유
  • 페이스북으로 공유
  • 트위터로  공유

‘소라’ 가 불지핀 범용 인공지능 논란
고품질 동영상 생성 도구 소라
“현실세계 이해·모사능력 지녀”

여전히 ‘확률적 앵무새’라는 비판
“이해없이 확률높은 답 제시할뿐”

인간인지와 달리 ‘세계모델’ 부재
“딥러닝 아닌 딥언더스탠딩 필요”


지난달 15일 오픈에이아이는 문장으로 명령어를 입력하면 최대 1분 길이의 고품질 동영상을 생성하는 인공지능 ‘소라’를 공개했다. 글쓰기에서 챗지피티가 가져온 충격이 소라의 영상으로 재현되는 듯하다. 인간이 범접하기 어려운 생산 속도도 놀랍지만, 마치 움직이는 물리적 세상의 법칙을 이해한 것처럼 작동해 범용 인공지능(AGI)으로 가는 길을 단축했다는 평가가 나온다.

소라의 ‘이해’ 능력

‘화려한 벚꽃 잎이 눈송이와 함께 흔 날리는 도쿄의 골목길’이라는 명령어가 주어지자 ‘소라’는 눈꽃과 벚꽃이 공존하는 마법 같은 순간의 도쿄 영상을 만들어냈다. 이처럼 놀랍도록 생생하고 정교한 동영상 20개를 소라는 불과 4일 만에 뚝딱 만들었다. 동일한 프롬프트를 약간만 변형하면 챗지피티는 단편 소설을, 달리(DALL·E)는 만화책 패널을, 소라는 동영상을 만들 수 있어 ‘원소스 멀티 유즈’도 가능해진 셈이다.

기존의 동영상 생성 도구와 달리, 소라는 프롬프트의 논리를 이해하고 또 물체들의 움직임, 작동방식도 이해해 자연스러우며 현실 세계에 더 근접했다는 평가를 받는다. 오픈에이아이에 따르면 “사용자가 프롬프트에서 요청한 내용뿐만 아니라 이러한 것들이 실제 세계에 어떻게 존재하는지도 이해한다.” 소라는 영화 문법을 이해하며 스토리텔링도 뛰어나, 시간에 따라 펼쳐지는 3차원 장면을 개념화하는 방식으로 작업을 수행한다는 점도 강조한다. 오픈에이아이는 “소라가 현실 세계를 이해하고 그려내는 능력을 갖춘 것은 범용 인공지능을 개발하는 데 중요한 이정표가 될 것”이라고 밝혀 관심이 뜨겁다.

하지만 일부 동영상에서는 물리 법칙이 맞지 않고 사물이 거꾸로 날아가는 등의 현상이 발생해 소라의 ‘이해’ 능력에 의문이 제기됐다. 오픈에이아이도 “영상에서 사람이 쿠키를 한 입 베어 물었지만 나중에 쿠키는 작아지지 않았다”며 시간에 따른 인과관계를 정확히 묘사하지 못하는 한계를 인정한 바 있다.

동영상 생성 도구 ‘소라’의 프롬프트에 도쿄 거리를 걷는 여성에 관한 내용을 상세히 입력하자 생성된 영상의 한 장면. 오픈AI 제공
동영상 생성 도구 ‘소라’의 프롬프트에 도쿄 거리를 걷는 여성에 관한 내용을 상세히 입력하자 생성된 영상의 한 장면. 오픈AI 제공

‘확률적 앵무새’의 한계

챗지피티와 같은 거대 언어모델은 놀랄만한 ‘그럴듯함’으로 충격을 주었지만 질문을 이해하고 답변한 것이 아니라 통계적으로 가장 가능성이 높은 답을 제시한다는 점에서 ‘확률적 앵무새’로 표현되어왔다.

세계적인 에스에프 작가 테드 창은 지난해 6월 ‘파이낸셜타임스’와 인터뷰에서 “챗지피티는 거대한 분량의 텍스트를 통계적으로 분석해 결과물을 내놓는다. 놀랍긴 하지만 지능을 지녔다고 볼 수는 없다”며 “애초에 인공지능(artificial Intelligence)이란 단어에 문제가 있으며, 응용 통계학(applied statistics)이라고 부르는 게 정확하다”고 주장한 바 있다. 거대 언어모델은 학습한 텍스트를 흐릿하게 모방하고, 문법 규칙을 따르는 단어 순서를 재배열한 것에 가깝다. 다만 기존의 것과는 약간 다른 재료로 구성되어 있어 마치 ‘이해’하는 것처럼 보인다는 것이다. 소라 역시 챗지피티와 마찬가지로 거대 언어모델에 기반을 둔다는 점에서 이런 한계를 벗어나기 어렵다는 평가가 나온다.

지난해 ‘타임’이 발표한 ‘인공지능 영향력 100인’에 선정된 최예진 미국 워싱턴대 교수도 “지금의 인공지능은 믿을 수 없을 정도로 똑똑한 동시에 충격적으로 멍청하다”며 “엄청난 양의 데이터를 마구 집어넣어서 인공지능을 가르치다 보니 생긴 어쩔 수 없는 부작용”이라고 지적했다. 가장 큰 문제는 이해와 추론, 상식의 부재인데, 이를 극복하기 위해 ‘델파이 프로젝트’를 주도한 최 교수는 빠른 계산 능력 대신, 상황을 종합적으로 판단하는 ‘현명함’을 가르치고자 한다.

세계 모델

저명한 인공지능 연구자이자 인지심리학자인 개리 마커스 뉴욕대 명예교수도 ‘엠아이티(MIT)테크놀로지 리뷰’ 인터뷰에서 “소라는 환상적이지만 범용 인공지능에 필요한 물리적 추론으로 향하고 있다기보다는 변형과 접합에 가깝다”며 “소라는 여전히 상식을 이해하지 못한다”고 꼬집었다.

마커스 교수는 인간과 거대 언어모델의 차이는 ‘세계 모델’에 있다고 말한다. “인간은 세상에 대한 내부 모델을 가지고 있다. 눈을 감아도 사물이 어디에 있는지 알 수 있고, 상대와 이야기할 때도 나의 설명, 상대의 반응 등을 머릿속에 그리고 있다. 길을 걸을 때도 차량·보행자가 어디쯤 와 있는지 모델을 만들고 있다”며 이러한 세계 모델이 가능한 것은 인간의 이해 능력 덕분이라고 짚는다. 마치 철학자 칸트가 인간의 인식은 이미 세계를 이해할 수 있는 ‘그릇’, 즉 선험적 인식 형식이 인간 내부에 있고, 외부 경험과 결합해 이루어진다고 한 것과 비슷하다.

마커스 교수는 지금 거대 언어모델, 신경망 모델은 세계 모델이 부재하고, 자동 완성 기능에 의존하기 때문에 신뢰할 수도 진실하지도 않다면서, “진실에 이르기 위해서는 더 많은 데이터와 딥러닝이 아니라 ‘딥언더스탠딩’이 필요하다”고 강조한다.

소라의 등장은 보는 것을 통해 믿음을 형성해온 인간 인지에 중대도전으로 여겨진다. 특히 2024년 선거의 해를 앞두고 ‘소라’와 같은 고품질 동영상이 대중에게 공개되어 확산할 경우, 무엇이 사실이고 합성인지 구분할 수 없어 어떤 것도 믿기 어렵게 될 수 있다. ‘블룸버그’는 “대선을 앞두고 이 기술이 공개되면 혼란이 예상된다”며 “오픈에이아이는 학습한 데이터세트나 핵심 기술에 대해서는 비밀 유지하고 있어 대응이 어렵다”고 우려를 나타낸 바 있다.

한귀영 사람과디지털연구소 연구위원 hgy4215@hani.co.kr

목록으로 이동

회원로그인

회원가입