농담처럼 들릴지 모릅니다: 변호사 시험을 통과할 수 있고, 몇 초 만에 웹 스크레이퍼를 위한 기능적인 파이썬 스크립트를 작성하며, 셰익스피어 스타일의 소네트를 작곡할 수 있는 인공지능이… 틱택토에서는 다섯 살 아이들에게 늘상 발리는 모습을 보입니다.
하지만 ChatGPT와 같은 대규모 언어 모델(LLM)과 간단한 X와 O 게임을 해본 적이 있다면, 이 기이한 현상을 직접 목격했을 가능성이 높습니다. 세네 번의 수를 두는 사이에, 엄청나게 똑똑하다는 이 AI는 자신만만하게 당신의 ‘X’ 위에 ‘O’를 놓거나, 완전히 새로운 보드의 구석을 만들어내거나, 당신이 두 수 전에 이겼다는 사실을 알아차리지 못할 것입니다.
인간 지식의 총합을 손끝에 가지고 있는 존재가, 겨우 255,168개의 가능한 결과만 있는 게임에 왜 고전할까요? 그 답은 인간의 두뇌와 신경망이 현실을 인지하는 방식 사이의 매혹적이고 근본적인 차이에 있습니다.
“똑똑한” 플레이어의 환상
이 결함을 이해하려면, 먼저 AI에게 게임을 도전할 때 무슨 일이 일어나는지 살펴봐야 합니다. 만약 당신이 “같이 틱택토 하자. 내가 먼저 시작할게. 중앙 칸에 X를 놓는다.”라고 입력하면, AI는 대개 완벽하게 포맷된 정중한 응답을 하며, 아스키 아트 보드를 그려주기도 합니다.
하지만 게임이 진행될수록, 바퀴가 빠져나갑니다. AI는 연구자들이 공간 추론 결핍이라고 부르는 현상을 보입니다. AI는 이렇게 말할 수 있습니다:
“좋은 수입니다! 저는 오른쪽 위 모서리에 ‘O’를 놓겠습니다.”
…하지만 동시에 자신의 ‘O’가 설명할 수 없이 왼쪽 아래에 놓인 보드를 렌더링하기도 합니다. 아니면 더 나쁘게, 당신이 이미 점유한 칸을 차지하려고 할 수도 있습니다. 이건 반칙이 아니라, 심각한 혼란 상태입니다.
왜 틱택토가 AI 두뇌를 망가뜨리는가
왜 이런 일이 발생하는지 이해하려면, 대규모 언어 모델이 작동하는 방식을 들여다봐야 합니다.
1. 1차원 대 2차원 문제 (세상은 문자열이다)
당신과 제가 틱택토 보드를 볼 때, 우리는 2차원 격자를 봅니다. 우리는 즉시 공간적 관계(위, 아래, 왼쪽, 오른쪽, 대각선)를 이해합니다.
LLM에게는 눈이 없고, “정신적 화면”도 없습니다. 그것은 세상을 오직 1차원의 순차적인 텍스트 문자열로만 이해합니다.
AI가 보드를 그릴 때, 그것은 그림을 그리는 것이 아닙니다. 그것은 일련의 문자, 줄 바꿈, 공백을 생성하는 것입니다. AI에게 보드는 이렇게 보입니다:
X | - | - n - | O | - n - | - | X
대각선으로 이겼는지 알아내려면, 순전히 텍스트의 다른 줄에 있는 문자를 세는 것만으로 공간 기하학을 마법처럼 추론해야 합니다. 텍스트 예측 엔진에게 이건 계산적으로 부자연스러운 일입니다.
2. 토큰화의 함정
이전 글 AI 계산 역설에서 다뤘듯이, LLM은 단어나 글자를 읽지 않습니다. 그들은 “토큰”을 읽습니다.
보드 상태가 변하면, 보드의 토큰 표현도 완전히 달라집니다. AI는 보드를 “보고” 말을 옮기는 것이 아닙니다. 그것은 이전 보드 상태의 텍스트 문자 뒤에 보통 어떤 텍스트 문자가 오는지에 대한 통계적 확률을 계산하려고 하는 것입니다. 반쯤 진행된 틱택토 보드는 인터넷에서 흔한 텍스트 문자열이 아니기 때문에, 모델의 예측 엔진은 환각을 일으키기 시작합니다.
3. 금붕어 기억 (진정한 상태의 부재)
당신이 게임을 할 때, 당신은 머릿속으로 보드의 진행 상황을 계속해서 기록합니다. LLM에게는 게임 상태에 대한 지속적인 “기억”이 없습니다.
당신이 새로운 프롬프트를 보낼 때마다, AI는 전체 채팅 기록을 다시 읽고, 보드의 텍스트 문자열을 재처리하며, 무슨 일이 일어나고 있는지 처음부터 추론해야 합니다. 이건 마치 모든 수를 두기 전에 완전 기억 상실증을 겪고, 지난 5분간의 기록을 읽어서 규칙과 현재 상태를 추론해야 하는 게임을 하는 것과 같습니다.
그렇다면, 왜 파이썬은 더 쉬운가?
틱택토가 그렇게 어렵다면, 왜 파이썬 스크립트 작성은 그렇게 쉬울까요?
이는 구문 대 상태로 귀결됩니다. 프로그래밍 언어는 전적으로 선형적이고 텍스트 기반입니다. 이는 LLM이 완벽하게 익히도록 설계된 바로 그 방식입니다.
- 텍스트 속의 논리: 코드는 1차원 토큰으로 완벽하게 변환되는 구문 규칙에 의해 강하게 구조화되어 있습니다.
- 훈련 데이터: 인터넷에는 수십억 줄의 코드가 있습니다. AI의 훈련 데이터에는 반쯤 진행된 틱택토 게임의 아스키 아트 텍스트 기록보다 작동하는 파이썬 함수의 예시가 훨씬 더 많습니다.
ChatGPT가 파이썬을 작성할 때, 그것은 방대한 양의 데이터를 기반으로 가장 논리적인 다음 텍스트 줄을 예측하는 것입니다. 틱택토를 할 때, 그것은 텍스트 예측 엔진을 사용하여 2차원 공간 물리 엔진을 시뮬레이션하도록 강요받는 것입니다. 이는 설계 목적과 전혀 다른 작업에 도구를 사용하는 것과 같습니다.
틱택토 역설은 AI가 실제로 무엇인지에 대한 훌륭한 상기시켜 줍니다. 그것은 인공 인간 지능이 아닙니다. 그것은 이질적인 지능입니다. 그것은 생물학적 두뇌와는 전혀 다른 근본적인 물리 법칙 위에서 작동합니다.
다음번에 AI가 복잡한 에세이를 작성하는 것에 놀랄 때, 그것에게 콘넥트 포 게임을 하라고 요청해 보세요. AI가 믿을 수 없을 만큼 강력하지만, 인간의 두뇌가 할 수 있는 일 중에는 수조 개의 매개변수를 가진 코드가 할 수 없는 것들이 여전히 있다는 것을 훌륭하게 일깨워주는 경험이 될 것입니다.
