AI가 AI 생성 콘텐츠로 학습을 시작하면 어떻게 될까요?

What Happens When AI Starts Training on AI-Generated Content

현재 인터넷은 거대하면서도 눈에 보이지 않는 변화를 겪고 있습니다. 여러분이 읽는 글, 받는 고객 서비스 이메일, 소셜 미디어에서 스크롤하며 지나치는 이미지 중 빠르게 증가하는 비율이 이제는 인간이 만들지 않습니다. 그것들은 대형 언어 모델(LLM)과 확산 알고리즘에 의해 생성된 것입니다.

평균적인 사용자에게 이것은 번개처럼 빠른 속도의 더 많은 콘텐츠를 의미합니다. 하지만 *차세대* AI를 구축하는 엔지니어들에게 이것은 시한폭탄입니다.

더 똑똑한 AI를 만들려면, 웹에서 긁어온 방대한 양의 텍스트와 이미지 데이터를 공급해야 합니다. 하지만 웹이 더 이상 인간의 지저분하고, 뛰어나며, 예측 불가능한 글들로 가득 차 있지 않고, *다른 AI들*의 무균적이고 수학적으로 예측 가능한 출력물로 채워진다면 무슨 일이 일어날까요?

연구자들은 최근 이 현상에 끔찍하게 종말론적인 이름을 붙였습니다: 모델 붕괴. AI의 가장 큰 위협이 바로 AI 자신일 수 있는 이유는 다음과 같습니다.


1. 복사본의 복사본

모델 붕괴를 이해하기 위해 컴퓨터 과학 학위가 필요하지는 않습니다; 오래된 제록스 복사기가 어떻게 작동하는지 기억하기만 하면 됩니다.

선명하고 고해상도의 사진을 복사하면, 복사본은 꽤 괜찮아 보입니다. 하지만 *그* 복사본을 다시 복사기에 넣고 복사하면, 약간의 선명도를 잃습니다. 이 과정을 쉰 번 반복한다면—항상 이전 복사본을 복사한다면—최종 이미지는 그저 흐릿해지는 것이 아닙니다. 그것은 어둡고, 왜곡되고, 알아볼 수 없는 노이즈의 사각형이 될 것입니다.

2024년, 옥스퍼드와 케임브리지의 연구자들은 네이처에 AI 모델이 정확히 똑같은 일을 한다는 것을 증명한 획기적인 논문을 발표했습니다. AI(예: GPT-4)가 텍스트를 생성할 때, 그것은 본질적으로 훈련받은 인간 데이터의 “복사본”을 만들고 있습니다. 만약 GPT-5가 GPT-4의 출력물로 훈련되고, GPT-6가 GPT-5의 출력물로 훈련된다면, 수학적 “노이즈”가 누적됩니다. 불과 몇 세대 안에, AI의 출력물은 반복적이고, 논리적이지 않은 쓰레기로 퇴화합니다.

2. 사라지는 꼬리들 (AI가 이상함을 싫어하는 이유)

왜 AI는 그대로 유지되지 않고 퇴화할까요? 그것은 알고리즘이 현실을 어떻게 인지하는지로 귀결됩니다.

인간 데이터는 아름답게 지저분합니다. 인간 글쓰기의 종형 곡선을 본다면, 중앙의 거대한 봉우리는 우리가 말하는 “평균적이고, 매우 가능성 높은” 방식을 나타냅니다. 하지만 가장자리의 길고 가느다란 꼬리들은 인간이 하는 이상하고, 희귀하며, 매우 창의적이고, 독특한 것들을 나타냅니다.

AI 모델은 근본적으로 통계적으로 가장 가능성 높은 결과를 예측하도록 설계되었습니다. 그것들은 종형 곡선의 중앙을 좋아합니다. 그것들은 꼬리들을 싫어합니다.

AI가 이야기를 생성할 때, 그것은 이상한 가장자리를 잘라내고 인간 언어의 약간 더 안전하고, 더 평균적인 버전을 만들어냅니다. 다음 AI가 그 이야기로 훈련할 때, 그것은 가장자리를 더욱 잘라냅니다. 여러 세대에 걸쳐, 모든 독특함, 희귀한 사실들, 그리고 창의적인 도약은 완전히 사라집니다. 모델은 현실에 대한 자신의 투영에 의해 오염되어, 동질화되고, 밋밋한 반죽으로 수렴하다가 결국 똑같은 흔한 구문을 반복하는 루프에 빠져 붕괴됩니다.

3. 실리콘 에코 챔버의 증상들

우리는 이미 이 “합성 데이터 오염”의 초기 경고 신호들이 실제 세계에서 나타나기 시작하는 것을 보고 있습니다. 초기 단계 모델 붕괴를 겪고 있는 AI의 증상은 다음과 같습니다:

  • 밋밋함의 증폭: AI는 새로운 아이디어를 생성하는 능력을 잃고, 대신 같은 “기업 용어”나 예측 가능한 예술적 스타일을 끝없이 재활용합니다.
  • 사실적 표류: 현실 세계 인간 보고의 확고한 닻 없이, AI는 자신의 환각을 믿기 시작하고, 다른 AI 생성 글에서 그것들을 계속 읽기 때문에 허위 주장을 증폭시킵니다.
  • 소수 데이터의 손실: 틈새 주제, 소수 언어, 희귀 문화적 사실들—이미 인터넷 상에서 작은 발자국을 남기고 있는 것들—은 알고리즘에 의해 종형 곡선의 가장자리에서 가장 먼저 “잘려나가는” 것들입니다.

4. 새로운 골드 러시: “장인 정신”의 인간 데이터

모델 붕괴는 실리콘 밸리에서 거대한 패러다임 전환을 촉발시켰습니다. 지난 10년 동안, AI 회사들은 개방된 인터넷을 훈련 데이터의 무한하고 무료한 뷔페로 보았습니다. 갑자기 그 뷔페는 오염되었습니다.

이것은 검증되고, 독창적이며, 인간이 생성한 데이터를 기술 세계에서 가장 가치 있는 상품으로 만들었습니다. 이것이 레딧과 스택 오버플로 같은 회사들이 이제 AI 연구소에 사용자 댓글을 라이선스하기 위해 수백만 달러 규모의 거래를 체결하는 이유입니다. 수십억 달러 규모의 슈퍼컴퓨터가 알고리즘적 기억상실증에 빠지는 것을 막기 위해, AI 개발자들은 진정한 인간 사고의 지저분하고 예측 불가능한 마찰을 절실히 필요로 합니다.


모델 붕괴의 개념은 인공 지능 이야기에서 빛나고 아이러니한 반전입니다. 우리는 우리의 가장 위대한 지적 성취를 모방할 수 있는 기계를 만들었고, 단지 우리의 지속적이고 계속되는 불완전함이 그들을 확고히 하지 않으면, 그들은 수학적으로 제정신을 잃는다는 것을 발견했습니다.

AI의 미래는 더 빠른 칩이나 더 나은 수학에만 의존하지 않습니다. 그것은 우리가 항상 그래왔던 것처럼, 정확히 그렇게 이상하고, 예측 불가능하며, 인간적으로 계속 존재하는 것에 의존합니다.