AIがAI生成コンテンツで学習を始めるとどうなるか?

What Happens When AI Starts Training on AI-Generated Content

現在、インターネットは大規模で目に見えない変化を遂げています。あなたが読む記事、受け取るカスタマーサービスメール、ソーシャルメディアでスクロールする画像の急速に増加する割合は、もはや人間によって作成されたものではありません。それらは大規模言語モデル(LLM)と拡散アルゴリズムによって生成されています。

平均的なユーザーにとって、これはより速いスピードでより多くのコンテンツが得られることを意味します。しかし、AIの世代を構築するエンジニアにとって、それは時限爆弾です。

より賢いAIを構築するには、ウェブからスクレイピングした膨大な量のテキストや画像データを供給する必要があります。しかし、ウェブが人間の乱雑で、素晴らしく、予測不可能な文章ではなく、他のAIによる無菌的で数学的に予測可能な出力で満たされたらどうなるでしょうか?

研究者たちは最近、この現象に恐ろしいほど終末論的な名前をつけました:モデル崩壊。これが、AIの最大の脅威がAI自身であるかもしれない理由です。


1. コピーのコピー

モデル崩壊を理解するために、コンピューターサイエンスの学位は必要ありません。古いゼロックス機がどのように機能するかを思い出すだけでいいのです。

鮮明で高解像度の写真をコピーすると、コピーはかなり良く見えます。しかし、そのコピーを機械に通して再度コピーすると、少し鮮明さが失われます。このプロセスを50回繰り返すと(常に前のコピーをコピーする)、最終的な画像は単にぼやけるだけでなく、暗く、歪み、認識できないノイズの塊になります。

2024年、オックスフォード大学とケンブリッジ大学の研究者たちは、AIモデルがまったく同じことをすることを証明する画期的な論文をNatureに発表しました。AI(GPT-4など)がテキストを生成するとき、それは本質的に、学習に使用した人間のデータの「コピー」を作成しています。もしGPT-5がGPT-4の出力で学習し、GPT-6がGPT-5の出力で学習すると、数学的「ノイズ」が蓄積します。ほんの数世代のうちに、AIの出力は反復的で支離滅裂なゴミに劣化します。

2. 消えゆく裾野(なぜAIは奇妙さを嫌うのか)

なぜAIは同じ状態を維持するのではなく劣化するのでしょうか?それは、アルゴリズムが現実をどのように認識するかに帰着します。

人間のデータは美しく乱雑です。人間の文章のベルカーブを見ると、中央の巨大な膨らみは、私たちが話す「平均的で、非常に確率の高い」方法を表しています。しかし、端にある長く細い裾野は、人間が行う奇妙で、まれで、非常に創造的で、風変わりなものを表しています。

AIモデルは基本的に、統計的に最も確率の高い結果を予測するように設計されています。それらはベルカーブの中央を好みます。裾野を嫌います。

AIが物語を生成するとき、それは奇妙な端を切り取り、人間の言語のわずかに安全で、より平均的なバージョンを生成します。次のAIがその物語で学習するとき、それは端をさらに切り取ります。複数の世代を経ると、すべての風変わりさ、まれな事実、創造的な飛躍は完全に消えてしまいます。モデルは、現実に対する自身の投影によって汚染され、均質で味気ないペーストに収束し、最終的にはまったく同じ一般的なフレーズを繰り返すループに陥ります。

3. シリコンのエコーチェンバーの症状

私たちはすでに、この「合成データ汚染」の初期警告サインを現実世界で見始めています。初期段階のモデル崩壊に苦しむAIの症状には以下が含まれます:

  • 平凡さの増幅: AIは新しいアイデアを生成する能力を失い、代わりに同じ「企業スピーク」や予測可能な芸術的スタイルを無限にリサイクルします。
  • 事実のドリフト: 現実世界の人間による報告という基礎となる錨なしでは、AIは自身の幻覚を信じ始め、他のAI生成記事でそれらを読み続けるため、誤った主張を増幅します。
  • 少数派データの喪失: ニッチなトピック、少数言語、まれな文化的な事実は、すでにインターネット上の足跡が小さいですが、アルゴリズムによってベルカーブの端から最初に「切り取られる」ものです。

4. 新しいゴールドラッシュ:「職人技」の人間データ

モデル崩壊はシリコンバレーで大規模なパラダイムシフトを引き起こしました。過去10年間、AI企業はオープンなインターネットを無限で無料のトレーニングデータのビュッフェと見なしていました。突然、そのビュッフェは汚染されました。

これにより、検証済みの、オリジナルの、人間が生成したデータは、技術世界で最も貴重な商品になりました。これが、RedditやStack Overflowのような企業が、ユーザーのコメントをAI研究所にライセンスするために数百万ドルの契約を結んでいる理由です。何十億ドルもするスーパーコンピューターがアルゴリズム的健忘症に陥るのを防ぐために、AI開発者は本物の人間の思考の乱雑で予測不可能な摩擦を必死に必要としています。


モデル崩壊の概念は、人工知能の物語における見事で皮肉なひねりです。私たちは、私たちの最も偉大な知的成果を模倣できる機械を構築しましたが、それらを支えるための私たちの絶え間ない、継続的な不完全さなしでは、数学的に正気を失うことを発見したのです。

AIの未来は、より高速なチップやより優れた数学だけに依存しているのではありません。それは、私たちがこれまで通りに奇妙で、予測不可能で、人間らしくあり続けることに依存しています。