なぜAI画像は基礎物理学と反射で失敗するのか

Why AI Images Fail at Basic Physics and Reflections

我々は皆、AIが生成した不気味な画像を見たことがある。化粧台の前で立つ女性の、驚くほど超現実的な肖像画。照明は見事で、細部は鋭く描かれている。しかし、鏡を見ると、そこには奇妙なことが起きている。反射が間違った方向を向いていたり、まったくの別人が映っていたりする。あるいは、最も不気味なことに、彼女の後頭部が映っていたりするのだ。

AIの「吸血鬼効果」へようこそ。

現代のAI画像生成器は、人間の偉大な芸術家に匹敵する質感を描くことができるが、中学校レベルの基礎物理学にはしばしば失敗する。影が太陽に向かって伸びていたり、反射が幾何学に反していたり、雨粒が不可能な角度で降っていたりする。

なぜ、毎秒数百万のパラメータを計算できる機械が、鏡の仕組みを理解できないのだろうか?その答えは、光をシミュレートすることと、絵画を偽造することの間にある、魅力的な違いにある。


1. 画家 vs. 物理エンジン (2Dの錯覚)

反射の不具合を理解するには、異なるコンピュータプログラムがどのように画像を生成するかを見る必要がある。

現代のビデオゲームを考えてみよう。ゲームはレイトレーシングと呼ばれる技術を使っている。ゲームエンジンは真の3D世界を構築し、仮想の「太陽」を空に配置し、水やガラス、鏡で跳ね返る何百万もの仮想光線の正確な経路を数学的に計算する。反射は完璧だ。なぜなら、それはプログラムされた光学の法則に物理的に従っているからだ。

AI画像生成器(標準的な拡散モデルなど)はレイトレーシングを使わない。3D空間を持たない。「光」が何であるかを実際には知らない。AIモデルは本質的に、平面的な2D写真しか研究したことのない、才能にあふれた盲目の画家だ。それは統計的確率に基づいて色付きピクセルのグリッドを配置することで画像を生成する。「光るガラスのピクセル」は通常「顔のピクセル」の隣にあることを知っているが、その理由を理解していない。それは現実の構造を理解せずに、質感を模倣しているのだ。

2. 鏡の問題: 幾何学は無慈悲である

鏡は厳しい支配者だ。3D空間の完璧で数学的に厳密な1:1反転を要求する。確率的推測によって繁栄するAIモデルは、厳密な規則を嫌う。

「鏡を見つめる男性」というプロンプトをAIに入力すると、AIはそれを順次処理する:

  • 男性を描く: 前景に男性の後頭部を描く。
  • 鏡を描く: 壁に光る四角形を描く。
  • 鏡の中を埋める: AIの学習データによると、鏡には通常顔が映っている。それで、統計的に四角形の中にある顔を生成する。

AIは記憶の中に隠された男性の3Dモデルを持っていないので、彼の特定の顔の正面がどのように見えるかを実際には知らない。それは単にプロンプトに基づいてもっともらしい顔を幻覚のように生成する。これにより、一致しない人物、間違った視線の方向、物理的に不可能な視点が生じる。

AIにとって、鏡は反射面ではなく、顔風味のピクセルで埋める必要がある壁の別個の絵画フレームに過ぎないのだ。

3. 複数太陽の宇宙 (影の不具合)

物理エンジンの欠如は、AIが影に非常に苦労する理由も説明する。

AIが生成した複雑な街路の画像を注意深く見ると、しばしば「複数太陽」のエラーを見つけることができる。現実世界では、すべての影の先端から、それを落とす物体を通って線を引くと、それらの線は最終的に一つの点(光源)に収束する。

AI画像では、影が完全にランダムな方向を指していることが多い。AIは、リンゴの下には暗い影があるべきであり、建物の隣には影があるべきだと知っている。しかし、AIはこれらの物体を局所的に処理し、全体的には処理しない。それはリンゴの影をリンゴが通常どのように見えるかに基づいて描き、建物の影を建物が通常どのように見えるかに基づいて描く。それらがまったく同じ太陽によって照らされているはずだということに全く気づかないのだ。

4. 物理学を修正できるか?

研究者たちはこの限界を痛感している。最近の学術プロジェクト(新しく開発された「MirrorVerse」データセットなど)は、AIモデルに、数学的に完璧な何千もの合成3D鏡像で特別に訓練させることで、幾何学の理解を強制的に学習させようとしている。

しかし、これは非常に複雑な応急処置に過ぎない。拡散モデルが真の3D物理学をシミュレートするのではなく、ピクセルの確率を推測することで動作する限り、数学が複雑になりすぎると時々失敗するだろう。

AIの設計者が、3Dビデオゲームエンジンの空間推論と拡散モデルの創造的自由を融合させる方法を見つけるまで、物理学の法則はAI宇宙では単なる「提案」に留まるだろう。