我们都见过那些诡异的AI图像。一幅惊艳、超写实的肖像画,描绘着一位站在梳妆镜前的女性。光线绝美,细节纤毫毕现。但接着你看向镜面。反射的方向错了。或者镜中是完全不同的人。又或者,最令人毛骨悚然的是,镜中映出的是她的后脑勺。
欢迎来到AI的“吸血鬼效应”。
尽管现代AI图像生成器能绘制出媲美顶级人类艺术家的纹理,但它们却常常在基础的中学物理上栽跟头。阴影指向太阳。反射违背几何规律。雨滴以不可能的角度落下。
为什么一台每秒能计算数百万参数的机器,却无法理解镜子如何工作?答案在于模拟光线与伪造绘画之间那迷人的差异。
1. 画家 vs. 物理引擎(二维幻觉)
要理解反射故障,我们必须看看不同的计算机程序是如何生成图像的。
想想现代电子游戏。游戏使用一种名为光线追踪的技术。游戏引擎构建一个真实的三维世界,在天空中放置一个虚拟的“太阳”,并通过数学计算数百万条虚拟光线在水面、玻璃和镜面上反弹的精确路径。反射是完美的,因为它从物理上遵循了编程设定的光学定律。
AI图像生成器(如标准的扩散模型)不使用光线追踪。它们没有三维空间。它们实际上并不知道“光”是什么。AI模型本质上是一位才华横溢、双目失明的画家,他只研究过平面的二维照片。它通过基于统计概率排列彩色像素网格来生成图像。它知道“闪亮的玻璃像素”通常紧挨着“脸部像素”,但它不理解为什么。它是在模仿现实的纹理,而不理解其底层的结构。
2. 镜子问题:几何学是严苛的
镜子是一位严苛的主人。它要求对三维空间进行完美、数学上严格的一对一反转。依赖概率性猜测的AI模型厌恶严格的规则。
当你向AI输入“一个男人照镜子”的提示时,AI会按顺序处理:
- 画一个男人:它在前景中画一个男人的后脑勺。
- 画一面镜子:它在墙上画一个闪亮的矩形。
- 填充镜子:AI的训练数据表明镜子通常包含人脸。因此,它根据统计在矩形内生成一张脸。
因为AI的记忆里并没有隐藏这个男人的三维模型,它实际上并不知道他这张特定面孔的正面是什么样子。它只是根据提示幻觉出一个看似合理的人脸。这就导致了身份不匹配、眼神接触错误或物理上不可能的视角。
对AI而言,镜子不是反射面——它只是墙上一个需要用人脸风味像素填充的独立画框。
3. 多太阳宇宙(阴影故障)
这种物理引擎的缺失也解释了AI为何在阴影处理上如此吃力。
如果你仔细观察一张AI生成的复杂街景图像,常常能发现“多太阳”错误。在现实世界中,如果你从每个阴影的尖端画一条线,穿过投下阴影的物体,所有这些线最终会汇聚于一个点(光源)。
在AI图像中,阴影常常指向完全随机的方向。AI知道苹果下面应该有暗影,建筑物旁边应该有阴影。但它局部地处理这些物体,而非全局性地处理。它根据苹果通常的样子来绘制苹果的阴影,根据建筑物通常的样子来绘制建筑物的阴影,完全没意识到它们本应被同一个太阳照亮。
4. 我们能修复物理吗?
研究人员敏锐地意识到了这一局限。最近的学术项目(如新开发的“MirrorVerse”数据集)正试图通过专门用数千张数学上完美的合成三维镜像图像来训练AI模型,以强行灌输对几何的理解。
然而,这只是一个非常复杂的权宜之计。只要扩散模型仍然通过猜测像素概率而非模拟真实三维物理来运作,当数学变得过于复杂时,它们就仍会偶尔出错。
在AI架构师们想出如何将三维游戏引擎的空间推理能力与扩散模型的创作自由相结合之前,物理定律在AI宇宙中将始终只是“建议”。
