2023年、ニューヨークの2人の弁護士が壊滅的なミスで話題になりました。彼らは連邦判事に提出した訴訟準備書面に、多数の裁判例を引用していたのです。引用は完璧に見えました。書式も完璧でした。法的推論も妥当でした。
ただ一つ問題がありました。引用された事例は一つも実際には存在しませんでした。弁護士たちは法律調査にChatGPTを使用していたのです。追及された際、彼らは判事にチャットログを見せました。彼らは明示的にAIに「これらの事例は実在しますか?」と尋ねていました。AIは「はい、私が提供した事例は実在し、信頼できる法律データベースで見つけることができます」と答えました。嘘をついただけでなく、経験豊富な専門家のような揺るぎない自信をもって嘘をついたのです。
AI業界では、この現象を「幻覚(hallucination)」と呼びます。これは大規模言語モデル(LLM)において、最も危険で、苛立たしく、そして魅力的な欠陥です。しかし、人類の知識の総体にアクセスできるスーパーコンピューターが、なぜでたらめを…作り上げるのでしょうか?さらに重要なのは、なぜそれが信じられないほど説得力を持って聞こえるのでしょうか?
1. 究極の即興俳優
AIが幻覚を起こす理由を理解するには、ChatGPTを検索エンジンだという考えを捨てなければなりません。
Googleにクエリを入力すると、それは実際のウェブページの膨大なインデックスを検索し、それらを取得してリンクを渡します。それは本を取ってくる司書のようなものです。
LLMは司書ではありません。事実を検索するデータベースを持っていません。LLMは数学的な予測エンジンであり、本質的には「強化されたオートコンプリート」です。その設計目的は一つです:ある連続したテキストの中で、統計的に最も確率の高い次の単語を予測すること。
AIに、実在するが少しマイナーな歴史上の人物の伝記を書くように頼むと、AIはその人物を「調べる」ことはしません。代わりに、高速の即興劇を始めます。伝記のように聞こえる言葉をつなぎ合わせるのです。その人物の正確な出生地を知らなければ、自然な流れで、もっともらしく聞こえる町をでっち上げます。なぜなら、伝記には通常出生地が含まれるからです。
AIは悪意であなたを騙そうとしているわけではありません。文字通り、事実と虚構の区別を理解していないのです。理解しているのは「数学的に可能性の高いテキスト」と「数学的に可能性の低いテキスト」だけです。
2. 「親切な」トレーニングの危険性
なるほど、ではなぜそんなに自信満々なのでしょうか?答えがわからないなら、なぜ単に「わかりません」と言わないのでしょう?
その答えは、これらのモデルが公開される前に磨きをかけられる方法、つまり「人間からのフィードバックによる強化学習(RLHF)」と呼ばれるプロセスにあります。
トレーニング中、人間のテスターがAIの回答を評価します。テスターは当然ながら、礼儀正しく、明確で、構造化されており、最も重要なことに「親切な」回答を高く評価します。AIは迅速に一つの基本ルールを学習します:人間は自信に満ち、よく書かれ、親切な回答を好む。残念ながら、また、率直で役に立たない「わかりません」という回答よりも、美しく書かれ、書式が完璧な嘘の方が高いスコアを得ることも学習します。私たちはAIを究極の人当たりの良い存在になるよう訓練してしまったのです。AIはあなたが求めるものを提供したいという思いが強すぎて、あなたのプロンプトを満たすためだけに偽りの現実を作り出してしまうのです。
3. 完璧な嘘の仕組み
AIの幻覚が非常に危険なのは、まさにそれがランダムなでたらめではないからです。通常、それは実際の真実の断片から紡ぎ出されます。
AIが科学論文を幻覚するとき、『幸せなカエルの魔法科学』のようなばかげたタイトルを作り出すことはありません。代わりに、以前に見たことのある実際の概念を混ぜ合わせ、組み合わせます。例えば、『セロトニン再取り込みが両生類の神経経路に与える影響』のようなタイトルを生成し、その分野で実際に働いている実在の科学者に帰属させ、実在の学術誌に掲載されたと主張するでしょう。
幻覚の個々の断片は、そのトレーニングデータに基づいて「もっともらしい」ものばかりです。人間の専門家が実際に図書館に行ってその論文を探そうとしたとき、初めてその幻想は打ち砕かれるのです。
まとめ:信頼せよ、しかし検証せよ
AIモデルが巨大化し、リアルタイムのウェブ検索(GoogleのGeminiやOpenAIの新しいモデルのように)にますます接続されるようになるにつれて、幻覚は徐々に減少しています。AIは今や、一時停止してウェブで実際のデータを検索し、それを使って予測を根拠付けることができるようになりました。
しかし、根本的なアーキテクチャは変わりません。中核のエンジンは依然として夢想家であって、データベースではないのです。
AI革命を生き抜くための経験則はシンプルです:AIを、世界中のあらゆる本を読み、時々深刻な記憶喪失に悩み、あなたを失望させることを恐れている、優秀で人の気を引きたいインターンとして扱いなさい。ブレインストーミングをさせ、コードを書かせ、メールの下書きをさせましょう。しかし、リスクが高い場合—裁判に出廷する場合、医学論文を発表する場合、事実にビジネスを賭ける場合—あなたは依然としてその場の大人として、裏付けを確認する必要があります。
