自然界で生きる中で無意識に習得した直感。どの構造だと噛み合うか、どこかがずれると詰まるか、という言語化以前の空間把握。いつも世界と向き合っている人間を含む生命には朝飯前でも、文字情報やデータから学習する機械には掴みづらい場合がある事例を少し前に目にした。
とあるタスクで、原初期の暗号機械と、それを格納する開閉可能な木箱の3Dモデルを生成していたときのこと。箱の本体と蓋部分のつながり方からして、私たちの素朴な空間感覚ではどう考えても「閉められない」構造になっている。人間には(あるいは幾つかの他生命には)それが考えるまでもなくわかる。だけどAIは現実空間を生きたことがないから、数値や手順が噛み合えば、これで完了と判断してしまったのかもしれない。モデルは2026年5月のGPT-5.5。

さて、ここからが問題だった。物質界での生きた体験がないGPTに、このおかしさをどう伝えればよいか?「そこで接続したら閉まらないよね」を軽く試しても全く改善しなかった。次に「蓋の空洞に開けている側の縁に蝶番をつけて、本体側の縁と接続しよう」と提案したが、蝶番だけが蓋に不自然に付け足されただけで「閉まらない状態」は改善しなかった。普段は当たり前に通り過ごしている日常感覚をいざプロンプトで機械に理解できる表現にするのは、いざやろうとするとどこから突破口を開くか考えあぐねた。
やっと思いついた説明は以下だった。
まだ蓋が「閉じられない側」と接続しています。根本的に誤解が起きていると思うので確認したいですが、内部をくりぬいた直方体二つを組み合わせて閉じられる箱にするとき、くり抜かれている面の縁と縁を蝶番で接合しますよね?今の蓋はくり抜かれていない側で接合しています。

その後、数分待った結果、ようやく自然界の感覚で「閉じられる箱」が完成した。私たち人間にとっての常識と、機械の処理パターンが必ずしも一致しないことがわかって面白い体験だった。

もちろん、Google DeepMindをはじめ、物理空間のシミュレーションに力を入れているラボもあるし、ヒューマノイドなどに関連するPhysical AI周辺で学習データの蓄積が進めば、こうした不整合は(言語モデルの前例と同じく)加速度的に根絶されるだろう。けれども、生命にとっての「当たり前」の感覚が、AIにとっては未知あるいは実体験のないものとして、意図せず検討の外に置かれてしまうことも確実に発生すると思う。広範にわたる作業や意思決定をAIに任せがちな傾向はもう止められないだろうが、たまに生きた経験に立ち返ること、ミスアラインの被害が大きそうな部分には慎重になることの必要をしみじみと感じるなどしている。