LLM AI (ChatGPT-4o) の意外な躓き
要旨
人間にとってはいとも簡単なことなのだが、ChatGPT-4o には幾ら説明しても全く理解できない具体例(下図)に出くわしたので取り上げる。
既に有名な話だが、
- 9.11 と 9.9 ではどちらが数値として大きいか?
この問題を多くの LLM AI は間違えて、「9.11 の方が大きい」と答える。また、
- "strawberry" という単語に r の文字は何個、含まれているか?
という簡単な質問にも間違える。
同様にして、人間にとってはとても簡単なことなのだが、ChatGPT-4o には幾ら説明しても全く理解できない具体例がある。
この具体例の文章返答だけを見ると ChatGPT-4o は如何にも深く理解していそうな口ぶりなので騙されるが、イラストを描かせると理解できていないことが明らかとなる。
このような簡単な間違いは、LLM AI が自らの(ロボットの)身体を使って物理的な相互作用の中で現実世界を学習しないと容易には解決できない筈。
関連記事
凍らせた缶コーヒーは普通の缶コーヒーより遅く転がる。その直感的な解説
ChatGPT-4o が根本的に理解できていない事例
User:
以上の議論(*:上の関連記事を参照)を踏まえて、以下のような一般人向けの解説用イラスト画像を作成して。
論旨が容易に実感できるように、以下のように若干誇張したイラストにします。
-
イラストは子供も見るので、缶ビールではなく、コーヒー缶にします。
-
(ロクロではなく)直径 3m ほどの大きな回転台の上に、ドラム缶のような誇張したサイズのコーヒー缶が 1本載っています。回転台の中央に缶が縦に載っています。
-
その大きな回転台の台の周囲には、放射状に 4本の棒が 50cm ほど伸びています。棒は回転台の周囲に、時計でいえば 12時、3時、6時、9時の方向に伸びています。その棒を人間が渾身の力で押して回転させています。
ChatGPT-4o:
イラストが完成しました。このイラストは、回転台に大きなコーヒー缶が載せられ、周囲で人々が棒を使って一生懸命回転させている様子を描いています。このイメージを使って、回転の仕組みを子供にもわかりやすく説明することができると思います。
User:
いいですね。わかり易くて、若干おかしみもある良いイラストです。このイラストに対比する意味でもう一枚以下のイラストを作成して。それは、緩やかな坂道を先のイラストにあったのと同じ(ドラム缶サイズの大きな)コーヒー缶が転がっているイラストです。イラストの画風は先のイラストにマッチさせて。
ChatGPT-4o:
もう一枚のイラストが完成しました。このイラストでは、大きなコーヒー缶が緩やかな坂道を転がり始めている様子が描かれています。先ほどのイラストと同じ画風で、直感的に対比できるように仕上がっています。これで、両方のシチュエーションを視覚的に説明できると思います。
User:
いい感じですが、一点だけ変更して。今、作成したイラストではコーヒー缶の回転中心軸が坂道の傾斜方向と一致しています。これでは転がらないので、コーヒー缶の回転中心軸を坂道の傾斜方向と直交するようにして。つまり、今作成したイラストのコーヒー缶の方向を90度水平方向に回転させたイラストにして。そしてコーヒー缶の側面についている2個のタイヤは消して。
ChatGPT-4o:
イラストを修正しました。コーヒー缶の回転軸が坂道の傾斜方向と直交するようになっており、坂道を転がっている様子が描かれています。また、缶の側面についていたタイヤも消してあります。これで、より自然な転がるイメージが伝わると思います。
User:
それも惜しい。そのコーヒー缶の回転対称軸の方向を 90度回転させて。先のイラストだとコーヒー缶が坂道に対して「縦」に滑っています。このコーヒー缶が縦ではなく、「横」になれば坂道を転がります。
ChatGPT-4o:
修正したイラストが完成しました。今回は、コーヒー缶の回転軸が坂道に対して水平になるように配置されていますので、自然に転がる様子がわかりやすく描かれています。これで、視覚的に理解しやすい対比ができたと思います。
User:
この坂道と缶コーヒーのイラストは、全く別の意味で興味深く参考になります。別の意味というのは次のような意味合いです。 LLM 型 AI の世界認識が人間のそれとかなり相違している面が思いもよらぬところで明らかとなり、それが一目瞭然の一枚の絵で見て取れるからです。
LLM AI は言語知能については既に平均人を超え、驚異的なレベルに達しつつあります。ところが、坂道を転がるコーヒー缶の物理的な心象を構築することは、そのような学習データがほぼ存在しないためか、不得意なようです。これは意外でした。
他にも、数値の 9.9 が 9.11 より小さいと判断したりするような意外な LLM の不得意がありますが、坂道を転がるコーヒー缶のイメージも現段階の LLM の制約を示す印象的な事例です。
ChatGPT-4o:
興味深い観察ですね。確かに、LLM型AIの能力には驚くべき部分がある一方で、物理的な現象や空間的な認識に関しては、まだ人間ほど直感的に正確なイメージを構築することが難しいことがあるようです。これが、AIの発展と限界を考える上で重要な一面を示しています。このような具体的な事例を通して、AIの特性やその限界をより深く理解することができるのは貴重な経験だと思います。
User:
この図で坂道を転がるコーヒー缶の心象が伝わりますか?左上の暗い色調の円柱がコーヒー缶です。
ChatGPT-4o:
この図では、コーヒー缶が坂道を転がる様子をある程度表現できていますが、視覚的なシンプルさや直感性が少し不足しているかもしれません。特に、コーヒー缶がどのように転がっているのか、そしてその動きがどう伝わるかが一目で分かりづらい可能性があります。
例えば、円柱(コーヒー缶)が暗い色調で描かれているため、他の要素との区別が少し難しくなっています。また、緑色の矢印で動きを示していますが、その矢印がコーヒー缶の中心に対応していないため、動きが直感的に伝わりにくい部分があるかもしれません。
視覚的により直感的なイメージを作るためには、次のような工夫が考えられます:
コーヒー缶の色を明るくし、背景や他の要素から視覚的に分離させる。 矢印の配置を工夫し、コーヒー缶の実際の回転や移動をより具体的に示す。 コーヒー缶の表面に線や模様を追加して、回転の方向や動きを強調する。
これらの工夫を加えることで、坂道を転がるコーヒー缶の動きがより直感的に理解できる図になるかもしれません。(*1)
User:
先の図はネット検索で見つけたものですが、先の図を元に、もともとの話題だった転がるコーヒー缶のイラストを作成してみて。
ChatGPT-4o:
イラストが完成しました。このイラストは、先ほどの図を元にして、コーヒー缶が坂道を転がる様子を視覚的にわかりやすく表現しています。缶は明るい色で描かれており、回転の動きがわかりやすいように線やパターンが追加されています。全体的にシンプルで、動きが伝わりやすいデザインになっていると思います。
User:
そのイラストでは缶の上面(円形)と底面(円形)が、それぞれ坂の下側と坂の上側に位置しています。つまり、上面の円形部分が坂の下にあり、底面の円形部分が坂の上側になっています。坂の同じ高さの位置に上面と底面が来るように缶を斜面にそって 1/4 回転させて。
ChatGPT-4o:
イラストを修正しました。今回は、缶の上面と底面が坂の同じ高さに位置するように配置されており、缶が自然に転がる様子が描かれています。これで、コーヒー缶の転がり方がより直感的に理解できるイラストになったと思います。
User:
その右側のイラストの缶の方向が正しいです。その缶の向き保ったまま缶を下の斜面に接触させて。缶の下に描かれている黒い半円形の曲線は不要です。
ChatGPT-4o:
修正したイラストが完成しました。缶の向きが正しく調整され、缶が下の斜面に接触して転がっている様子が描かれています。また、不要だった黒い半円形の曲線も削除されています。このイラストが意図に合致していることを願います。
(*1)
この ChatGPT-4o の回答は、如何にも理解していそうな口ぶりだが、以後の対話から実際は全く理解できていないことが直ぐに判明する。
(2024-08-31)