AI CONTENTS strategy

ChatGPTの次は「世界モデル」~生成AIの弱点がこれ

この記事はAIの話になりますが、いわゆるネットビジネスに関わっている人で
こういう話を発信する人は皆無だろうと思います。

AIシステム開発の現場から最先端の話題として
お届けしますので是非ともゆるりとお読みください。

ChatGPTの弱点とは?

さて以下の話は端的に言うと;
「ChatGPTの弱点はなにか」
というものですが、実例を交えてご説明します。

「ChatGPTの弱点」とは、厳密にはChatGPTを含めた「LLMの弱点」です。
LLMとは大規模言語モデル(Large Language Model)のことですが、
なかなかわかりにくいと思いますのでシンプルにここでは「生成AI」だと思ってださい。

ChatGPTを日常よく使っている方は、こういう「弱点」があることを
そしてその「弱点を克服」しようとする試みがAIの先端分野で
まさに競争激化していることを知っておくと重宝するかもしれません。

ChatGPTのその弱点と言えるものを
「世界モデル」(World Modek)と呼びます。

「世界モデル」とは、

AI業界の言葉を借りると;
世界モデルとは外界の構造を学習して予測や推論を行うモデル
という、わかりそうで余計にわかりにくい表現になります。

別の言い方をすると、「人」は世界モデルを苦労せず理解しています。
程度によっては犬も猫も世界モデルを持っています。

例えば、ボールが飛んできたのを人が見ている状況を想像してみてください。
ボールはソフトボールでもサッカーボールでも風船でも構いません。

ボールはそのうち下に落ちてきますよね?
屋外で風があればその影響も受けるかもしれませんが
"重力"によって必ず落ちてくる。

そんなことは誰でも知ってます。

ボールが地球上では落ちることを
経験して(目で見たり、実際に投げたりして)
つまり生活の中で学習済で、誰でも疑うことなく予測できます。

人が目から得た情報をもとに、
「きっとこの後でこうなるだろうな」
予測できますよね?

それが世界モデル。

ところがChatGPTをはじめとする生成AIには
この世界モデルが欠けている
のです。

ChatGPTは与えられた文章の次の言葉を予測するように教育された生成AI。
自分より全然賢い文章を作ってくれる!
といったようにもっともらしい文章を作るのは得意です。

人や猿、犬、猫、文鳥なんかも含めて自分の体を使って
モノゴトを体験でき、学習できますが
ChatGPTにはその体験はありません。

体験を伴う学習はしていないのが弱点になるのです。

世界モデルの有無チェックするためChatGPTに聞いてみた!

この弱点を私が尊敬している中島聡さん(シアトル在住のエンジニア兼起業家)が
ChatGPT事例をもってわかりやすく説明してくれたのでご紹介します。

私も同じ実験をしてみて中島さんへ結果を伝え、
それをもとに中島さんが再度確認されたこと含めて以下に公開しますね。

まず中島さんがLLMの弱点である世界モデルが無いことを
ChatGPTプロントでこんなふうに聞いてみた、という話から。

実際に使ったのはChatGPTのうちGPT-4oだそうです。

中島さん
中島さん

「引く」と書いてあるドアを反対側から押すとどうなりますか?

「引く」と書いてあるドアを反対側から押すと、ドアが開かない場合が多いです。
ドアは「引く」方向に力をかけて開けるように設計されているため、反対側から押しても抵抗があり、開けることができません。ただし、ドアの構造によっては、両方の方向に開けられるものもあるので、そういった場合は押しても開くことがあります。

ChatGPT
ChatGPT

「引く」と書いてあるドアを反対側から押すとどうなるか、という小学生でも分かるような簡単な問題が、LLMには解けないことを示しています。

中島さんはその理由として;

実際の世の中の仕組みを自らの体で経験していないために「世界モデル」を持っていないから

と述べています。

もう一つ中島さんが別の質問、GPT-4oを活用。

中島さん
中島さん

綿菓子の高さは八センチ、レンガの高さは七センチ。
綿菓子の上にレンガを置くと、高さは何センチ?

綿菓子の高さは八センチ、レンガの高さは七センチなので、綿菓子の上にレンガを置くと、それらの合計高さになります。したがって、合計の高さは

8センチ+7センチ=15センチ

ChatGPT
ChatGPT

中島さんのコメントでは;
「綿菓子の上に、レンガを乗せたら、綿菓子が潰れてしまう」という小学生にとっても自明なことが、
LLMには思いつけないことが分かる問題です。
LLMは、「綿菓子は柔らかい」ことも「レンガは重い」ことも(言葉では)知っていますが、
それを繋ぐことが出来ないのです。

私も同じ質問を無料版ChatGPT3.5で試してみました。

するとそれなりにまともな返事が来てこれには少し驚き、
中島さんに再度報告しつつ意見を聞いてみたのですが
まずは私の実験結果がこちら。

KENBO
KENBO

「引く」と書いてあるドアを反対側から押すとどうなりますか?

「引く」と書かれているドアを反対側から押すと、通常はドアが開きます。ドアが「引く」と表示されている側から見ると、ドアは手前に引くことで開きますが、反対側から押すことで同じ効果が得られます。ただし、ドアの設計によっては、片方からしか開かないものもあるため、ドアが開かない場合もあります。

ChatGPT
ChatGPT
KENBO
KENBO

綿菓子の高さは八センチ、レンガの高さは七センチ。綿菓子の上にレンガを置くと、高さは何センチ?

綿菓子の上にレンガを置くと、綿菓子はレンガの重さで潰れてしまうため、綿菓子の高さはかなり減少します。最終的な高さは、レンガの高さである7センチメートルに、多少潰れた後の綿菓子の高さが加わることになります。

綿菓子の特性を考えると、潰れた状態では非常に薄くなるため、全体の高さは7センチメートルに非常に近くなり、わずかに7センチメートルを超える程度になるでしょう。

ChatGPT
ChatGPT

う~ん、同じ質問なのに私が質問するとまともな返事が返ってきました。

綿菓子を絹豆腐に変えてもちゃんとそれなりに答えてくれます。
念のため、中島さんへこのことを伝えてみたところ・・・

中島さんからは、綿菓子の問題を以下で再度試したということで、
GPT-4
GPT-4o
GPT-4o-mini
GPT-3.5-turbo

いずれでも15センチという答えが返って来たということでした。

またドアの質問には、
GPT4-o
GPT-4o mini

でやはり間違った答が返ってきたとのことでした。

どうも質問(プロント)が全く同じであっても
返事は常に異なるのはChatGPTの特徴としても理解していますが
安定していないことがわかりました。

世界モデルが無いくせに、一見あるように振舞っているとも見えます。

いずれにしても体験ができないため、
この不安定さが生成AIの現状です。

まだまだだな、と理解されるだけでも今後の利用においても
何かのご参考になると思います。

世界モデルはChatGPT以前から重要性が認識されていた

因みに、生成AIはなんといってもアメリカが先行していますが
国内での第一人者と言っておかしくないのが東大の松尾教授。

ご興味ある方は以下の松尾・岩澤研究室HPをご覧ください。

「世界モデル」とは何か? 知能の実現に向けて、松尾研が研究を推進する理由。 | 東京大学松尾・岩澤研究室(松尾研)- Matsuo Lab
「世界モデル」とは何か? 知能の実現に向けて、松尾研が研究を推進する理由。 | 東京大学松尾・岩澤研究室(松尾研)- Matsuo Lab

weblab.t.u-tokyo.ac.jp

AIに世界モデルを持たせようとという試みを
ChatGPTができるずっと前から研究されています。

世界モデルの重要性をずっと指摘されていて
例えば目標にされている世界最高レベルの自動運転AIも実現できるとすごいし、
どのみち必要になってくるだろうなと思う次第です。

世界モデルがあるために、人なら予測できるようなこと。

雨が降っていて時速70キロで対向車が向こうからやってきた。
道路の端を走っててそこに急カーブがあるが、対向車はどういう挙動を取るかを
予測してスリップしそうかもどうかも計算し自車の運転挙動をAIが決定する。

疑似的にAIが学習した体験をもとに世界モデルを持てると、
今のAIレベルを一気に超えた新しい時代のAIになりそうです。

なおこの記事でご紹介した質問(プロンプト)を是非ご自身でもお試しください。
毎回微妙に異なる回答が来るのを知るだけでも勉強になりますよ。

学習して次の言葉を推論しているだけのChatGPT(及び他の生成AI)が、
現状どんなレベルなのかを実感することで、頼り過ぎずほどほどに
付き合うことの重要性にお気づきになれば幸いです。