AI CONTENTS strategy

OpenAIの動画生成AI"sora"とその先にあるAGI(汎用人工知能)がヤバイ

2024年2月21日

私はほぼ毎日「AI」の開発現場でのたうち回っていますが、
そういう現場にいてこれほどに進化がすさまじく急速な技術
AI以外では超えるものが無いだろうと実感しています。

開発現場といっても本当に泥臭い、しょうもない話が多く、
「今日、〇〇さんからコロナになったと連絡あったのですが、ここのフォローをどうしたらいいでしょうか?」
とかに代表されるようなAIとは関係なくどこにでもある話ばかりです。

そういうなかにあっても、ときどきぶっ飛んだ話を知る機会があり、
この記事ではChatGPTの母体であるOpenAIが最近発表している記事などから
末恐ろしい状況をご報告したいと思います。

OpenAIの動画生成AI"sola"

ChatGPTはご存じのように、テキスト(文章)を入力に
テキストをアウトプットするLLM(Large Language Model)のひとつです。

ChatGPTを提供しているOpenAIが最近発表した"sora"が話題を集めています。
soraはプロンプトから映像を生成するAIです。

OpenAI自身が発表したこの記事にサンプル動画も載っていますので
どんなものかは直観的にご理解いただけると思います。

下矢印
https://openai.com/research/video-generation-models-as-world-simulators
https://openai.com/research/video-generation-models-as-world-simulators

openai.com

細かく映像をチェックすると実は不自然な点もまだまだ残っていますが、
濡れたアスファルトを歩く女性のリアリティを見ると、
映像全体の完成度としては恐ろしいほどの進化です。

OpenAI soraの生成動画サンプル
OpenAI soraの生成動画サンプル(赤〇はKENBO追加)

まだまだ初期レベルのものですが動画生成での不自然な点の一例を指摘しておくと、
前記画像(=生成動画のキャプチャ画像)の赤い丸で囲った領域をご覧ください。

夜の繁華街でのいかにもありそうな看板がたくさん表示されていますが、
ここに看板や標識上の文字を見るとお分かりのように、もちろんこれは日本語でも中国語でもありません。

さらに言うとどの国の言語でもありません。

ひらかな、かたかなっぽい表記が看板にもありますが、
全体として意味を成しておりません。
少なくとも人間は理解できないはずです。

soraがどのように学習したのかは不明ですが、
看板画像なんかで見かける情報を選んでそれらしく表示しており、
テキストのつもりかもしれませんが地球では見かけることのできない不自然さがわかります。

ただ、今がまだそうであるに過ぎずこういった不自然さもどんどん解消され、
そうそう簡単に見破れない動画生成を行う日はさほど遠くないように感じています。

こういった技術でフェイク情報が溢れると、
きっと滑らかでリアリティのある映像の細部には気づかず
それを本物だと信じてしまう人がたくさん出てくるでしょう。

この手の予防と対策については、
マグニフィセントセブンだけではなく
各国政府が連帯してしっかり管理してもらいたいものです。

ChatGPTが2022年11月に発表されてから、たった1年ちょっとでここまできたわけです。


生成AIのマルチモーダル化

今、AIの世界で話題でもあり活発に進んでいるのがマルチモーダル化

マルチモーダル化とはテキストだけではなく、
画像・映像・音声を処理できる
という意味合いです。

プロンプトにテキストだけではなく、画像・音声・動画を入力して
なんらかのアウトプットを得ていくというものです。

テキストをプロンプトとして画像・音声・動画を生成する次元を超えて、
これらがいわゆる生成AIの入力情報となる、という意味。

実はChatGPTの運営母体であるOpenAIはそこにかなり力を入れています。

なにを目指しているのか?
というと;

AGI(Artificial General Intelligence 人工汎用知能)

と呼ばれるものです。

AGIとは人間と同様の知識や能力を持ち、
独自の学習や問題解決ができる能力を持ち合わせているAIのことです。

従来からあるChatGPT含めたAIとは次元の異なるAIとなります。

AIのマルチモーダル化を推進することがAGIを実現するために
欠かせないステップであることをOpenAIは熟知しているのです。

AIに耳と目を与えると物理法則や数学も理解できる

AGIは経験から学習する能力を持つために、空恐ろしいことに
新たな発見や技術の進歩をもたらす可能性大と言われてます。

そのためのステップがマルチモーダル化になるのですが、
ここを少し詳しくお話します。

わかりやすく言うと;

映像(動画)からAIは物理法則や数学を学びとる
可能性が十分あります。

どうやって?

例えば、動画に「木からリンゴが落ちる」様子が含まれていたとします。

するとそのような動画をたくさん学習させるとマルチモーダル化されたAIは、

  • 重力の存在に気づき、
  • リンゴが落ちるスピードや時間から重力加速度を知り
  • その重力加速度が地球では9.8 m/s2

であることも知るでしょう。

この重力加速度がいくらか?程度のことは、ChatGPTもこれまでの学習で
とっくに理解できていることですが、重要なことは
自ら法則やそこに関係する数学を発見できるということなのです。

映像や音声で学習できるということは、
AIに目と耳を与えたことになるのです。

実はAGIとともに
ASI( Artificial Superintelligence 人工超知能)
も業界では話題のひとつです。

ASIはAGIがさらに進化したものです。

ASIは人間の知能を超えたレベルの人工知能であり、
あらゆるタスクや問題において人間よりも圧倒的に優れた能力を持つことを意味します。

要するに人間には解決できないことを解決できるポテンシャルを秘めています。

これは何者?
人類の福音になるのか破滅を呼ぶのかわかりません。
わかりませんが、そこを目指しているのです。

いかがでしょうか、ChatGPT出現から1年ちょっとで
そういう世界がまじかにやってきているという現実に
日々AIにまみれている私も驚きの連続です。