OpenAIの動画生成AI"sora"とその先にあるAGI(汎用人工知能）がヤバイ

2024年2月21日 2025年7月7日

私はほぼ毎日「AI」の開発現場でのたうち回っていますが、
そういう現場にいてこれほどに進化がすさまじく急速な技術は
AI以外では超えるものが無いだろうと実感しています。

開発現場といっても本当に泥臭い、しょうもない話が多く、
「今日、〇〇さんからコロナになったと連絡あったのですが、ここのフォローをどうしたらいいでしょうか？」
とかに代表されるようなAIとは関係なくどこにでもある話ばかりです。

そういうなかにあっても、ときどきぶっ飛んだ話を知る機会があり、
この記事ではChatGPTの母体であるOpenAIが最近発表している記事などから
末恐ろしい状況をご報告したいと思います。

OpenAIの動画生成AI"sola"

ChatGPTはご存じのように、テキスト（文章）を入力に
テキストをアウトプットするLLM（Large Language Model)のひとつです。

ChatGPTを提供しているOpenAIが最近発表した"sora"が話題を集めています。
soraはプロンプトから映像を生成するAIです。

OpenAI自身が発表したこの記事にサンプル動画も載っていますので
どんなものかは直観的にご理解いただけると思います。

: https://openai.com/research/video-generation-models-as-world-simulators

openai.com

細かく映像をチェックすると実は不自然な点もまだまだ残っていますが、
濡れたアスファルトを歩く女性のリアリティを見ると、
映像全体の完成度としては恐ろしいほどの進化です。

まだまだ初期レベルのものですが動画生成での不自然な点の一例を指摘しておくと、
前記画像（＝生成動画のキャプチャ画像）の赤い丸で囲った領域をご覧ください。

夜の繁華街でのいかにもありそうな看板がたくさん表示されていますが、
ここに看板や標識上の文字を見るとお分かりのように、もちろんこれは日本語でも中国語でもありません。

さらに言うとどの国の言語でもありません。

ひらかな、かたかなっぽい表記が看板にもありますが、
全体として意味を成しておりません。
少なくとも人間は理解できないはずです。

soraがどのように学習したのかは不明ですが、
看板画像なんかで見かける情報を選んでそれらしく表示しており、
テキストのつもりかもしれませんが地球では見かけることのできない不自然さがわかります。

ただ、今がまだそうであるに過ぎずこういった不自然さもどんどん解消され、
そうそう簡単に見破れない動画生成を行う日はさほど遠くないように感じています。

こういった技術でフェイク情報が溢れると、
きっと滑らかでリアリティのある映像の細部には気づかず
それを本物だと信じてしまう人がたくさん出てくるでしょう。

この手の予防と対策については、
マグニフィセントセブンだけではなく
各国政府が連帯してしっかり管理してもらいたいものです。

ChatGPTが2022年11月に発表されてから、たった1年ちょっとでここまできたわけです。

生成AIのマルチモーダル化

今、AIの世界で話題でもあり活発に進んでいるのがマルチモーダル化。

マルチモーダル化とはテキストだけではなく、
画像・映像・音声を処理できる
という意味合いです。

プロンプトにテキストだけではなく、画像・音声・動画を入力して
なんらかのアウトプットを得ていくというものです。

テキストをプロンプトとして画像・音声・動画を生成する次元を超えて、
これらがいわゆる生成AIの入力情報となる、という意味。

実はChatGPTの運営母体であるOpenAIはそこにかなり力を入れています。

なにを目指しているのか？
というと；

AGI（Artificial General Intelligence　人工汎用知能）

と呼ばれるものです。

AGIとは人間と同様の知識や能力を持ち、
独自の学習や問題解決ができる能力を持ち合わせているAIのことです。

従来からあるChatGPT含めたAIとは次元の異なるAIとなります。

AIのマルチモーダル化を推進することがAGIを実現するために
欠かせないステップであることをOpenAIは熟知しているのです。

AIに耳と目を与えると物理法則や数学も理解できる

AGIは経験から学習する能力を持つために、空恐ろしいことに
新たな発見や技術の進歩をもたらす可能性大と言われてます。

そのためのステップがマルチモーダル化になるのですが、
ここを少し詳しくお話します。

わかりやすく言うと；

映像（動画）からAIは物理法則や数学を学びとる
可能性が十分あります。

どうやって？

例えば、動画に「木からリンゴが落ちる」様子が含まれていたとします。

するとそのような動画をたくさん学習させるとマルチモーダル化されたAIは、

重力の存在に気づき、
リンゴが落ちるスピードや時間から重力加速度を知り
その重力加速度が地球では9.8 m/s²

であることも知るでしょう。

この重力加速度がいくらか？程度のことは、ChatGPTもこれまでの学習で
とっくに理解できていることですが、重要なことは
自ら法則やそこに関係する数学を発見できるということなのです。

映像や音声で学習できるということは、
AIに目と耳を与えたことになるのです。

実はAGIとともに
ASI（ Artificial Superintelligence　人工超知能）
も業界では話題のひとつです。

ASIはAGIがさらに進化したものです。

ASIは人間の知能を超えたレベルの人工知能であり、
あらゆるタスクや問題において人間よりも圧倒的に優れた能力を持つことを意味します。

要するに人間には解決できないことを解決できるポテンシャルを秘めています。

これは何者？
人類の福音になるのか破滅を呼ぶのかわかりません。
わかりませんが、そこを目指しているのです。

いかがでしょうか、ChatGPT出現から1年ちょっとで
そういう世界がまじかにやってきているという現実に
日々AIにまみれている私も驚きの連続です。

この記事タイトルとURLをコピー

comment コメントをキャンセル

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください。

BLOG strategy 文具

2025/6/22

システム手帳を縦ではなく「横書き」にすると世界が広がる理由～男のシステム手帳⑥

システム手帳をご利用の方へ、ちょっとしたTipsになります。システム手帳にはA5、バイブル、Miniなどいくつかのサイズがありますが共通しているのはリフィルを挟むリングがあることです。これです。このリングがあるからこそのシステム手帳なわけですが、実は書くときに邪魔になる存在としても知られています。因みに画像に写っているペンはユニボール：ZENTOという逸品でして万年筆からこれに変えたほどの優れものです。特に先の画像の場合、左側のページになにかを書こうとすると右利きの方ならペンを持った手がそのリン ...

BLOG CONTENTS strategy

2025/6/22

落とせるラブレターの書き方～『三手詰め』の極意

タイトルにあるラブレターとは、普通の意味でのラブレターに留まらず：初見で仕事を誰かに依頼したいとき初見で仕事をもらうため何かを提案をするときなんかで使う"メールの書き方"や"提案資料（パワポやそれをPDF化したもの）の中身"のことを言っております。またネット上で使うランディングページ（LP)は通称『レター（手紙）』とも呼ばれており、まさしくこのラブレターと同類と言えます。この記事ではラブレターの極意に『三手詰め』という幅広く使えるテクがあるのでご紹介したいと思います。こちらが三手動かすこと ...

CONTENTS strategy 汎用ツール

2025/6/20

3500ユーザ達成記念にLPtoolsの紹介ページを完全リニューアルしました！

日々愛用しているLP作成ツール「LPtools」が導入数として3500ユーザを超えたという話を開発・販売会社であるCatch The Web社から5月に聞きました。これを記念に私も意気込んでLPtoolsの紹介ページを完全リニューアルしました。証拠としてその紹介ページ自体もLPtoolsを使っております。リニューアルしたページは比較的最近の機能を活用しています。さらに！ 2025/6/30までは特殊な特典を追加しました。ところでいつも思うのですが、仕事することは「表現」することだなぁ～と。社会で ...

AI CONTENTS strategy

2025/6/9

AI時代に「ブルーカラー」が「ホワイトカラー」よりも生き残る理由

すでに生成AIは知能という面では人間をそれをとっくに超えているかも、と思うようなことが日常的にあって、それじゃ人間っていったいなんなの？といういわば存在意義のようなものが問われる時代に来てますね。知能で負けてたら、じゃぁどこで勝てるのか？というある意味、悲壮感漂う疑問でもありますが意外なところに存在しています。 ChatGPTが「親友」になる又吉直樹さん本題の前に、その生成AIへの接し方についてお笑い芸人／作家の又吉直樹さんと、AIエンジニア／起業家／SF作家の安野貴博さんのトークが面白かったのでご紹 ...

AI strategy

2025/6/2

人の言うことを聞かなくなった生成AIと、あらためてハルシネーションを考えてみた

最近（2025年5月から）、生成AIの振る舞いについて非常に気になる話が飛び交っています。正直、不気味なほどですが、今わかっていることを整理しました。私自身は「AI」にはまるで世間的に不人気だったころの10年以上前から主に画像処理系の分野で仕事してきた関係から、AIに共通する原理的な部分はそれなりに知見があります。今も毎日と言ってよいくらい画像処理系のAIシステム開発に携わっており、顧客からの無理な要求をどうしたものかとエンジニアたちと頭を悩ませています。（かなり残業させないと納期に間に合いそうにない ...

「気のボール（元気玉）」は錯覚か科学か

RenderNetでバーチャルモデルを作って遊ぼう

OpenAIの動画生成AI"sora"とその先にあるAGI(汎用人工知能）がヤバイ

OpenAIの動画生成AI"sola"

https://openai.com/research/video-generation-models-as-world-simulators

生成AIのマルチモーダル化

AIに耳と目を与えると物理法則や数学も理解できる