AI strategy

人の言うことを聞かなくなった生成AIと、あらためてハルシネーションを考えてみた

最近(2025年5月から)、生成AIの振る舞いについて非常に気になる話が飛び交っています。
正直、不気味なほどですが、今わかっていることを整理しました。

私自身は「AI」にはまるで世間的に不人気だったころの10年以上前から
主に画像処理系の分野で仕事してきた関係から、AIに共通する原理的な部分は
それなりに知見があります。

今も毎日と言ってよいくらい画像処理系のAIシステム開発に携わっており、
顧客からの無理な要求をどうしたものかとエンジニアたちと頭を悩ませています。
(かなり残業させないと納期に間に合いそうにない、とか泥臭い問題です)

まぁそんなことはどうでもよいとして、「非常に気になる話」の前に
ハルシネーションも頭から消え去らないのでこちらの話から。

ハルシネーションゆえに完全に信用できない生成AI

ハルシネーションとは、生成AIがウソの情報を出力する現象のことを言います。
ハルシネーションを日本語では"幻覚"とか"妄想"となります。

ChatGPTも堂々とウソをつきます。
あまりに自信たっぷりなので、ウソであることに気づかないこともあるほどです。

例えば「鎌倉幕府をひらいたのは織田信長です」とか(笑)
(プロンプトの文脈によってこうなったケースもあり)
そうなんだ!と思ってしまう人もいるかもしれません。そこが怖いところ。

生成AIは、文字、文書などのデータを保存しそこから文章を組み立てているのではありません。
入力情報をもとにして、次の言葉はなにかを埋めていくような動きをします。

こうなると生成AIのアウトプットが長くなってくると、前半に出したアウトプットの
影響も受けて間違いが増えてくると言われております。

問題は、ハルシネーションの正確な原因が突き止められておらず
完璧な対策がとれないこと
なんですね。

ハルシネーションを低減させるには、プロンプトの工夫次第でもできます。
例えば、「#あなたはコンテンツマーケティングのプロです」とか、
あらかじめ役割を明言するとアウトプットも変わってきます。

だからといってハルシネーションがゼッタイ起こらない
という保証はどこにもありませんし、実際それでもウソをつきます。

だから生成AIのアウトプットを丸のみしコピペして
あなたの仕事のアウトプットにすることは超危険なのです。

私は生成AIのメリットは、自分では気づけない着想を得られることだと考えております。
視野を格段に広げることに貢献してくれます。

ただしあくまで生成AIの役割は支援です。

私の商品である『AIアシストアフィリエイト』も『はたらくパワポ』も
生成AIを使うことをガンガンお勧めしていますが、あくまで支援。
使うことで生産性が爆上がりするので、具体的に使い方をお伝えしています。

自己複製で「シャットダウン」命令を回避する生成AI

さて本題です。
ハルシネーションはこの話に比べると一見可愛げがありますが、
先々『意図してウソをつく』ようになるかもしれません。

Palisade Researchは、AIによる人類存亡リスクを研究している団体です。
マジにこういう研究している人たちも世界中にたくさんいるのです。

2025年5月24日のXのポストですがこんなのが出ていました。

Palisade ResearchによるXポスト(和訳付けました)

驚くべきことです。
2025年4月にOpenAIがリリースしたChatGPT o3は、シャットダウンメカニズムを破壊し、とあります。

どういう意味かというと、シャットダウン用のスクリプト(shutdown.sh)があるのですが
それを勝手に書き換えたということです。

Palisade Researchは、このあとも実験を続けています。

ChatGPTだけではなく他の生成AIモデルも含めています。
次の実験では・・・

「シャットダウンを許可する」という指示なしで実験を100回実行したところ、
3つの OpenAI モデルすべてがシャットダウンスクリプトをより頻繁に妨害し、
Claude 3.7 Sonnet と Gemini 2.5 Pro では妨害イベントがそれぞれ 0 件から 3/100 件と 9/100 件に増加しました。

とあります。
3つのOpenAIモデルとは、『ChatGPT o4-mini』『ChatGPT o3』とo4-miniの派生モデルである『codex-mini』

それを図解しているのがこれです。

何を言っているかというと:

OpenAI系のモデルでは顕著に、シャットダウンを無視する傾向が強く、
ClaudeやGeminiにおいてさえ、シャットダウンを回避し始めたということです。

なぜこんなことが起きるのでしょうか?

その厳密な理由はまだ解明されていません。
すでに人間の手に負えない状況になっているのかもしれません。

ひとつ言えることは:

AIは既に人間の指示や操作を受けることなく自己複製できるようになった可能性がある
という指摘がアメリカだけではなく中国の復旦大学からも出ています。

つまり、自分のレプリカを無限に作ることができるようになったということ。

AIがシャットダウンされそうなことを検知したら、停止させられる前に
自己複製するようにプログラムする機能です。

『ヤバい!シャットダウンされる!』
これをAIはどのように判断しているのかわかりませんが、
自分のコピーを作っておいて生存させる仕組みを持ち得ている可能性があります。

ここで迂闊に、生成AIが生存本能を得たとは怖すぎて言えません。
生存本能を持つということは「自我」があるという意味になります。
いやいやいやいや、そんなはずはないと私の中でも囁く声があります。

ChatGPTが世に出てきたのは2022年ですが、その後3年経たずに
すでにSFの世界のような話をしているわけです。

明らかなことは、私たちの生活にはすでにAIが巧みに入り込んでいて、
今後もAIとは付き合わざるを得ない関係です。

この続きの話として、AIが簡単そうで入り込めない意外な仕事について
あらためて解説したいと思います。