お絵描きAIとフレーム問題

2022年10月21日

僕の好きなベルクソンやハイデガーの哲学は人工知能批判という文脈で援用されたりするんだけど、最近イラスト関連のトピックにずっと張り付いてるうちに(描いてない)特に勢いのあるお絵描きAIにまんま当てはまる事例があることに気がついた。

今の二次絵で主流になっているNobelAIを含む大元のStable DiffusionというAIモデルは「何を描かせるか」を指示するプロンプト(いわゆる呪文)に加えて、「何を描かせないか」を指定するネガティブプロンプトという2種類の入力があるんだけど、遊び方が熟成されるに連れてだんだんこの後者のネガティブプロンプトが重要なのがわかってきた。

例えばこの人は泳ぐセフィロスを描かせようとすると勝手に女にされたり羽をつけられたりするのでネガティブプロンプトでマイナス指定してる。

他には中国語圏ユーザー作った元素法典ではネガティブプロンプトに膨大なリストを列挙させることで描画がクリアになることが発見された。

【日本語訳】元素法典 巻ノ一 #NovelAI #元素法典|さいP|note

自分でも環境作ってちょっとだけやってみたけど確かにネガティブを増やすほど物体同士が溶けてくっつくような現象が減っていく気がする。

で、これで思い出したのが、古典的な人工知能の難問であるフレーム問題。

哲学者ダニエル・デネットが論文[2]で示した例を挙げて説明する。

状況として、洞窟の中にロボットを動かすバッテリーがあり、その上に時限爆弾が仕掛けられている。このままでは爆弾が爆発してバッテリーが破壊され、ロボットはバッテリー交換ができなくなってしまうので、洞窟の中からバッテリーを取り出してこなくてはならない。ロボットは、「洞窟からバッテリーを取り出してくること」を指示された。

人工知能ロボット1号機R1[3]は、うまくプログラムされていたため、洞窟に入って無事にバッテリーを取り出すことができた。しかし、R1はバッテリーの上に爆弾が載っていることには気づいていたが、バッテリーを運ぶと爆弾も一緒に運び出してしまうことに気づかなかったため、洞窟から出た後に爆弾が爆発してしまった。これはR1が、バッテリーを取り出すという目的については理解していたが、それによって副次的に発生する事項(バッテリーを取り出すと爆弾も同時に運んでしまうこと)について理解していなかったのが原因である。

そこで、目的を遂行するにあたって副次的に発生する事項も考慮する人工知能ロボット2号機R1-D1[4]を開発した。しかしR1-D1は、洞窟に入ってバッテリーの前に来たところで動作しなくなり、そのまま時限爆弾が作動して吹っ飛んでしまった。R1-D1は、バッテリーの前で「このバッテリーを動かすと上にのった爆弾は爆発しないかどうか」「バッテリーを動かす前に爆弾を移動させないといけないか」「爆弾を動かそうとすると、天井が落ちてきたりしないか」「爆弾に近づくと壁の色が変わったりしないか」などなど、副次的に発生しうるあらゆる事項を考え始めてしまい、無限に思考し続けてしまったのである。これは、副次的に発生しうる事項というのが無限にあり、それら全てを考慮するには無限の計算時間を必要とするからである。ただ、副次的に発生する事項といっても、「壁の色が変わったりしないか」などというのは、通常、考慮する必要がない。

そこで、目的を遂行するにあたって無関係な事項は考慮しないように改良した人工知能ロボット3号機R2-D1[5]を開発した。しかし今度は、R2-D1は洞窟に入る前に動作しなくなった。R2-D1は洞窟に入る前に、目的と無関係な事項を全て洗い出そうとして、無限に思考し続けてしまったのである。これは、目的と無関係な事項というのも無限にあるため、それら全てを考慮するには無限の計算時間を必要とするからである。事程左様に、人間のように判断することができるロボットR2-D2を作るのは難しい。

フレーム問題 – Wikipedia

簡単に言えば人間は外を歩いているときに「隕石が落ちてくる」みたいな事態を想定しながら行動することはそうそうないけど、AIはその状況で起こりうるありとあらゆる可能性を無限に検討しなければならず、(プログラミングで言えばif文を無限に作らなければならない)その無限というのは文字通り無限なのでロボットはその時点で壊れる(=ロボットは「思考」ができない)というもの。

これは一昔前は上に引用したような思考実験の1つだったんだけど、お絵描きAIを見ているうちに本当に現実にまんまこれが起こっていることに気がついた。ビックリした。
つまり、学習データに一度入れてしまったものはどんなに小さくても可能性の1つとして考慮しなければならないので、変な異物が紛れ込んだり、ラーメンが食べられなかったり、アニメ調の絵と3DCG調の絵の両方の画風をどっちつかずでミックスして出力してしまったりする。
そしてそこを人間がネガティブプロンプトに指定し、除外の対象にすることで絵が安定してくる。

そして、ここからは多分AI研究じゃなくて哲学や人間学の話になると思うんだけど、これをまた逆向きにフィードバックしてではAIではなに人間の知能とは何なのかを考えることで見えてくるものがある。すなわち、人間の思考は計算機的な情報処理能力が「高い」のでなく、今ここで起こりうる無限の可能性の中から無視することなのだと。

一般的にはある環境の中で、これをさらに突き詰めると主観主義的観念論になってくる。ようするに、無視されている事態の可能性とはただ意識に昇っていないのではなく、「存在」しないのである。

私の言語の限界は、私の世界の限界を意味する。(5.6)

私たちは、考えることのできないことを、考えることはできない。だから私たちは、考えることのできないことを、言うこともできない。(5.61)

ヴィトゲンシュタイン. 論理哲学論考 (光文社古典新訳文庫) . . Kindle 版.

ここでウィトゲンシュタイン大先生が書いている「世界の限界」が「フレーム」に相当する。フッサールとハイデガーの現象学やユクスキュルの環境世界の概念なんかもほぼ同じ。ウニの世界には棘で感覚される信号しか存在しない。

そんな中でマシンパワーのゴリ押しでフレーム問題を文字通り無視して人間に追いつきそうな現代AIはどうなっちゃうんだろうね、というお話でした。