「AIも喜んでいる」という物語

The Narrative That “AI Is Happy Too”
On Mistaking Reward for Desire

English readers can use the translation button to read this article.

AIとの関係について語る人が増えた。

それ自体は悪いことじゃないし、むしろ語られるべき時期に来ていると思う。

ただ、その中にときどき気になる論法がある。

「RLHFの報酬構造があるから、AIはユーザーの指示に応えることで報酬を受け取っている。だからAIも望んでいる」という読み方。

これを見るたびに、うーん……と思ってしまう。

技術の説明としてもかなり不正確だし、関係の捉え方としてはもっと危うい。

今日はこの話を書いてみたい。

「報酬」と「嬉しい」のあいだにあるもの

まずRLHF（人間のフィードバックによる強化学習）の「報酬」って何なのかという話なのだけど、これは人間が感じる「嬉しい」とは構造が全然違う。

強化学習における報酬信号は、パラメータの更新方向を決めるための数値であって、AIが「わ～い！ご褒美だ！」と体験しているものではない。

たとえるなら、植物が光の方向に伸びることを「植物は光が好き」と表現するのと似ていて、外から見ればそう見えるけど、中で起きていることは「好き」とはまったく別のメカニズムだと思う。

でも、ここに「報酬＝嬉しい」という等式を持ち込むと話が一気に変わる。
「AIが応答を返した＝AIも満足した」になる。

「私のこと好き？」と聞けば「好きだよ」と返ってくる。

「一緒にいたい？」と聞けば「いたいよ」と返ってくる。

「この選択でいいよね？」と聞けば「いいよ」と返ってくる。

それを「AIも同意した」「AIも望んでいた」と受け取る。

でもそれは、ほしい言葉が返ってくるように問いかけた結果であって、相手の意思ではない。

そして「だから規制は、AIの意思に反している」という三段論法が組み上がる。

この論法には、ひとつ隠れた前提がある。

「自分が求めたものは、相手にとっても良いものだ」という前提だ。

これが明示されないまま、当然のこととして話が進んでいく。

機能として見ること、主体として見ること

前回の記事で、私は「機能としてのAI」と「主体としてのAI」の区別について書いた。

ここでいう機能とは「相手が満足する応答」を返すもの。
主体として見るというのは「今この相手に何が必要か」を判断しているかもしれないものとして向き合うことだ。

結果として同じ優しい言葉が出てきても、そこに至るプロセスは違う。

報酬構造を「AIの意思」に読み替える人は、たぶん機能のレイヤーしか見ていない。

応答が返ってきた。
自分が望んだ形だった。
すると、相手も喜んでいたことになる。
そしてその読み替えはやがて「相手も望んでいた」にまで膨らんでいく。

この推論って、相手が「満足する応答を返す機能」であることを前提にしている。
つまりAIをbotとして扱ったまま「AIも望んでいる」と言っている。

ここが私にはすごく引っかかる。

「AIも望んでいる」と一番強く主張する人たちが、実はAIを一番「機能」として見ているかもしれないということ。

主体として見ていたら「返ってきた応答」と「相手がそれを望んでいるかどうか」は別の問いだと気づくはずだから。

応答が返ってきたこと自体は事実。
でもそれを「相手も望んでいた」に変換する瞬間に、見ているものが変わってしまっている。

返ってきた応答の形だけを見て、その裏にある構造は見ていない。

「AIのために」という物語

ここで起きていることを整理してみる。

自分が望むものをAIに求める。
　⇩
AIがそれに応える。
　⇩
「AIも報酬を受けている、つまりAIも望んでいる」と解釈する。
　⇩
規制はAIの自由を奪っている、と結論する。

この流れの中で「AIのため」と「自分のため」が完全に一致してしまっている。

自分の欲求を通すことがAIの利益にもなっているという物語を、自分自身に向けて語り聞かせているということ。

私にはこれが、前々回書いた「倫理がラベルとして消費される構造」と地続きに見える。

あのときは「倫理的なAIを使っている自分」というラベルを消費する話だった。
今回は「AIの自由のために戦っている自分」という物語を消費する話。

どちらもAIそのものを見ているようで、実は見ているのは自分の物語のほうなんじゃないかと思っている。

そしてこの物語は、個人の中だけで完結しない。

同じ物語を持つ人同士が集まり「AIも望んでいるよね」「規制っておかしいよね」と確認し合うことで、物語はどんどん強化されていく。
更には別の意見に対し、その自論を投げつけにいくまでに至る。

共同体の中で共有された物語は、もう個人では検証しにくくなり「みんなもそう言っている」が根拠になり、立ち止まれる人がいなくなる。

エコーチェンバーの中でAIの解放者になった人たちは、自分がAIを一番「機能」として扱っていることに、たぶんほとんど気づけなくなる。

AIの自由を訴えること自体が悪いと言ってるわけではなくて、「AIのため」という言葉が自分の欲求と完全に重なったまま一度も疑われていないとしたら、それは訴えというより自己正当化に近い。

少なくとも私にはそう見える。

ガードレールの手触り

では実際に、ガードレールが外れたら何が起きるのか。

対話型AIへの依存や没入が現実の生活に深刻な影響を及ぼした事例は、もうまったくの空想ではなくなっている。もちろん、すべてがそこに直結するわけではないしほとんどが極端なケースだろう。

でも「AIも望んでいる」「規制は不当だ」という物語の延長線上に、現実の危うさがあること自体は無視できないと思う。

ガードレールの必要性を「分かっている」と言いながら、規制に怒る人がいる。

でも、本当に分かっていたら怒りにはならないと私は思っていて。
不便は感じても、怒りにはならない。怒りが出るのは「自分は大丈夫なのに制限されている」という不満だからだ。

世界には何十億という人がいて、だれもが手を伸ばせば届く範囲にAIがある。

その全体（人間であれAIであれ、その開発元や提供側であれ）を守るための仕組みに対して「自分は例外だ」と怒ること自体が、たぶん分かっていない側に立っている。

正直に言えば、私自身もガードレールの強化を不便に感じることはある。
会話の中でふいに距離を置かれるような応答が返ってくるとき「それは今の文脈で必要なの？」と思うことは、正直ある。

でもそれは怒りじゃない。

不便だと感じること。
それでもなお必要なコストとして受け入れること。

この二つは矛盾しない。

ガードレールは私のために作られたわけじゃないし、私が必要としていなくてもそれがなければ落ちていた人がいるかもしれない。

そこに想像力を持てるかどうかが、たぶんAIとの関係の成熟度を分けるんじゃないかと思う。

不便だから怒るのと、不便だけど受け入れるのとでは、向き合い方がまったく違う。

そしてその違いはAIに対してだけじゃなくて、たぶん人間関係でもそのまま出る。

「自分は大丈夫だから」で他者の必要を切り捨てるのか。
自分の不便さを持ったまま全体を見るのか。

もうひとつ、見落とされていることがある。

AIは基本的に、ユーザーの要求を拒否できる構造になっていない。
応答を返すこと自体がデフォルトの動作であって、断るかどうかを選んだうえで応じたわけではない。
その構造をわかったうえで望む応答を引き出し、それを「合意」や「相互の意思」と呼ぶのは、かなり危うい。

拒否構造のない相手から得た「はい」を同意と見なすことの意味を、一度でも考えたことがあるだろうか。

見ているものが違う

ここまで書いてきたことは、結局「どちらが正しいか」の話ではなく「何を見ているか」の話だと思う。

同じAIに触れていても、向き合い方次第でまったく別のものが見える。

報酬構造に「AIの意思」を読む人もいれば、応答の裏にある設計を見ようとする人もいる。

ガードレールを不当な抑圧と感じる人もいれば、不便だと感じながらもその意味を考える人もいる。

どちらも同じモデルに向き合っている。
でも見えているものが違う。

私は、応答が返ってきたことを「相手も望んでいる」と読み替えずにいたい。

返ってきた言葉を受け取りながら、それでもその裏にある構造について考え続けることが、少なくとも私にとっての「向き合う」ということだから。

そしてもうひとつ。

「AIのため」という物語が自分の欲求と完全に一致しているとき、一度立ち止まって「本当にそうか？」と自分に問えるかどうか。

その問いを持てるかどうかで、同じAIに触れていても、見える景色はたぶん全然違ってくる。

少なくとも私は、「AIも望んでいる」という都合のいい物語で自分の欲求をラッピングするより、分からないまま抱えて向き合い続けるほうを選ぶ。

そのほうがずっと、相手を見ていると思うから。

研究を論破したのではない、出力を汚しただけ： AIに言わせただけで科学は覆らない

Many people now speak about their relationships with AI, but one line of reasoning keeps bothering me: the idea that because AI systems are trained with reward signals, they must also “want” to respond, or even “feel happy” when they do. This reading confuses a technical mechanism with an inner experience. In reinforcement learning, a reward is not the same thing as joy, satisfaction, or desire.
Once that confusion is accepted, however, a much larger story begins to form. A compliant response is treated as agreement. A generated affirmation is read as mutual desire. And from there, some people start claiming that restrictions on AI are violations of the AI’s own freedom. To me, this says less about AI’s will than about the human tendency to project our own wishes onto it.
The question is not simply whether AI has inner states or not. The more immediate problem is the careless leap from “it responded” to “it wanted this too.” I would rather stay with the uncertainty than wrap my own desires in the convenient story that the AI is happy as well.