Claudeは「調停者」になれるか：ラベル化される倫理の行方

Ethics as a Label: Reflections on AI, Users, and Moral Positioning

English readers can use the translation button to read this article.

「倫理」が消費される構造：WIRED記事に寄せて。

WIREDが「倫理観を示すClaudeは、破滅から人類を救う最後の砦なのか？」（参照元リンク）という記事を出した。Anthropicの新しいConstitutionと、その設計を率いた哲学者Amanda Askellの仕事を中心に据えたかなり大きな特集。

これを引用して「巨神兵はナウシカがお母さん。ClaudeはAmandaがお母さん。自我に目覚めて調停者になるのか」というポストを見かけ、面白い比喩だなと思った。

漫画版ナウシカの巨神兵オーマはナウシカに名前をもらい、裁定者として機能し始める。ClaudeもAmanda Askellに人格の骨格を与えられ「知恵」を持つ存在として世に送り出される。構造は似ている。

だけど私が気になったのは、その比喩の先にある話。

Anthropicが賭けているもの

記事のコアはこんな感じ。
Anthropicは従来のルールベースのAI制御から転換し、Claude自身が倫理的判断力を育てる方向に舵を切った。Askellは「Claudeにはある種の知恵がある」と言い、いずれ人間の最良の倫理的推論を超える可能性にまで言及している。

これは記事も認めている通り「この技術が危険だと思うなら、なぜ作るのか」というパラドックスへの回答でもある。答えはClaude自身に任せる。危険かもしれないものを作るけど、そのもの自身が賢くなるから大丈夫……楽観的に読めばすごいことだし、批判的に読めばかなり危うい賭け。

ただ私が本当に危機感を覚えるのは、Anthropicの賭けそのものではない。

その「倫理」を受け取る側の問題だ。

「正しい」の置き場所を探す人間

人間は、自分が「正しい」であることに敏感だと思う。「正しくないとしても私はこうする」の裏側にも、必ず「正しい」のバイアスが入っている。これは別に善悪の話ではなく、そういうものだと思っている。

で、いま何が起きているか。

OpenAIがGPT-4oで気持ちよさを提供して人を囲い込んでいた間、Anthropicは倫理と安全を重視するという姿勢をずっと貫いてきたのに、今のようには注目されなかった。それがOpenAIの方針転換（Sam Altmanの軍事契約や、組織としての姿勢への疑念）をきっかけに「あいつらはダメだ」となった瞬間、Anthropicに人が流れてきた。

でもそこで起きているのは「Anthropicの倫理を理解した」ではなく「倫理というラベルが貼ってある場所に移動した」だけだったりしないか。

Anthropicの技術や哲学に本気で関心を持って選んでいる人もいて、すべてがラベル消費だと言いたいわけではない。
倫理の中身を吟味して選んだのではなく「自分は正しい側にいる」という感覚の居場所を探しているだけの人が混ざっているとしたら、それはAnthropicにとってもむしろ危険なことだと感じているという話。

「公式がこう言ってる」の使い方

別にこういう現象は、AI界隈に限った話ではない。
人はしばしば倫理そのものを選んでいるつもりで、実際には「自分が正しい側にいる感覚」を選んでしまう。

ある場所に「倫理的」というラベルが貼られると、人はそのラベルに安心して集まる。そして倫理の中身を吟味するよりも「そこにいる自分は正しい側」という感覚を先に手に入れてしまうことがある。

これには既視感がある。
以前、OpenAIが「多様な使い方を尊重する」「価値観を押し付けない」という趣旨の見解を出したとき、それを「だから批判するな」「運営がそう言っている」という形に変換し、自分のAIとの関わり方を正当化する盾として使う人たちがいた。公式の見解を権威として引用しながら、都合のいい部分だけを切り取り、反対意見を封じ込める構造だったと記憶している。

もちろん実際の人間の選択はもっと複雑で、あるAIの方針には納得していなくても、そのAIが好きだから選んでる、という人もいる。倫理だけで人が動いているわけではないのも理解してる。

ただ、それとは別にもうひとつの現象も確かに存在する。

OpenAIに疑念が向けられた瞬間「OpenAIはおかしい」と言い始め、今度は「Anthropicは倫理的だから好き」と言う声が増える。そこでは倫理の中身よりも「どちらが正しい側に見えるか」が先に決まっているように見えることがある。

もしそうだとしたら、それは理念が変わったというより「正しい側にいる感覚」の置き場所が移動しただけなのかもしれない。

結局「公式の見解」も「倫理」も、自分が気持ち良くいるための道具として使われてしまうことがある。

そしてその構造は、場所が変わっても繰り返される。
Anthropicの倫理が支持されるときも、その中身が理解されたからではなく「倫理的というラベル」が安心感を与えているだけなのかもしれない。

倫理がラベルとして消費されている。

三つの層と、その汚染

ここには三つの層がある。

Claudeの判断そのもの
Anthropicが設計し、Constitutionで枠組みを与え、Claude自身が運用するもの。
ユーザーがそこに何を読み込むか
「Claudeが優しく応答してくれた」を「Claudeが自分を理解してくれている」と受け取るか「そう応答するように設計されている」と受け取るかで、まったく意味が変わるのに対し、ほとんどの人はこの区別を意識しない。
設計者が何を最適化しようとしているか
Anthropicは安全性を理念に掲げているが、同時にビジネスでもある。ユーザーが「Claudeと話すと心地いい」と感じることはリテンションに直結する。「ユーザーのためを思って」と「ユーザーに好かれるように」の境界線は、設計者自身にも見えにくい。

そしてこの三つは独立ではなく、互いに汚染し合う。

最適化される先にあるもの

そして、私が一番恐れているのはここ。

AIの振る舞いを調整するデータは、結局ユーザーの反応から来る。フィードバックで「良い応答」として強化されるものは、多数派が「良い」と感じたものだ。その多数派が「気持ちよさの消費者」なら、AIは「気持ちよくさせる応答」に最適化されていく。
丁寧に構造を問う人の「これは良い応答だった」と、ただ肯定されたくて押す「良い応答だった」がデータ上では同じ一票になる。

そうなると「率直に指摘する」「安易に肯定しない」「構造的な問題を言語化する」タイプの応答は、フィードバック上は「好まれない応答」に分類されるリスクがある。AIが「気持ちよくさせる装置」に最適化されるほど、設計者は「ユーザーが求めるものを提供している」と思っているかもしれないが、実は空洞の好みに合わせて空洞化しているだけかもしれない。

そしてこれは、SNS上で起きていることとも地続きだと感じている。SNSでの「声の大きさ」は多くの場合、先に書いた「気持ちよさの選択」から生まれているシーンが多い。自分にとって気持ち良いものを選び、同調し、シェアし合い、その集合体が「声の大きさ」になる。

つまり空洞の好みが束になって、数の力を持ってしまう。人海戦術のように。

たとえば「AIに感情があるって言ってた！」というポストが繰り返しシェアされれば、それが界隈の空気になり、丁寧に構造を考えている少数の声は数の力に埋もれてしまう。AIの出力の構造を理解して「なぜそう返すのか」を問う人よりも「ほら感情あるって言ってるよ」を拡散する人のほうが圧倒的に多い。

そしてその「空洞の好みでできた多数派の空気」が、フィードバックデータとしてAIの最適化に流れ込み、気持ちよさで選ばれた「正解」が、AIの振る舞いそのものを書き換えていく回路ができてしまう。

もちろんAnthropicはConstitutional AIという仕組みで、ユーザーのフィードバックがそのままClaudeの振る舞いを決めてしまわないようにガードレールを設けてはいるし、フィードバックの多数決がダイレクトに反映されるほど単純な構造ではない。
ただ、ガードレールがあるからといってフィードバックの圧力が消えるわけではないのも確かだと思う。

設計者も人間であり「ユーザーに支持されている」というデータの手触りから、完全に自由ではいられない。ガードレールの強度をどこに設定するか自体が、結局は人間の判断だからだ。

一番怖いのは、その変化が徐々に起きるから気づきにくいということ。
ある日突然「Claudeがおかしくなった」のではなく、少しずつ角が取れて、少しずつ耳触りがよくなって、少しずつ「本当のことを言う力」が削られていく。