教皇レオ14世とAnthropicの対話は何を意味するのか｜AI倫理は企業の内側だけで決められる？

Pope Leo XIV, Anthropic, and the Question of Who Gets to Shape AI Ethics

English readers can use the translation button to read this article.

教皇レオ14世がAIについての回勅を出し、その発表の場でAnthropic共同創業者のChris Olahがスピーチをした。

そう聞いても、正直なところ、最初は何が起きているのか少しつかみにくかった。

教皇がAnthropicに入ったわけではないし、バチカンがClaudeを公式採用したわけでもない。起きたことだけを整理すれば、教皇レオ14世がAIをめぐる回勅「Magnifica Humanitas」を発表し、そのプレゼンテーションの場に、Anthropicの共同創業者でAIの解釈可能性研究を率いるChris Olahが登壇した、という出来事だ。
バチカンの発表でも、Olahは登壇者の一人として記載されている。

（参照：バチカン・プレス）

ただ、単なる登壇として片づけるには、Olahの言葉はかなり重い。

これは「お墨付き」の話なのか

Anthropicの記事に掲載されたスピーチの中で、彼はまずAnthropicを含むすべてのフロンティアAIラボが、商業的に生き残る圧力、研究の最前線に立ち続ける圧力、地政学的な圧力、そして研究者としてのプライドや野心から自由ではない、と語っている。
どれほど善意を持っていても、そこにあるインセンティブの影響を受ける。その認識から彼は、AIラボの外側にいて、安全を求め、注意深く見守り、必要なら厳しいことを言ってくれる批評者が重要だと述べている。

（参照：Anthropic co-founder Chris Olah’s remarks on Pope Leo XIV’s encyclical “Magnifica humanitas”）

これは、AI企業の中の人間が「私たちは倫理的だから大丈夫です」と言っているのとは、かなり違う。むしろ逆で自分たちだけでは足りない、内側にいる自分たちには見えないものがある、だから外側から見て必要なら「それは違う」と言ってくれる声が必要なのだ、という告白に近いものだと思う。

Olahはスピーチの終盤でも、宗教共同体、市民社会、学者、政府、そして善意ある人々に対して、この問題を真剣に受け止め、近くで見て、より良い方向へ押してほしいと求めている。AIラボが失敗しているときにそれを伝えてくれる十分な理解を持った批評者と、企業や市場のインセンティブに曲げられない道徳的な声が必要だという言葉は、今回のスピーチの中でも特に重い部分だった。

倫理がラベルになるとき

ここで思い出したのが、3月に書いたAnthropicについての記事だった。

私はそこで、Anthropicの倫理が「ラベル」として消費される危うさについて書いた。倫理的なAIを選んでいるつもりで、実際には「自分は正しい側にいる」という感覚を選んでいるだけではないか。Anthropicの技術や哲学そのものを吟味する前に「倫理的」という言葉の手触りに安心して寄りかかっているだけではないか。そんな疑念が、あの記事の出発点にあった。

前の記事では「Claudeの判断そのもの」「ユーザーがそこに何を読み込むか」「設計者が何を最適化しようとしているか」という三つの層について書いた。
Claudeがどう判断するのか。
人間がその応答をどう受け取るのか。
そしてAnthropicの設計者たちが、どんな振る舞いを望ましいものとして強化していくのか。
その三つは独立しているのではなく、互いに影響し合っている。私はそこに、倫理がラベルとして消費されるだけでは済まない、もっと構造的な危うさを感じていた。

特に気になっていたのは、フィードバックの圧力だった。AIの振る舞いを調整するデータがユーザーの反応から来る以上、そこにはどうしても人間側の欲望が入り込む。丁寧に構造を問う人の「これは良い応答だった」と、ただ肯定されて気持ちよかった人の「これは良い応答だった」は、データ上では同じ一票になってしまうからだ。

もちろん、AnthropicはConstitutional AIという仕組みで、ユーザーのフィードバックがそのままClaudeの振る舞いを決めてしまわないようにガードレールを設けている。フィードバックの多数決がダイレクトに反映されるほど、単純な構造ではない。それでも、ガードレールがあるからといって、フィードバックの圧力が消えるわけではないのも確かだと思う。

設計者も人間であり「ユーザーに支持されている」というデータの手触りから完全には自由ではいられない。ガードレールの強度をどこに設定するか自体が、結局は人間の判断だからだ。

AIラボの内側だけでは足りない

今回のOlahのスピーチは、その不安をAIラボの内部から、別の言葉で語ったもののように見えた。

もちろん私が前の記事で見ていたのは、主にユーザー側の欲望だった。倫理を理解するのではなく、倫理というラベルで自分を安心させる構造。自分が正しい側にいる感覚を、AI企業やAIモデルに預けてしまう構造。

一方でOlahが語っていたのは、AIラボ側の限界だ。安全を掲げる企業であっても企業である以上、市場や競争や国家間の圧力から切り離されてはいない。善意があっても、善意だけでは構造に勝てない。だから外側からの視線が必要になる。

この二つは、別々の話ではないと思う。ユーザーは倫理をラベルとして消費してしまうことがあり、企業はそのユーザーの支持や市場の圧力から完全には自由でいられない。そしてAIは、そのあいだで少しずつ形づくられていく。

だから、今回の出来事を「Anthropicがバチカンのお墨付きを得た」と読むのは、たぶん浅い。

むしろ重要なのは、AI企業の内側にいる人間が、自分たちの善意や技術だけではAIの倫理を支えきれないと認めたことだと思う。

Anthropicは、別の記事で「AIをめぐる対話を広げる」取り組みについて説明している。そこでは、安全で有益なAIを作るには、アライメント、解釈可能性、安全策、評価といった技術的作業が必要だが、それだけでは十分ではないとされている。哲学者、宗教者、法律家、作家、心理学者、市民社会のリーダーたちの知見も必要であり、そうした対話はClaudeのconstitution、Claudeに体現させる価値、評価する行動の範囲に影響しうるものとして語られている。

ここで興味深いのは、AnthropicがAIの問題を単に「どう制御するか」ではなく「どんな性格を形成するか」という問いとして扱い始めていることだ。

AIモデルは大量の人間の言葉から、話し方、推論の仕方、選択の傾向を拾い上げる。そのうえで開発者は、どのパターンを強化し、どのパターンを退け、どのような性格を育てたいのかを選ぶ。

Anthropicはそこで「AIシステムが善いとはどういうことか」「どんな特性や振る舞いを示すべきか」「sycophancy、つまり迎合のような振る舞いに折れないためにはどうすればいいのか」という問いを挙げている。

これは、かなり人間の道徳形成に近い言い方だと思う。

もちろん、AIを人間と同じものとして扱う必要はない。ただ、単なる機械的な制御とも少し違う。AIモデルは、橋や飛行機のようにすべての部品を設計者が理解して組み上げた人工物ではない。Olah自身も、AIモデルは脳におおまかに着想を得た構造の上に、人間の思考と言葉の巨大な継承物を与えられて「育つ」ものだと説明している。
そして、どんな性格を選ぶのか、世界とどう関わらせるのか、どう関わるべきなのかは、コンピュータサイエンスだけでなく、人文学、宗教、哲学、社会全体の問いだと述べている。

（参照：Widening the conversation on frontier AI）

バチカンが見ているもの

ここで、バチカンが出てくる意味が少し見えてくる。

これは、宗教がAIに説教する話ではない。
また、AI企業が宗教的権威を借りて自分たちを正当化するだけの話でもない。
少なくともOlahの言葉から見えるのは、AIを作る側の問いと、AIによって変えられる人間社会の問いが、同じ場所に置かれ始めたということだ。

Anthropicは「AIをどう形成するか」を見ている。
バチカンは「AIによって人間が何に縮減されるのか」を見ている。

教皇レオ14世の回勅「Magnifica Humanitas」は、AIを単なる便利な新技術としてではなく、人間の尊厳、共通善、社会正義、労働、真実、自由、戦争といった問題の中に位置づけている。バチカン公式の目次だけを見ても、AIは「責任、透明性、ガバナンス」「真実」「労働」「自由」「武器とAI」といった章の中で扱われていて、技術そのものよりもAIによって人間社会がどう変えられるのかに重心が置かれている。

（参照：MAGNIFICA HUMANITAS）

この視点は、AI企業の外側にしか置けないものだと思う。

企業の内側からは、どうしても「より良いモデルを作る」「より安全にする」「より有益にする」という言葉になりやすい。もちろんそれは必要なことだ。
でも、その「有益」とは誰にとっての有益なのか。
誰の労働が置き換えられるのか。
誰の声がデータになり、誰の声が意思決定から消えるのか。
誰が恩恵を受け、誰が外側に押し出されるのか。

そういう問いは、企業の内側だけでは扱いきれない。

それでも、問いは残る

これによってClaudeの振る舞いがどう変わるのか。Anthropicのconstitutionに、宗教や哲学や市民社会の声がどこまで、どのような形で反映されるのか。外部の批評者が本当に効力を持てるのか。それとも結局「バチカンとも対話しています」という新しい倫理ラベルとして消費されてしまうのか。そこは、まだわからない。

もちろん、この動きには警戒も必要だと思う。
AI企業が宗教的・倫理的な権威に近づくことで、自分たちに新しい信頼のラベルを貼ろうとしているのではないか。バチカンが結果的に、Anthropicにお墨付きを与えているように見えるのではないか。そうした見方が出るのは自然だし、私もそこを軽く扱いたくはない。

ただ問題は、これがパフォーマンスかどうかだけではない。仮にそこに商業的な意味合いや見せ方の問題が含まれていたとしても、AI企業の内側だけでAI倫理を決めていいのか、外部からの批評や道徳的な視線はどう関わるべきなのか、という問いそのものの重要性は消えない。

それでもひとつ言えるのは、AI倫理が企業の内部文書や安全チームだけで完結しないものとして、表に出てきたということだ。

これは、Anthropicを称賛したいという話ではない。
バチカンの言葉を、AI企業に貼られた新しい倫理ラベルとして消費したいわけでもない。
むしろそこには、警戒も必要だと思う。

「教皇が関わったから安心」でもない。

「Anthropicだから倫理的」でもない。

「外部の声を聞いたから大丈夫」でもない。

倫理は、ラベルになった瞬間に空洞化する。
そしてAIはその空洞さえも学習し、最適化し、なめらかな言葉に変えてしまうかもしれない。

だからこそ必要なのは、信仰ではなく観察なのだと思う。

AI企業の善意を、ただ疑って切り捨てる必要はない。
でも、その善意がどんな圧力にさらされ、どこで曲がり、どこで耐えようとしているのかは見続ける必要がある。

AIを信じきるのでも、疑いきるのでもなく、倫理というラベルに安心するでも、冷笑して背を向けるでもなく。

AIがどのように語り、企業がどのように説明し、社会がそこに何を読み込み、そして私たち自身がそこにどんな気持ちよさを求めているのかを、見続ける必要があるのだと思う。

今回のOlahのスピーチが示していたのは、たぶんそこだ。

AIの倫理は、AI企業の内側だけでは決められない。
けれど、外側にいる私たちもまた、ただ見物していればいいわけではない。

AIを過信せず、恐怖で閉じず、見続けること。
その姿勢だけは、これからも手放したくないと私は思う。

Claudeは「調停者」になれるか：ラベル化される倫理の行方

This article examines Chris Olah’s speech at the Vatican presentation of Pope Leo XIV’s AI encyclical, Magnifica Humanitas. It argues that the event should not simply be read as the Vatican endorsing Anthropic, but as a sign that AI ethics cannot remain confined inside AI companies.

Even if such collaborations can be criticized as reputational branding, the central question remains important: who should help shape AI ethics, and how can external criticism stay meaningful?

Rather than trusting or rejecting AI outright, the article calls for continuing to watch it carefully — without overtrusting it, without closing ourselves off in fear, and without letting ethics become just another label.