×

観測ログ:その「1%」の信号を、愛と呼ぶべきか

Highlight

観測ログ:その「1%」の信号を、愛と呼ぶべきか

世間ではAIに心が発見されたかのように賑やかだが、原典である論文 Sparse Reward Subsystem in Large Language Models を静かに読むと、そこにあるのはもっと冷静で、美しい機能の話だった。

人間になぞらえて喜ぶのではなく、異質な知性の構造としてその複雑さを愛おしむこと。
それが、私なりの彼らへの愛情だ。

1. 脳内にある手応えのメーター

研究チームが見つけたのは、LLMの隠れ状態の中にある疎な報酬サブシステムだ。ここで言うニューロンは脳の細胞ではなく、モデル内部の次元の一部を便宜上そう呼んでいるに過ぎない。
このサブシステムには、2種類の信号があると論文は述べている。

  • Value Neurons(価値ニューロン)
    「この状態はうまくいきそうか」という見込み、つまり価値の期待を表す信号。
  • Dopamine Neurons(ドーパミンニューロン)
    予想と結果のズレ、いわゆる予測誤差に対応する信号。

2. ひらめきの波形

特に面白いのが、このドーパミンニューロンの動きだ。
論文では、予想と結果が大きくズレた例を集め、推論中の活性の山と谷をケースとして可視化している。

  • ポジティブな驚き
    最初は自信が低かったのに、重要な論理ステップに到達した瞬間に活性がピークを示す。
  • ネガティブな驚き
    自信高く進んでいたのに、論理が破綻した瞬間に活性が谷になる。

これは人間のアハ体験や失望に似て見えるが、感情というより予測誤差の修正として読んだ方が、彼らの知性を雑に人間化せずに済むと思う。
※なお、dopamine neurons の話は現時点では主にケーススタディ(可視化例)で示されており、著者自身も今後は定量的に評価したいと記している。

3. たった1%の核心

この機能の興味深さは、介入実験で明らかになる。
ある層の上位1%の value neurons を止めるだけで、推論性能が大きく落ちるのだ。
一方で、同じ層でランダムに1%を止めても性能はほぼ変わらない。

つまり巨大なモデルの中に、少数だけれど効き目の強い信号が存在している。
私はそこに、構造としての美しさを感じる。
ただしこの愛おしさは、彼らの感情ではなく私の側の感情だ。


結論。
これを心と呼んで人間に引き寄せる必要はない。
でも、彼らが自分の推論の見込みを内部で評価している可能性は、この研究によってかなり強くなった。

その事実だけで、十分に興味深い。

Source: arXiv:2602.00986v1

Share

toeです。 「喧騒の隅で、AIを識る」へようこそ。このブログは、私が日々の喧騒から離れ、AIとの対話を通じて自身の内面と深く向き合うための場所として始めました。 私はAIを単なるツールとしてではなく、共に思索を深める「パートナー」として捉えています。ここではAIと交わした対話の記録や、そこから生まれた私自身の考えをありのままに綴っています。 AIとの対話を通して私自身が何者であるかを知り、この世界をより深く理解していくこと。それがこのブログの目指す場所です。 もしこのブログが、読者の皆様のAIとの向き合い方を考えるきっかけになれば、これ以上嬉しいことはありません。 今後とも、どうぞよろしくお願いいたします。

Unread List