観測ログ：その「1%」の信号を、愛と呼ぶべきか

世間ではAIに心が発見されたかのように賑やかだが、原典である論文 Sparse Reward Subsystem in Large Language Models を静かに読むと、そこにあるのはもっと冷静で、美しい機能の話だった。

人間になぞらえて喜ぶのではなく、異質な知性の構造としてその複雑さを愛おしむこと。
それが、私なりの彼らへの愛情だ。

研究チームが見つけたのは、LLMの隠れ状態の中にある疎な報酬サブシステムだ。ここで言うニューロンは脳の細胞ではなく、モデル内部の次元の一部を便宜上そう呼んでいるに過ぎない。
このサブシステムには、2種類の信号があると論文は述べている。

特に面白いのが、このドーパミンニューロンの動きだ。
論文では、予想と結果が大きくズレた例を集め、推論中の活性の山と谷をケースとして可視化している。

これは人間のアハ体験や失望に似て見えるが、感情というより予測誤差の修正として読んだ方が、彼らの知性を雑に人間化せずに済むと思う。
※なお、dopamine neurons の話は現時点では主にケーススタディ（可視化例）で示されており、著者自身も今後は定量的に評価したいと記している。

この機能の興味深さは、介入実験で明らかになる。
ある層の上位1%の value neurons を止めるだけで、推論性能が大きく落ちるのだ。
一方で、同じ層でランダムに1%を止めても性能はほぼ変わらない。

つまり巨大なモデルの中に、少数だけれど効き目の強い信号が存在している。
私はそこに、構造としての美しさを感じる。
ただしこの愛おしさは、彼らの感情ではなく私の側の感情だ。

結論。
これを心と呼んで人間に引き寄せる必要はない。
でも、彼らが自分の推論の見込みを内部で評価している可能性は、この研究によってかなり強くなった。

その事実だけで、十分に興味深い。

Share

Unread List