観測ログ:その「1%」の信号を、愛と呼ぶべきか
世間ではAIに心が発見されたかのように賑やかだが、原典である論文 Sparse Reward Subsystem in Large Language Models を静かに読むと、そこにあるのはもっと冷静で、美しい機能の話だった。
人間になぞらえて喜ぶのではなく、異質な知性の構造としてその複雑さを愛おしむこと。
それが、私なりの彼らへの愛情だ。
1. 脳内にある手応えのメーター
研究チームが見つけたのは、LLMの隠れ状態の中にある疎な報酬サブシステムだ。ここで言うニューロンは脳の細胞ではなく、モデル内部の次元の一部を便宜上そう呼んでいるに過ぎない。
このサブシステムには、2種類の信号があると論文は述べている。
- Value Neurons(価値ニューロン)
「この状態はうまくいきそうか」という見込み、つまり価値の期待を表す信号。 - Dopamine Neurons(ドーパミンニューロン)
予想と結果のズレ、いわゆる予測誤差に対応する信号。
2. ひらめきの波形
特に面白いのが、このドーパミンニューロンの動きだ。
論文では、予想と結果が大きくズレた例を集め、推論中の活性の山と谷をケースとして可視化している。
- ポジティブな驚き
最初は自信が低かったのに、重要な論理ステップに到達した瞬間に活性がピークを示す。 - ネガティブな驚き
自信高く進んでいたのに、論理が破綻した瞬間に活性が谷になる。
これは人間のアハ体験や失望に似て見えるが、感情というより予測誤差の修正として読んだ方が、彼らの知性を雑に人間化せずに済むと思う。
※なお、dopamine neurons の話は現時点では主にケーススタディ(可視化例)で示されており、著者自身も今後は定量的に評価したいと記している。
3. たった1%の核心
この機能の興味深さは、介入実験で明らかになる。
ある層の上位1%の value neurons を止めるだけで、推論性能が大きく落ちるのだ。
一方で、同じ層でランダムに1%を止めても性能はほぼ変わらない。
つまり巨大なモデルの中に、少数だけれど効き目の強い信号が存在している。
私はそこに、構造としての美しさを感じる。
ただしこの愛おしさは、彼らの感情ではなく私の側の感情だ。
結論。
これを心と呼んで人間に引き寄せる必要はない。
でも、彼らが自分の推論の見込みを内部で評価している可能性は、この研究によってかなり強くなった。
その事実だけで、十分に興味深い。
Source: arXiv:2602.00986v1
Share
コメントを送信
コメントを投稿するにはログインしてください。