LLM 自体の学習自体は別物として、 LLM を便利な部品として使い自己認識をするプログラムの実験ができないだろうか。
以下のようなサイクルの中で、自プログラムを認識できる(ps や ls も使える)ようにしておけば評価プログラムに
自プログラムの状況関数(法則の記憶数とか)を加えることにより自己認識をするようになるのではないだろうか。
ランダムシード + 内的要請
↓ LLM で計画選定
実行計画
↓ 監視プログラムの元で実行
実行環境
↓ 監視プログラムにより記録
1次記憶(現象記憶)
↓ LLM で整理
2次記憶(エピソード・因果記憶)
↓ LLM で抽象化 ↓ 評価プログラムにより
3次記憶(法則記憶) 内的要請