DQN Maze: Olfactory Navigation

座標情報を完全排除。壁の手触りと「ゴールまでの直線距離(匂い)」だけで知能を形成します。

🧠 感情モデル (Expert)

Offline
EPI: 0
STEP: 0
WIN: 0
内的感情:安定

🧠 標準モデル (Normal)

Pure Logic
EPI: 0
STEP: 0
WIN: 0
感情:なし(合理的)

🎲 ランダム (Control)

Neural Input Ignored
EPI: 0
STEP: 0
WIN: 0

技術解説:座標の剥奪と「匂い」による探索

1. 「絶対座標」から「ザックリとした距離感」へ

過去のバージョンでは、AIに「ゴールのX方位」「ゴールのY方位」を教えていました。これはAIが自分の現在地を間接的に知っているのと同じで、少しズルをしている状態でした。

今回のアップデートで、方位情報を完全に剥奪し、代わりに「ゴールからの直線距離(ユークリッド距離)」という単一の数値のみを与えるようにしました。これは、視覚(座標)ではなく、「ゴールの匂いの強さ」だけを頼りに暗闇を歩くようなものです。

2. 難易度の上昇と感情の真価

方位が分からないため、AIは「壁沿いに進んだら匂い(距離)が遠ざかった。戻るべきか?」というジレンマに直面します。迂回が必要な複雑な迷路において、この判断は非常に困難です。

ここで感情モデルの「直進による快感」「Uターンの不快感」が真価を発揮します。匂いが薄くなっても「引き返すのは不快だ」という内的感情が働くため、一時的な後退を恐れずに道を突き進む「突破力」が生まれます。

3. ニューロンの動作原理(重み付けの反復)

  • AIの脳(ニューラルネットワーク)は、初期状態では入力と行動を繋ぐ「重み」がランダムな数値です。
  • 壁への衝突(ペナルティ)や直進の快感(報酬)を経験するたび、関与した「重み」が微調整されます。
  • これを繰り返すことで、脳内に「匂いが強くなる方向へは青いパルス(促進)」「壁が近い方向へは赤いパルス(抑制)」を流す物理的な回路が形成されます。