探索 vs 利用 — ε-greedy 與 Softmax 的差異

AI 如何決定「試新的」還是「做已知最好的」

如果只選「當前最好的」，會怎樣？

想像你在一個陌生城市找餐廳。第一天隨機走進一家拉麵店，還不錯，評個 7 分。第二天你又去同一家——因為這是你目前「已知最好的」。第三天、第四天，還是同一家。

結果是：你永遠不會知道隔壁那家義大利麵其實是 9 分。你的「最佳選擇」被鎖死在第一次的不完整資訊裡了。

這就是強化學習裡的 探索與利用的取捨（Exploration vs Exploitation）：

只利用不探索的代價： 如果 Agent 一開始碰巧學到一個還過得去但非最優的策略，它就會一直重複這個策略，永遠不會去嘗試更好的路徑。 Q-Table 的大部分格子甚至永遠不會被更新到。

最常見的解法是 ε-greedy（ε 念作 epsilon-greedy）：

每一步，先擲一個骰子（0 到 1 之間的隨機數）。

若隨機數 < ε → 隨機選一個動作（探索）。

若隨機數 ≥ ε → 選 Q 值最高的動作（利用）。

ε 越高，探索越多；ε 越低，越傾向利用已知。兩個極端：ε = 1 是完全隨機，ε = 0 是完全貪婪（greedy）。

RR 預設啟用 Cold-Start：訓練開始時 ε 很高（大量探索），隨著訓練回合推進，ε 按衰減率逐漸降低，Agent 慢慢轉向利用已學到的策略。這模擬了「先廣泛嘗試、後逐漸收斂」的學習過程。

適合 ε-greedy 的場景： 狀態空間清楚離散、每個狀態都有明確的「最好動作」可言。 Maze1D、Maze2D 這類格狀環境非常適合用 ε-greedy。

ε-greedy 的問題是：它不管 Q 值的差距大小—— 不管第一名領先第二名是 0.01 分還是 100 分，它都是用同一個 ε 決定要不要隨機。

Softmax 策略 更細膩：它把所有動作的 Q 值轉換成機率分布， Q 值越高的動作被選到的機率越高，但不是 100%。如果幾個動作的 Q 值很接近，每個都有不低的機率被選到（保持探索）；如果某個動作明顯最好，它被選的機率就接近 1（近似貪婪）。

Softmax 有一個「溫度」參數控制分布的集中程度：

Softmax 的優點： 探索行為「智慧地」和 Q 值差距掛鉤。 Q-Table 還很混亂的早期，各動作被選機率相近（探索充分）；學習收斂後，策略自然集中，不需要手動調 ε。

以下是一個很有說服力的對比實驗，可以在 RR 上直接做：用 Maze2D，其他參數不變，只改探索策略。

ε = 0.1（幾乎不探索）
Agent 很快固定下來，但可能卡在次優路徑，最終 Reward 偏低、不穩定。

ε = 0.5（大量探索）
早期進步較慢，但探索充分，最終通常能找到更好的路徑，Reward 較高且穩定。

Softmax（自動調節）
早期探索充分，後期自動收斂；若溫度設得好，通常能兼顧探索品質與收斂速度。

ε=0.05：快速收斂但易陷局部最佳

ε=0.2（預設）：穩定收斂

ε=0.5：持續探索，收斂慢

「ε 設成 0，Agent 就不會亂來，不是學得更快嗎？」

這是初學者非常常見的直覺，但結果恰恰相反。

ε = 0 代表 Agent 從頭到尾都只選「目前 Q 值最高的動作」。但訓練剛開始，Q-Table 都是 0（或隨機初始值），根本沒有足夠資訊知道哪個動作真的比較好—— 「最高 Q 值」只是隨機初始化帶來的假象。

這樣的 Agent 會很快鎖死在第一個碰巧 Q 值稍高的動作，從此一直重複，其他動作的 Q 值永遠沒機會被更新，整個 Q-Table 學不起來。

正確做法：讓訓練初期有足夠探索（ε 較高或使用 cold-start），確保各狀態-動作組合都被嘗試到，才能讓 Bellman 更新有意義。

探索是學習的前提，不是干擾： 只有當 Agent 嘗試過足夠多的動作，Q-Table 才能反映真實的好壞差異。過度「專心利用」只是在加速收斂到一個差的局部最優解。