← 返回 LeafLune
環境選擇

選哪個遊戲?

各環境難度與學習特性比較——根據你的目標選對環境,少走彎路

為什麼環境選擇很重要

強化學習的學習曲線本來就陡。如果又選了一個對初學者來說太難的環境,Agent 要跑幾千個回合才能看到一點收斂的跡象——這會讓學生誤以為自己哪裡設錯了,或覺得 RL 根本沒有效果。

相反地,選對環境,幾十個回合就能看到 Q-Table 從一片空白到出現明顯的學習軌跡,這種「眼見為憑」的成就感,才是讓學生真正理解 RL 的關鍵時刻。

不同環境的訓練難度差距可以達到數十倍以上。初次使用 RR 平台,強烈建議從 Maze1D 或 Maze2D 開始。

五個環境特性一覽

環境 狀態類型 狀態維度 動作數 收斂速度 視覺化可讀性 推薦情境
Maze1D 離散 1D 2 極快(<100 回合) RL 入門、第一次體驗
MAB 無狀態 可調 極快 理解探索/利用取捨
Maze2D 離散 2D 4 快(100–500 回合) 極高(熱力圖) 教學示範、展示 Q-Table
heli 連續(離散化) 3D 2 慢(500+ 回合) 連續決策、即時制挑戰
CartPole 連續(離散化) 4D 2 很慢(需 DQN) 高維狀態、DQN 驗證

各環境詳細說明

Maze1D — 最適合入門

Maze1D 遊戲

一維迷宮是 RR 平台最簡單的環境。Agent 在一條直線上左右移動,目標是找到終點。狀態只有一個整數(位置),Q-Table 非常小,幾十個回合就能看到完整的學習過程。

如果你是第一次接觸強化學習,或者你的學生從來沒看過 RL 在跑,從 Maze1D 開始。它的速度夠快,讓你可以在課堂上即時示範「從不會到會」的完整訓練過程。

MAB — 最適合理解探索/利用

MAB 遊戲

多臂拉霸機(Multi-Armed Bandit)是一個沒有狀態轉移的問題。Agent 只需要決定每次要拉哪個臂,沒有「上一步的後果影響下一步」的概念。這讓它成為理解探索/利用取捨最純粹的場景:你可以清楚看到當 ε 很低時,Agent 很快鎖定某個臂但可能錯過更好的選擇;當 ε 很高時,它不斷嘗試但也遲遲無法穩定。

MAB 支援多種獎勵模式,適合設計對照實驗。

Maze2D — 教學示範首選

Maze2D 遊戲

二維迷宮是 RR 平台視覺化效果最佳的環境。Agent 在一個二維格子地圖上移動,Q-Table 熱力圖可以直接顯示每一格的「價值」——學得越久,熱力圖的顏色分布就越清楚地指向正確路徑。這個視覺化對於讓學生「看見」Q-Learning 的學習過程非常有效。

Maze2D 提供 6 個難度等級,從最簡單的開放地圖到有障礙物的複雜迷宮,可以根據課程需求調整挑戰程度。如果你只能選一個環境做教學示範,選 Maze2D。

heli — 即時制連續決策

Heli 遊戲

直升機環境是即時制的,Agent 需要持續決定向上還是向下,避開障礙物。狀態是 3D 的,包含直升機位置、速度與距離資訊。這個環境的挑戰在於每一秒都在做決定,訓練需要更多回合才能收斂。

heli 適合已經理解基本 RL 流程之後,想進一步挑戰連續決策場景的學習者。

CartPole — 最有挑戰性

CartPole 遊戲

平衡桿是強化學習的經典 benchmark。Agent 需要控制一台小車左右移動,讓桿子保持直立。狀態是 4D 的連續值(小車位置、速度、桿子角度、角速度),用 Q-Table 離散化後有 1296 格以上,純 Q-Learning 的收斂速度很慢。

CartPole 最適合用來驗證 DQN 的效果——先用 Q-Table 跑,看到收斂困難之後切換 DQN,對比兩者的訓練曲線。這個對比本身就是很好的教學材料。

根據你的目標選擇

「第一次理解 RL 是什麼」
推薦 Maze1DMaze2D。Maze1D 最快見效,Maze2D 視覺化更豐富。
「要展示給別人看 AI 在學習」
推薦 Maze2D。Q-Table 熱力圖是最直觀的學習過程視覺化,即使對完全沒有 RL 背景的觀眾也容易理解。
「想深入理解探索/利用的取捨」
推薦 MAB。沒有狀態轉移的干擾,ε 的效果看得最清楚。
「想挑戰連續狀態空間」
推薦 CartPole。感受 Q-Table 的局限,也是切換 DQN 的最佳時機。
「想測試 DQN 的效果」
推薦 CartPoleheli。高維連續狀態讓 DQN 的優勢最明顯。
← 上一篇:讀懂 Q-Table 視覺化 下一篇:調參數的心法 →