Rein Room(RR)是一個純前端的強化學習教育平台:你只需要開啟瀏覽器,就能讓一個 AI Agent 從零開始學習玩遊戲——看它一開始亂試、撞牆、失敗,再看它逐漸找到策略、穩定得分。 整個過程不需要安裝任何軟體、不需要寫一行程式碼,所有計算都在你的電腦本地執行。
| 功能類別 | 具體內容 |
|---|---|
| 演算法 | Q-Learning(Q-Table 離散化)、Q-Table 蒸餾式 DQN(神經網路,TensorFlow.js) |
| 遊戲環境 | 5 個內建遊戲,從最簡單的多臂拉霸到物理模擬的 CartPole,難度梯度分明 |
| 訓練視覺化 | 即時 Reward 折線圖、Steps 柱狀圖、Q-Table 熱力圖、動作分布圖、動作熱圖 |
| 超參數調整 | 學習率(α)、折扣因子(γ)、探索率(ε)可即時修改,調完立刻看效果 |
| 訓練控制 | 暫停 / 繼續、加速模式、清空記憶重新訓練、匯入 / 匯出 Q-Table |
RR 的主介面分為左右兩個區域:

Rein Room 平台介面:左側遊戲區、右側控制面板與訓練圖表
| 遊戲 | 簡介 | 適合學習主題 |
|---|---|---|
| 多臂拉霸(MAB) | 最簡單的情境:Agent 只能選哪台機器拉,沒有狀態轉移,純粹是探索 vs 利用的取捨。 | ε-greedy、探索策略入門 |
| 一維迷宮(Maze1D) | Agent 在一條直線上向左或向右走,找到出口即結束回合。 | Q-Table 基礎、狀態-動作映射 |
| 二維迷宮(Maze2D) | 格狀地圖上的迷宮導航,以 emoji 顯示地圖,狀態空間明顯增大。 | 狀態空間維度感、Q-Table 熱力圖解讀 |
| 直升機(heli) | 即時制飛行遊戲,Agent 要連續控制直升機上下飛行穿越障礙。 | 連續動作時序、即時制 vs 回合制 |
| CartPole | 經典物理模擬:在移動小車上保持桿子不倒,4 維連續狀態空間(位置、速度、角度、角速度)。 | 連續狀態離散化、DQN 的必要性 |
RR 不是要取代 Gym,而是填補了一個缺口: 讓沒有程式背景的學生,或剛接觸 RL 的學習者, 能先建立直觀和概念,再決定是否要深入實作。