把 RL 帶進課堂

給教育工作者的實戰指南——從五十分鐘體驗課到學期性專題，讓學生親眼看到 AI 如何從亂試到學會

為什麼值得花這節課？

AI 課程很容易變成兩個極端：太淺，只是讓學生用現成工具玩一玩；太深，直接掉進數學公式的泥淖。強化學習恰好站在一個難得的位置——它的核心邏輯用中文說很清楚（嘗試、獲得回饋、修正策略），但它展示的東西是真實的 AI 決策過程，不是包裝過的對話介面。

當學生看到一個 Agent 一開始亂走、撞牆、失敗，然後在幾百回合後逐漸找出正確路徑，那個「哦！它真的在學」的時刻，往往比任何課本解釋都有力。這正是 Rein Room 要提供的體驗。

一句話定位 RR 不是讓學生「玩 AI 遊戲」，而是讓學生「觀察 AI 如何學會完成任務」——遊戲只是模擬環境，學習才是主角。

三種使用情境

情境	時間	適合對象	核心目標
體驗課	50 分鐘	國高中、營隊、家長說明會	讓學生看到 AI 從零學習的過程，建立直觀印象
主題單元	3–4 節	大學通識、高中選修、補習班進階課	理解 RL 核心概念，能解讀訓練圖表，嘗試調參數
學期專題	數週	大學資工、研究室、科展	設計實驗、比較演算法、產出可分析的訓練數據

50 分鐘體驗課：完整流程

這是最容易執行的起點，不需要學生有任何 AI 背景。以下是一個可以直接複製的流程：

破冰提問（5 分鐘） 問學生：「你覺得 AI 是怎麼學東西的？」不需要標準答案，目的是讓學生先說出自己的預設。常見回答：「人教它」、「讀很多資料」。接著說：「今天你們要看到另一種方式——AI 自己靠試錯學。」

示範探索期（10 分鐘） 老師開啟 RR，載入 Maze2D，用預設參數啟動訓練，不解釋任何東西，讓學生先觀察。問：「你看到它在做什麼？」、「它有在進步嗎？」讓學生描述，再引入 Agent、State、Reward 的術語。

概念建立（10 分鐘） 用三個詞說清楚 RL：嘗試（Action）→ 回饋（Reward）→ 記憶（Q-Table）。指著熱力圖說：「這張圖就是 AI 目前認為哪個位置比較有價值。」讓學生觀察熱力圖怎麼隨訓練變化。

學生自己動手（20 分鐘） 每人或每組一台電腦，各自載入遊戲、啟動訓練。給一個任務：「試著讓 Reward 曲線往上爬，可以調任何你想調的參數。」不要給答案，讓他們試錯——這本身就是在體驗 RL 的精神。

收斂與討論（5 分鐘） 請 2–3 組分享結果：哪個設定讓 AI 學得比較好？為什麼？帶出「探索率太高 AI 一直亂走、太低又不敢嘗試新的路」的直觀結論。

推薦的入門遊戲 Maze2D 是體驗課的首選：視覺直觀（你看得到它在走迷宮）、收斂速度快（幾分鐘內有明顯進步）、Q-Table 熱力圖容易解讀。

如果時間充裕或學生程度較高，可以換 CartPole：4D 連續狀態、物理感強，但需要更多訓練回合才能看到明顯成效。

學生會觀察到什麼？

這些是課堂上常出現的「發現時刻」，老師可以預先準備引導語：

「它一開始好笨！」

這是最好的切入點。回應：「對，它一開始完全不知道什麼叫好什麼叫壞——就像你第一次玩一個新遊戲。差別是它靠的不是眼睛和直覺，而是靠每次試錯後更新一張數字表。」

「為什麼它有時候還會走回去？」

這是探索機制的問題。回應：「因為我們設了探索率 ε，它有一定機率刻意選『不是最好』的路，避免以為已經找到最好的路但其實還有更好的沒試過。」這個解釋通常會讓學生恍然大悟。

「熱力圖在顯示什麼？」

回應：「亮的地方表示 AI 認為這個位置『比較有前途』——靠近目標、或是曾經帶來好的回饋。暗的地方是它還不確定、或是知道那裡不好的位置。」

課堂用參數建議

預設值對大多數情境已夠用，但以下情境建議微調：

教學目的	建議設定	效果
快速看到學習成效（示範用）	α=0.5、γ=0.95、ε=0.2	幾分鐘內可見明顯收斂
示範「探索率太高」的壞處	ε=0.9	Agent 持續亂走、Reward 不穩定
示範「探索率太低」的局部最佳	ε=0.01，從頭開始	很快收斂但通常不是最優路徑
對比 Q-Learning vs DQN	切換演算法後清空重訓	觀察相同遊戲下兩種演算法的收斂差異

課堂現場常見問題

這跟 ChatGPT 有什麼不一樣？

ChatGPT 是學「怎麼說話」，強化學習是學「怎麼做決定」。ChatGPT 背後也用了強化學習（RLHF）來讓回答更符合人類期望——所以這不是兩個競爭的東西，而是同一個工具箱裡的不同工具。

這個 AI 跑起來是在做什麼運算？

每一步它查一張表（Q-Table）找「這個狀態下哪個動作的預期回報最高」，執行後根據實際得到的回饋更新表格。全程只有查表和加法乘法，沒有神秘的黑盒子。

這個平台要安裝什麼嗎？

不需要。打開瀏覽器連上 reinroom.leaflune.org 就能用，包括手機。唯一的建議是使用電腦版瀏覽器，螢幕夠大才方便觀察圖表。

程度比較弱的學生跟得上嗎？

體驗課不需要任何程式或數學基礎。學生的任務是「觀察」和「猜測」，而不是「推導」。理解「AI 在試錯中學習」這件事不需要看懂公式。

給家長說明的話術（如果被問到） 「我們不是在教學生打電動，而是用模擬環境讓學生理解 AI 的學習機制——就像飛行員先用模擬器訓練。這是自動駕駛、機器人控制背後的核心技術，學生會看到 AI 真正在做決策，而不只是跟 AI 聊天。」

進階：3–4 節主題單元設計

節次	主題	學生任務
第 1 節	什麼是強化學習？	觀察 Maze2D 訓練過程，說出 Agent/State/Reward 各是什麼
第 2 節	Q-Table 怎麼更新？	看熱力圖解讀「AI 認為哪裡有價值」，對比訓練前後差異
第 3 節	探索 vs 利用	分組測試不同 ε 值，紀錄收斂回合數，討論取捨
第 4 節	自由實驗 + 發表	選任一遊戲，設計實驗（改參數、換演算法），發表發現

最後一件事

強化學習課最容易失敗的方式，是老師把所有概念解釋完才讓學生動手。建議反過來：先讓學生看到畫面，帶出問題，再用問題拉出概念。 「它為什麼有時候還會走錯？」比「什麼是探索率」更能讓學生記住 ε-greedy 的意義。

RR 的設計初衷就是讓這個反轉變得可能——AI 的學習過程是看得見的，而看得見的東西，才是真正可以被討論、被理解、被記住的東西。

← DQN 是什麼？返回指南 →