← 返回 LeafLune 用 RR 讓學生看到 AI 從亂試到學會的過程
教學應用

把 RL 帶進課堂

給教育工作者的實戰指南——從五十分鐘體驗課到學期性專題,讓學生親眼看到 AI 如何從亂試到學會

為什麼值得花這節課?

AI 課程很容易變成兩個極端:太淺,只是讓學生用現成工具玩一玩;太深,直接掉進數學公式的泥淖。 強化學習恰好站在一個難得的位置——它的核心邏輯用中文說很清楚(嘗試、獲得回饋、修正策略), 但它展示的東西是真實的 AI 決策過程,不是包裝過的對話介面。

當學生看到一個 Agent 一開始亂走、撞牆、失敗,然後在幾百回合後逐漸找出正確路徑, 那個「哦!它真的在學」的時刻,往往比任何課本解釋都有力。 這正是 Rein Room 要提供的體驗。

一句話定位 RR 不是讓學生「玩 AI 遊戲」,而是讓學生「觀察 AI 如何學會完成任務」——遊戲只是模擬環境,學習才是主角。

三種使用情境

情境時間適合對象核心目標
體驗課 50 分鐘 國高中、營隊、家長說明會 讓學生看到 AI 從零學習的過程,建立直觀印象
主題單元 3–4 節 大學通識、高中選修、補習班進階課 理解 RL 核心概念,能解讀訓練圖表,嘗試調參數
學期專題 數週 大學資工、研究室、科展 設計實驗、比較演算法、產出可分析的訓練數據

50 分鐘體驗課:完整流程

這是最容易執行的起點,不需要學生有任何 AI 背景。以下是一個可以直接複製的流程:

1
破冰提問(5 分鐘) 問學生:「你覺得 AI 是怎麼學東西的?」不需要標準答案,目的是讓學生先說出自己的預設。常見回答:「人教它」、「讀很多資料」。接著說:「今天你們要看到另一種方式——AI 自己靠試錯學。」
2
示範探索期(10 分鐘) 老師開啟 RR,載入 Maze2D,用預設參數啟動訓練,不解釋任何東西,讓學生先觀察。問:「你看到它在做什麼?」、「它有在進步嗎?」讓學生描述,再引入 Agent、State、Reward 的術語。
3
概念建立(10 分鐘) 用三個詞說清楚 RL:嘗試(Action)→ 回饋(Reward)→ 記憶(Q-Table)。指著熱力圖說:「這張圖就是 AI 目前認為哪個位置比較有價值。」讓學生觀察熱力圖怎麼隨訓練變化。
4
學生自己動手(20 分鐘) 每人或每組一台電腦,各自載入遊戲、啟動訓練。給一個任務:「試著讓 Reward 曲線往上爬,可以調任何你想調的參數。」不要給答案,讓他們試錯——這本身就是在體驗 RL 的精神。
5
收斂與討論(5 分鐘) 請 2–3 組分享結果:哪個設定讓 AI 學得比較好?為什麼?帶出「探索率太高 AI 一直亂走、太低又不敢嘗試新的路」的直觀結論。
推薦的入門遊戲 Maze2D 是體驗課的首選:視覺直觀(你看得到它在走迷宮)、收斂速度快(幾分鐘內有明顯進步)、Q-Table 熱力圖容易解讀。

如果時間充裕或學生程度較高,可以換 CartPole:4D 連續狀態、物理感強,但需要更多訓練回合才能看到明顯成效。

學生會觀察到什麼?

這些是課堂上常出現的「發現時刻」,老師可以預先準備引導語:

「它一開始好笨!」

這是最好的切入點。回應:「對,它一開始完全不知道什麼叫好什麼叫壞——就像你第一次玩一個新遊戲。 差別是它靠的不是眼睛和直覺,而是靠每次試錯後更新一張數字表。」

「為什麼它有時候還會走回去?」

這是探索機制的問題。回應:「因為我們設了探索率 ε,它有一定機率刻意選『不是最好』的路, 避免以為已經找到最好的路但其實還有更好的沒試過。」這個解釋通常會讓學生恍然大悟。

「熱力圖在顯示什麼?」

回應:「亮的地方表示 AI 認為這個位置『比較有前途』——靠近目標、或是曾經帶來好的回饋。 暗的地方是它還不確定、或是知道那裡不好的位置。」

課堂用參數建議

預設值對大多數情境已夠用,但以下情境建議微調:

教學目的建議設定效果
快速看到學習成效(示範用) α=0.5、γ=0.95、ε=0.2 幾分鐘內可見明顯收斂
示範「探索率太高」的壞處 ε=0.9 Agent 持續亂走、Reward 不穩定
示範「探索率太低」的局部最佳 ε=0.01,從頭開始 很快收斂但通常不是最優路徑
對比 Q-Learning vs DQN 切換演算法後清空重訓 觀察相同遊戲下兩種演算法的收斂差異

課堂現場常見問題

這跟 ChatGPT 有什麼不一樣?
ChatGPT 是學「怎麼說話」,強化學習是學「怎麼做決定」。ChatGPT 背後也用了強化學習(RLHF)來讓回答更符合人類期望——所以這不是兩個競爭的東西,而是同一個工具箱裡的不同工具。
這個 AI 跑起來是在做什麼運算?
每一步它查一張表(Q-Table)找「這個狀態下哪個動作的預期回報最高」,執行後根據實際得到的回饋更新表格。全程只有查表和加法乘法,沒有神秘的黑盒子。
這個平台要安裝什麼嗎?
不需要。打開瀏覽器連上 reinroom.leaflune.org 就能用,包括手機。唯一的建議是使用電腦版瀏覽器,螢幕夠大才方便觀察圖表。
程度比較弱的學生跟得上嗎?
體驗課不需要任何程式或數學基礎。學生的任務是「觀察」和「猜測」,而不是「推導」。理解「AI 在試錯中學習」這件事不需要看懂公式。
給家長說明的話術(如果被問到) 「我們不是在教學生打電動,而是用模擬環境讓學生理解 AI 的學習機制——就像飛行員先用模擬器訓練。 這是自動駕駛、機器人控制背後的核心技術,學生會看到 AI 真正在做決策,而不只是跟 AI 聊天。」

進階:3–4 節主題單元設計

節次主題學生任務
第 1 節 什麼是強化學習? 觀察 Maze2D 訓練過程,說出 Agent/State/Reward 各是什麼
第 2 節 Q-Table 怎麼更新? 看熱力圖解讀「AI 認為哪裡有價值」,對比訓練前後差異
第 3 節 探索 vs 利用 分組測試不同 ε 值,紀錄收斂回合數,討論取捨
第 4 節 自由實驗 + 發表 選任一遊戲,設計實驗(改參數、換演算法),發表發現

最後一件事

強化學習課最容易失敗的方式,是老師把所有概念解釋完才讓學生動手。 建議反過來:先讓學生看到畫面,帶出問題,再用問題拉出概念。 「它為什麼有時候還會走錯?」比「什麼是探索率」更能讓學生記住 ε-greedy 的意義。

RR 的設計初衷就是讓這個反轉變得可能——AI 的學習過程是看得見的, 而看得見的東西,才是真正可以被討論、被理解、被記住的東西。

← DQN 是什麼? 返回指南 →