強化學習是什麼？

試錯、獎勵、策略——AI 如何靠反覆嘗試學會做決定

從學騎腳踏車說起

想一想，你是怎麼學會騎腳踏車的？

沒有人告訴你「左腳施力 40%、右腳 35%、上半身前傾 12 度」。你坐上去，搖晃，差點摔倒，下意識把重心移回來，稍微成功一點點——然後再試，再調整。幾十次之後，你突然就「會了」。

沒有課本，沒有標準答案，只有一次次嘗試帶來的回饋：摔倒（懲罰）或保持平衡（獎勵）。這個學習過程，就是強化學習的核心邏輯。

強化學習不給 AI 標準答案。它讓 AI 自己嘗試、觀察結果、從回饋中調整行為——就像你學騎腳踏車一樣。

強化學習由四個要素組成，它們構成一個持續循環的互動過程：

這個循環不斷重複：Agent 觀察 State → 選擇 Action → Environment 回傳 Reward 和新 State → 重複。每一輪循環，Agent 都在從結果中累積經驗，慢慢調整自己的策略。

給 AI 大量「輸入 + 正確答案」的配對資料，讓它學習對應規律。

例子：圖片辨識——輸入貓的照片，正確答案是「貓」

特點：需要人工標注大量資料，不適合「答案難以定義」的任務

給 AI 大量資料，讓它自己找出資料中的規律或結構，沒有預設答案。

例子：顧客分群——找出消費行為相似的族群

特點：探索資料結構，但不知道「對不對」

讓 AI 在環境中互動，靠 Reward 訊號自己摸索出好的行為策略。

例子：學下棋——靠贏棋（正 Reward）與輸棋（負 Reward）來學習

特點：不需要標注答案，但需要定義 Reward 規則

強化學習的數學基礎叫「馬可夫決策過程」（Markov Decision Process，MDP）。它有一個重要假設，用一句話說：

Agent 的下一個決定，只取決於當前狀態，不用記住所有歷史。
現在在哪裡、現在的速度是多少——這就夠了，不需要知道「我是怎麼走到這一步的」。

這個假設讓計算變得可行。如果 Agent 每次決策都要回顧所有歷史，計算量會爆炸。 MDP 的假設幫助我們把複雜問題簡化成「當下狀態 → 行動 → 新狀態」的反覆迭代。

以 Maze2D（二維迷宮）為例，把抽象概念對應到你在平台上看到的東西：

RL 角色	在 Maze2D 裡是...
Agent	在迷宮裡移動的藍色圓點
Environment	迷宮地圖本身——它接受 Agent 的移動指令，更新位置，判斷是否到達終點或撞牆
State	Agent 目前在迷宮中的格子座標（x, y）
Reward	抵達終點給大正值，撞牆或超時給負值，平常移動給小負值（鼓勵快速到達）
Action	上、下、左、右四個移動方向

每一個訓練回合：Agent 從起點出發，根據當前座標選擇方向，移動後收到 Reward，再根據新座標繼續選擇——直到到達終點或超過步數上限。

大多數 AI 的「學習成果」藏在幾千萬個神經網路參數裡，完全看不懂。 Q-Learning 不一樣——它把學習結果存在一張叫 Q-Table 的表格裡。

Q-Table 的每一格記錄的是：「在這個狀態下，採取這個動作，長期來看能拿到多少 Reward？」訓練越久，這張表格就越精準。

Rein Room 的「分析」分頁把 Q-Table 轉成 熱力圖：顏色越亮的位置，代表 Agent 認為越有價值。在 Maze2D 裡，你會看到終點附近明亮、死路暗沉——這就是 Agent 一步步試出來的「世界地圖」。

Maze2D 的 Q-Table 熱力圖：亮色代表 Agent 認為高價值的位置

重點整理
強化學習 = 試錯 + 回饋 + 累積經驗。Agent 不需要老師給答案，只需要一個能給出 Reward 訊號的環境。 Q-Table 把這個學習過程記錄下來，熱力圖讓我們用眼睛讀懂它。

Reward 一定要是數字嗎？可以是文字評語嗎？

傳統強化學習的 Reward 必須是數值，因為演算法需要比大小、做加減計算。用文字評語做 Reward 是一個進階研究方向（稱為 RLHF，人類回饋強化學習），ChatGPT 等大語言模型就用了這種方式，但其底層仍然會把人類評分轉成數值。

State 一定要是座標嗎？

不一定。State 可以是任何能描述「當前情況」的資訊。Maze2D 用座標，CartPole 用推車位置、速度、桿子角度、角速度四個數值，MAB 多臂拉霸幾乎沒有狀態（每次拉都是獨立的）。State 的設計是強化學習中很重要的工程決策。

Q-Learning 和深度學習（DQN）有什麼差？

Q-Learning 用表格記錄每個狀態-動作對的價值，適合狀態空間有限的問題。DQN 用神經網路取代表格，能處理狀態空間巨大（甚至是圖像輸入）的問題。Rein Room 同時實作了這兩種方法，可以在設定面板切換。