實驗做完才發現少了對照組

你是不是也遇到這個問題？

你花了三個月收集數據、訓練模型、調參數，終於跑出不錯的結果。興奮地開始寫 Method 章節，結果教授看了一眼就問：

「你的 baseline 呢？」「Ablation study 做了嗎？」「你怎麼證明是你的方法有效，不是數據本身就容易分？」

你愣住了。這些實驗要從頭跑，又是一兩個月。更慘的是，有些數據已經沒辦法重新收集了。

「實驗做到一半才發現當初設計漏了對照組，但數據收集的窗口已經過了，只能硬著頭皮用不完整的結果投稿」 — 學員反饋

「Reviewer 第一條就問 Why no ablation study，我才知道這是必須的」 — 學員反饋

這種「做完才發現少東西」的狀況，幾乎每個研究生都遇過至少一次。但它完全可以避免。

因為實驗設計有一套標準六要素，少了任何一個，reviewer 都會抓出來要求補做。但大部分人在設計實驗時只想著「怎麼實現我的方法」，沒有系統性地檢查完整性。

這六個要素是：

大部分研究生只做了第 1 項就開始跑實驗。等到寫論文或被 reviewer 質疑時，才發現 2-6 都沒做。

在寫任何一行程式碼之前，用這張 checklist 自我檢查：

六個框全部打勾才能開始跑實驗。

把你的實驗設計方案告訴 AI，請它扮演「嚴格的 Reviewer 2」來挑毛病：

預審不一定能發現所有問題，但能幫你找出明顯的遺漏。花 30 分鐘做預審，好過三個月後才發現問題。

確認實驗設計完整後，根據計算需求選擇執行環境：

第一層 — 本機 / Google Colab：適合快速原型驗證。先用小數據集確認程式碼能跑通、結果方向正確。

第二層 — 實驗室 GPU 伺服器：適合正式實驗。用完整數據集跑所有實驗（主實驗 + baseline + ablation）。

第三層 — 雲端 GPU（AWS/GCP）：適合大規模實驗或趕 deadline。可以同時開多台機器並行跑不同實驗。

關鍵原則：永遠在第一層確認設計正確後，再上第二、三層跑正式實驗。 不要用昂貴的資源來除錯。

核心原則： 實驗設計的完整性在開始前檢查，不是結束後補救。六要素 checklist，缺一不可。

Q：我的研究沒有 baseline 可以比較怎麼辦？

幾乎不存在「沒有 baseline」的情況。如果真的是全新的問題，至少可以比較：隨機猜測（random baseline）、簡單統計方法（如線性回歸）、人類表現（human performance）。Reviewer 要看的是「相對比較」，不一定需要完全同類的方法。

Q：Ablation study 要做多細？

看你方法的複雜度。如果你的方法有 3 個創新點，至少做 3 組 ablation（各移除一個）。如果有 5 個以上的組件，可以只對「你聲稱最重要的 2-3 個」做 ablation。原則是：你在論文中 claim 了什麼貢獻，就要用 ablation 證明什麼。

Q：實驗需要跑幾次才算有統計意義？

取決於你的實驗穩定性。深度學習實驗通常跑 3-5 次取平均和標準差。如果標準差很大（超過平均值的 10%），需要跑更多次或檢查實驗設定。傳統機器學習用 5-fold 或 10-fold cross-validation。

這是論文方法學 12 Phase 的 Phase 5：實驗設計。