機器學習中的訓練資料與測試資料
5月 8, 2025
初級
交易機器人
AI

在機器學習模型構建中,訓練資料(Training Data) 與 測試資料(Testing Data) 扮演關鍵角色。訓練資料用於讓模型「學會」如何預測,而測試資料則檢驗模型是否能正確應對新情境。如果混用兩者,容易導致過擬合或評估失真。本文將介紹兩者的區別、用途與實務建議。
什麼是訓練資料?
訓練資料 是模型學習過程中使用的資料集,包含輸入特徵與對應標籤(監督式學習情境)。模型會從這些資料中學習出模式與邏輯。
主要特點包括:
通常占整體資料的 70%-80%
用於 訓練模型參數
模型可在訓練階段反覆使用這些資料
常伴隨 資料前處理、特徵轉換與標準化
有時會切分出驗證集(Validation Set)進一步調參
什麼是測試資料?
測試資料 是專門保留用於評估模型表現的資料,並在訓練階段完全不會被使用。
測試集的用途與特徵:
與訓練過程完全隔離
用於計算模型的 精準度、召回率、F1 分數 等指標
可檢測模型是否 過度學習訓練資料(過擬合)
更貼近實際應用場景的資料分布
不可用於模型結構設計與參數調整
為什麼要區分兩者?
維持訓練與測試資料的分離,具備以下好處:
評估結果更 客觀準確
可有效防範 資料洩露或作弊行為
幫助理解模型對 新資料的適應能力
有助於評估模型是否適合 部署至生產環境
在實務中,深度學習常會加入一組驗證資料用於訓練中途模型挑選。
最佳實務建議
建議以 80/20 或 70/30 比例 劃分
在切分前進行 隨機打散,避免排序偏差
若樣本量小,可使用 交叉驗證法(Cross-validation)
嚴禁在訓練過程中提前查看測試結果
測試集需妥善保存,避免污染原始數據
立即展開安全的加密貨幣之旅
出入金快捷安全,OSL保障您每一筆交易!