DownLoad

機器學習中的訓練資料與測試資料

5月 8, 2025

初級
交易機器人
AI
3D split screen_ left shows AI learning from textbook (training) in light green background, no word_Green_ HEX -A0FF00_Blue_ HEX -142032_Black_ HEX -000000.jpg

在機器學習模型構建中,訓練資料(Training Data)測試資料(Testing Data) 扮演關鍵角色。訓練資料用於讓模型「學會」如何預測,而測試資料則檢驗模型是否能正確應對新情境。如果混用兩者,容易導致過擬合或評估失真。本文將介紹兩者的區別、用途與實務建議。

什麼是訓練資料?

訓練資料 是模型學習過程中使用的資料集,包含輸入特徵與對應標籤(監督式學習情境)。模型會從這些資料中學習出模式與邏輯。

主要特點包括:

  • 通常占整體資料的 70%-80%

  • 用於 訓練模型參數

  • 模型可在訓練階段反覆使用這些資料

  • 常伴隨 資料前處理、特徵轉換與標準化

  • 有時會切分出驗證集(Validation Set)進一步調參

什麼是測試資料?

測試資料 是專門保留用於評估模型表現的資料,並在訓練階段完全不會被使用。

測試集的用途與特徵:

  • 與訓練過程完全隔離

  • 用於計算模型的 精準度、召回率、F1 分數 等指標

  • 可檢測模型是否 過度學習訓練資料(過擬合)

  • 更貼近實際應用場景的資料分布

  • 不可用於模型結構設計與參數調整

為什麼要區分兩者?

維持訓練與測試資料的分離,具備以下好處:

  • 評估結果更 客觀準確

  • 可有效防範 資料洩露或作弊行為

  • 幫助理解模型對 新資料的適應能力

  • 有助於評估模型是否適合 部署至生產環境

在實務中,深度學習常會加入一組驗證資料用於訓練中途模型挑選。

最佳實務建議

  • 建議以 80/20 或 70/30 比例 劃分

  • 在切分前進行 隨機打散,避免排序偏差

  • 若樣本量小,可使用 交叉驗證法(Cross-validation)

  • 嚴禁在訓練過程中提前查看測試結果

  • 測試集需妥善保存,避免污染原始數據

立即展開安全的加密貨幣之旅

出入金快捷安全,OSL保障您每一筆交易!


免責聲明

© OSL 版權所有。
本網站涉及數字資產交易,可能包括數字證券和其他複雜金融產品或工具,可能不適合所有投資者。
本網站不構成任何數字資產或金融工具交易的招攬、邀請或要約。