首頁常見問題正文

高級(jí)數(shù)據(jù)建模分析:模型擬合程度越高效果越好嗎?

更新時(shí)間:2022-11-23 來源:黑馬程序員 瀏覽量:

Java培訓(xùn)班

  一般而言,我們希望追求更好的擬合程度,因?yàn)樵胶玫臄M合意味著模型能夠越全面地學(xué)習(xí)到數(shù)據(jù)中的規(guī)律和信息。但是,在某些場(chǎng)景下,擬合程度過高意味著嚴(yán)重的“負(fù)面”問題。

  例如,決策樹是一類數(shù)據(jù)擬合程度非常高的算法,但可能產(chǎn)生過擬合的問題。過擬合通俗點(diǎn)講就是在做分類訓(xùn)練時(shí),模型過度學(xué)習(xí)了訓(xùn)練集的特征,使得訓(xùn)練集的準(zhǔn)確率非常高,但是將模型應(yīng)用到新的數(shù)據(jù)集時(shí),準(zhǔn)確率卻很差。因此,避免過擬合是分類模型(重點(diǎn)是單一樹模型)的一個(gè)重要任務(wù)。通過以下方式可以有效避免過擬合。

  (1)使用更多的數(shù)據(jù)。導(dǎo)致過擬合的根本原因是訓(xùn)練集和新數(shù)據(jù)集的特征存在較大的差異,導(dǎo)致原本完美擬合的模型無法對(duì)新數(shù)據(jù)集產(chǎn)生良好的效果。

 ?。?)降維。通過維度選擇或轉(zhuǎn)換的方式,降低參與分類模型的特征數(shù)量,能有效防止原有數(shù)據(jù)集中的“噪聲”對(duì)模型的影響,從而達(dá)到避免過擬合的目的。

 ?。?)使用正則化方法。正則化會(huì)定義不同特征的參數(shù)來保證每個(gè)特征有一定的效用,不會(huì)使某一特征特別重要。

 ?。?)使用組合方法。例如,隨機(jī)森林、adaboost、xgboost等不容易產(chǎn)生過擬合的問題。

  相似問題:過擬合不僅存在于決策樹中,也存在于其他監(jiān)督式學(xué)習(xí)中。例如,在做回歸時(shí),基本上所有的模型都有各種誤差。當(dāng)你發(fā)現(xiàn)誤差非常小,甚至幾乎為0的時(shí)候,就要非常小心,因?yàn)檫@時(shí)候很可能已經(jīng)出現(xiàn)了信息泄露、具有強(qiáng)相關(guān)的特征、特征選取失誤等問題。

分享到:
在線咨詢 我要報(bào)名
和我們?cè)诰€交談!