首頁(yè)人工智能技術(shù)資訊正文

決策樹(shù)的劃分依據(jù)之:信息增益

更新時(shí)間:2021-09-16 來(lái)源:黑馬程序員 瀏覽量:

IT培訓(xùn)班

信息增益:以某特征劃分?jǐn)?shù)據(jù)集前后的熵的差值。熵可以表示樣本集合的不確定性,熵越大,樣本的不確定性就越大。因此可以使用劃分前后集合熵的差值來(lái)衡量使用當(dāng)前特征對(duì)于樣本集合D劃分效果的好壞。
信息增益 = entroy(前) - entroy(后)
注:信息增益表示得知特征X的信息而使得類Y的信息熵減少的程度

定義與公式
假定離散屬性a有 V 個(gè)可能的取值:

假設(shè)離散屬性性別有2(男,女)個(gè)可能的取值

若使用a來(lái)對(duì)樣本集 D 進(jìn)行劃分,則會(huì)產(chǎn)生 V 個(gè)分支結(jié)點(diǎn),

其中第v個(gè)分支結(jié)點(diǎn)包含了 D 中所有在屬性a上取值為a^v的樣本,記為D^v. 我們可根據(jù)前面給出的信息熵公式計(jì)算出D^v的信息熵,再考慮到不同的分支結(jié)點(diǎn)所包含的樣本數(shù)不同,給分支結(jié)點(diǎn)賦予權(quán)重\frac{|D^v|}{|D|}

即樣本數(shù)越多的分支結(jié)點(diǎn)的影響越大,于是可計(jì)算出用屬性a對(duì)樣本集 D 進(jìn)行劃分所獲得的"信息增益" (information gain)

其中:

特征a對(duì)訓(xùn)練數(shù)據(jù)集D的信息增益Gain(D,a),定義為集合D的信息熵Ent(D)給定特征a條件下D的信息條件熵Ent(D|a)之差,即公式為:

公式的詳細(xì)解釋:

信息熵的計(jì)算:

條件熵的計(jì)算:

其中:

D^v 表示a屬性中第v個(gè)分支節(jié)點(diǎn)包含的樣本數(shù)

C^{kv} 表示a屬性中第v個(gè)分支節(jié)點(diǎn)包含的樣本數(shù)中,第k個(gè)類別下包含的樣本數(shù)

一般而言,信息增益越大,則意味著使用屬性 a 來(lái)進(jìn)行劃分所獲得的"純度提升"越大。因此,我們可用信息增益來(lái)進(jìn)行決策樹(shù)的劃分屬性選擇,著名的 ID3 決策樹(shù)學(xué)習(xí)算法 [Quinlan, 1986] 就是以信息增益為準(zhǔn)則來(lái)選擇劃分屬性。其中,ID3 名字中的 ID 是 Iterative Dichotomiser (迭代二分器)的簡(jiǎn)稱


案例:

如下圖,第一列為論壇號(hào)碼,第二列為性別,第三列為活躍度,最后一列用戶是否流失。

我們要解決一個(gè)問(wèn)題:性別和活躍度兩個(gè)特征,哪個(gè)對(duì)用戶流失影響更大?

通過(guò)計(jì)算信息增益可以解決這個(gè)問(wèn)題,統(tǒng)計(jì)上右表信息

其中Positive為正樣本(已流失),Negative為負(fù)樣本(未流失),下面的數(shù)值為不同劃分下對(duì)應(yīng)的人數(shù)。

可得到三個(gè)熵:

a.計(jì)算類別信息熵

整體熵:

b.計(jì)算性別屬性的信息熵(a="性別")

c.計(jì)算性別的信息增益(a="性別")

b.計(jì)算活躍度屬性的信息熵(a="活躍度")

c.計(jì)算活躍度的信息增益(a="活躍度")

活躍度的信息增益比性別的信息增益大,也就是說(shuō),活躍度對(duì)用戶流失的影響比性別大。在做特征選擇或者數(shù)據(jù)分析的時(shí)候,我們應(yīng)該重點(diǎn)考察活躍度這個(gè)指標(biāo)。




猜你喜歡:

SIFT算法原理:SIFT算法詳細(xì)介紹

DeepLab系列各有什么特點(diǎn)?

什么是KNN算法?

如何成為頂級(jí)開(kāi)源項(xiàng)目的貢獻(xiàn)者

黑馬程序員ai人工智能開(kāi)發(fā)課程

分享到:
在線咨詢 我要報(bào)名
和我們?cè)诰€交談!