全國(guó)咨詢(xún)/投訴熱線(xiàn):400-618-4000

首頁(yè)新聞動(dòng)態(tài)正文

數(shù)據(jù)挖掘十大經(jīng)典算法,想從事數(shù)據(jù)挖掘就不得不看

更新時(shí)間:2019-12-11 來(lái)源:黑馬程序員 瀏覽量:

(1)C4.5:算法是機(jī)器學(xué)習(xí)算法中的一種分類(lèi)決策樹(shù)算法,其核心算法是ID3算法. C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對(duì)ID3算法進(jìn)行了改進(jìn):

1) 用信息增益率來(lái)選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;

2) 在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝;

3) 能夠完成對(duì)連續(xù)屬性的離散化處理;

4) 能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。

C4.5算法有如下優(yōu)點(diǎn):產(chǎn)生的分類(lèi)規(guī)則易于理解,準(zhǔn)確率較高。其缺點(diǎn)是:在構(gòu)造樹(shù)的過(guò)程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。

1576043352235_數(shù)據(jù)挖掘算法.jpg

(2)樸素貝葉斯(naive bayes):  樸素貝葉斯是給予概率論的原理,它的思想是對(duì)于給出的未知無(wú)題要進(jìn)行分類(lèi),需要求解在這個(gè)未知物體出現(xiàn)的條件下各個(gè)類(lèi)別出現(xiàn)的概率,找最大概率那個(gè)分類(lèi),數(shù)據(jù)更新影響思想。

(3)SVM:中文叫支持向量機(jī):Support Vector Machine,SVM  在訓(xùn)練中簡(jiǎn)歷了一個(gè)超平面的分類(lèi)模型。

(4)KNN: K最近鄰(k-Nearest  Neighbor,KNN)分類(lèi)算法,是一個(gè)理論上比較成熟的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一。

該方法的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別。

(5)Adaboost: 在懸鏈中簡(jiǎn)歷一個(gè)聯(lián)合分類(lèi)模型,boost  提升的意思,所以adaboost是個(gè)構(gòu)建分類(lèi)模型器的提升算法,它可以讓多個(gè)弱的分類(lèi)器組成一個(gè)強(qiáng)的分類(lèi)器。

(6)CART: CART戴表分類(lèi)和回歸樹(shù),Classification and Regression Trees.  構(gòu)建了兩棵樹(shù),一顆分類(lèi)樹(shù),一個(gè)回歸樹(shù),是一個(gè)決策樹(shù)學(xué)習(xí)算法。

(7)Apriori是一個(gè)挖掘關(guān)聯(lián)規(guī)則(association  rules)的算法,通過(guò)挖掘頻繁頂集(frequent item  sets)來(lái)解釋物品之間的關(guān)聯(lián)關(guān)系,被廣泛應(yīng)用于商業(yè)挖掘和網(wǎng)絡(luò)安全領(lǐng)域中,頻繁項(xiàng)集是一個(gè)指經(jīng)常出現(xiàn)在一起的物品集合,關(guān)聯(lián)規(guī)則按時(shí)著兩種物品之間可能存在很強(qiáng)的關(guān)系。

(8)K-Means:k-means  algorithm算法是一個(gè)聚類(lèi)算法,把n的對(duì)象根據(jù)他們的屬性分為k個(gè)分割,k <  n。它與處理混合正態(tài)分布的最大期望算法很相似,因?yàn)樗麄兌荚噲D找到數(shù)據(jù)中自然聚類(lèi)的中心。它假設(shè)對(duì)象屬性來(lái)自于空間向量,并且目標(biāo)是使各個(gè)群組內(nèi)部的均方誤差總和最小。

(9)EM: EM算法也叫最大期望算法,是求參數(shù)的最大似然估計(jì)的一種算法,原理是這樣的:假設(shè)我們想要評(píng)估參數(shù)A和參數(shù)B,在開(kāi)始狀態(tài)下二者都是未知的,并且知道了A的信息就可以得到B的信息,反過(guò)來(lái)知道了B的也就得到A的,可以考慮首先賦予A某個(gè)初值,以此得到B的估值,然后從B的估值出發(fā),重新估計(jì)A的取值,這個(gè)過(guò)程一直持續(xù)到收斂未知。推薦了解,黑馬程序員大數(shù)據(jù)培訓(xùn)課程。

(10)PageRank: 起源于論文的影響力的計(jì)算方式,如果一篇論文被引入次數(shù)越多,就代表這篇論文的影響力越強(qiáng),PageRank被Google創(chuàng)造性地應(yīng)用到了網(wǎng)頁(yè)權(quán)重的計(jì)算中,當(dāng)一個(gè)頁(yè)面鏈接的頁(yè)面越多,說(shuō)明這個(gè)頁(yè)面的‘參考文獻(xiàn)’越多,當(dāng)這個(gè)頁(yè)面被鏈入的頻率越高,說(shuō)明這個(gè)頁(yè)面的引用次數(shù)越高,基于這個(gè)原理,我們可以得到網(wǎng)站的權(quán)重劃分。


分享到:
在線(xiàn)咨詢(xún) 我要報(bào)名
和我們?cè)诰€(xiàn)交談!