更新時(shí)間:2022-07-15 來源:黑馬程序員 瀏覽量:
SOM 即自組織映射,是一種用于特征檢測的無監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。它模擬人腦中處于不同區(qū)域的神經(jīng)細(xì)胞 分工不同的特點(diǎn),即不同區(qū)域具有不同的響應(yīng)特征,而且這一過程是自動(dòng)完成的。SOM 用于生成訓(xùn)練樣本的低維 空間,可以將高維數(shù)據(jù)間復(fù)雜的非線性統(tǒng)計(jì)關(guān)系轉(zhuǎn)化為簡單的幾何關(guān)系,且以低維的方式展現(xiàn),因此通常在降維問題中會(huì)使用它。
SOM 的訓(xùn)練過程:
紫色區(qū)域表示訓(xùn)練數(shù)據(jù)的分布狀況,白色網(wǎng)格表示從該分布中提取的當(dāng)前訓(xùn)練數(shù)據(jù)。
(1) SOM 節(jié)點(diǎn)位于數(shù)據(jù)空間的任意位置,最接近訓(xùn)練數(shù)據(jù)的節(jié)點(diǎn)(黃色高亮部分)會(huì)被選中。它和網(wǎng)格中的鄰近節(jié)點(diǎn)一樣,朝訓(xùn)練數(shù)據(jù)移動(dòng)。
(2)在多次迭代之后,網(wǎng)格傾向于近似該種數(shù)據(jù)分布(下圖最右)。
所有的神經(jīng)元組織成一個(gè)網(wǎng)格,網(wǎng)格可以是六邊形、四邊形……,甚至是鏈狀、圓圈……
網(wǎng)絡(luò)的結(jié)構(gòu)通常取決于輸入的數(shù)據(jù)在空間中的分布。 SOM的作用是將這個(gè)網(wǎng)格鋪滿數(shù)據(jù)存在的空間。
每個(gè)神經(jīng)元由正方形表示,正方形內(nèi)的粉紅色區(qū)域表示神經(jīng)元最接近的數(shù)據(jù)點(diǎn)的相對(duì)數(shù)量 - 粉紅色區(qū)域越大,該神經(jīng)元表示的數(shù)據(jù)點(diǎn)越多。
當(dāng)我們將訓(xùn)練數(shù)據(jù)輸入到網(wǎng)絡(luò)中時(shí),會(huì)計(jì)算出所有權(quán)重向量的歐幾里德距離。權(quán)重向量與輸入最相似的神經(jīng)元 稱為最佳匹配單元(BMU)。BMU 的權(quán)重和 SOM 網(wǎng)格中靠近它的神經(jīng)元會(huì)朝著輸入矢量的方向調(diào)整。一旦確定 了 BMU,下一步就是計(jì)算其它哪些節(jié)點(diǎn)在 BMU 的鄰域內(nèi)。
(1)將網(wǎng)格的神經(jīng)元隨機(jī)定位在數(shù)據(jù)空間中。
(2)選擇一個(gè)數(shù)據(jù)點(diǎn),按順序隨機(jī)或系統(tǒng)地循環(huán)遍歷數(shù)據(jù)集。
(3)找到最接近所選數(shù)據(jù)點(diǎn)的神經(jīng)元。這種神經(jīng)元被稱為最佳匹配單元(BMU)。
(4)將BMU移近該數(shù)據(jù)點(diǎn)。 BMU移動(dòng)的距離由學(xué)習(xí)速率確定,學(xué)習(xí)速率在每次迭代后減小。
(5)將BMU的鄰居移動(dòng)到更靠近該數(shù)據(jù)點(diǎn)的位置,遠(yuǎn)處的鄰居移動(dòng)得更少。使用BMU周圍的半徑來識(shí)別鄰居,并且在每次迭代之后該半徑的值減小。
(6)在重復(fù)步驟1到4之前,更新學(xué)習(xí)速率和BMU半徑。迭代這些步驟,直到神經(jīng)元的位置穩(wěn)定。
SOM 通常用在可視化中。比如右圖,世界各國貧困數(shù)據(jù)的可視化。生活質(zhì)量較高的國家聚集在左上方,而貧 困最嚴(yán)重的國家聚集在右下方。
SOM 的其它一些應(yīng)用還包括:
數(shù)據(jù)壓縮
語音識(shí)別
分離音源
欺詐檢測