在GAN中,對(duì)于判別器D來(lái)說(shuō),實(shí)際上就是一個(gè)普通的二分類(lèi)問(wèn)題。
根據(jù)文章《交叉熵,KL散度以及多分類(lèi)問(wèn)題下的極大似然估計(jì)》當(dāng)中的思考,對(duì)于二分類(lèi)問(wèn)題的極大似然估計(jì),有如下式子成立:
L(X,Y,θ)=∫x∫yp(x,y)logq(y|x)dydx=∫p(x)[p(yi=1|xi)logq(yi=1|xi)+p(yi=0|xi)logq(yi=0|xi)]dx
L(X,Y,θ)=∫x∫yp(x,y)log?q(y|x)dydx=∫p(x)[p(yi=1|xi)log?q(yi=1|xi)+p(yi=0|xi)log?q(yi=0|xi)]dx
那么,將上式的最后一步重新寫(xiě)成聯(lián)合概率的形式,有
L(X,Y,θ)=∫[p(x,y=1)logq(y=1|x)+p(x,y=0)logq(y=0|x)]dx=∫[p(x,y=1)logq(y=1|x)+p(x,y=0)logq(y=0|x)]dx
L(X,Y,θ)=∫[p(x,y=1)log?q(y=1|x)+p(x,y=0)log?q(y=0|x)]dx=∫[p(x,y=1)log?q(y=1|x)+p(x,y=0)log?q(y=0|x)]dx
對(duì)應(yīng)到GAN中來(lái),D分類(lèi)器要做的就是給定一個(gè)x,需要判斷這個(gè)樣本x是屬于real data還是generated data,如果我們把屬于real data當(dāng)作y=1,generated data當(dāng)作y=0,那么便有
L(X,Y,θ)=∫[p(x,y=1)logq(y=1|x)+p(x,y=0)logq(y=0|x)]dx=∫[p(x∈real)logq(y=1|x)+p(x∈fake)logq(y=0|x)]dx=∫pr(x)logq(y=1|x)dx+∫pg(x)logq(y=0|x)]dx=∫pr(x)logD(x)dx+∫pg(x)log(1?D(x))dx=Epr(x)[log(D(x))]+Epg(x)[log(1?D(x))]
L(X,Y,θ)=∫[p(x,y=1)log?q(y=1|x)+p(x,y=0)log?q(y=0|x)]dx=∫[p(x∈real)log?q(y=1|x)+p(x∈fake)log?q(y=0|x)]dx=∫pr(x)log?q(y=1|x)dx+∫pg(x)log?q(y=0|x)]dx=∫pr(x)log?D(x)dx+∫pg(x)log?(1?D(x))dx=Epr(x)[log?(D(x))]+Epg(x)[log?(1?D(x))]
判別器
判別器作為一個(gè)二分類(lèi)器,其目標(biāo)函數(shù)是極大似然估計(jì),那么當(dāng)D(x)取什么值的時(shí)候,似然函數(shù)達(dá)到最大值呢?因?yàn)橛?nbsp;
L(D)=∫[pr(x)logD(x)+pg(x)log(1?D(x))]dx
L(D)=∫[pr(x)log?D(x)+pg(x)log?(1?D(x))]dx
從積分的微觀角度來(lái)解決這個(gè)問(wèn)題的話,實(shí)際上這個(gè)式子可以變形為
L(D)=∑i=1N[pr(xi)logD(xi)+pg(xi)log(1?D(xi))]Δx=∑i=1Nf(D(xi))Δx
L(D)=∑i=1N[pr(xi)log?D(xi)+pg(xi)log?(1?D(xi))]Δx=∑i=1Nf(D(xi))Δx
其中,有兩個(gè)點(diǎn):
Δx=|x|NΔx=|x|N,意思是說(shuō)把x的定義域等分成N份
xi+1=xi+Δxxi+1=xi+Δx
由于對(duì)所有的采樣點(diǎn)xixi來(lái)說(shuō),ΔxΔx都相同的,因此如果能夠使得求和里面的每一項(xiàng)f(D)都能夠達(dá)到最大值,那么自然就取得了L(D)的最大值。而f(D)的最大值可以通過(guò)對(duì)D求導(dǎo)獲得:
?f(D)?D=pr(x)?D(x)(pr(x)+pg(x))D(x)(1?D(x))
?f(D)?D=pr(x)?D(x)(pr(x)+pg(x))D(x)(1?D(x))
令導(dǎo)數(shù)為0,可以求得能夠使得似然函數(shù)最大的最優(yōu)判別器為:
D?(x)=pr(x)pr(x)+pg(x)
D?(x)=pr(x)pr(x)+pg(x)
幾個(gè)概率的思考
這里的思考主要來(lái)自于上面的式子。
概率p(y=1|x)p(y=1|x)的分布
在GAN中,給定一個(gè)樣本x,它有可能來(lái)自于真實(shí)的數(shù)據(jù),即x~pr(x)x~pr(x),也有可能來(lái)自于生成的假的數(shù)據(jù)分布,即x~pg(x)x~pg(x),而這兩個(gè)分布可能存在重疊區(qū)域,也有可能存在不重疊的區(qū)域
- 在重疊區(qū)域概率分布p(y=1|x)p(y=1|x)為一個(gè)0到1的某個(gè)數(shù)
- 在不重疊區(qū)域分為兩種情況:一種是只有真實(shí)數(shù)據(jù)樣本的分布,那么p(y=1|x)=1p(y=1|x)=1;另一種是只有生成數(shù)據(jù)樣本的分布,那么p(y=1|x)=0p(y=1|x)=0
- 假如在一維的x軸上,從左側(cè)到右側(cè)依次是:只有真實(shí)數(shù)據(jù)分布,有重疊區(qū)域,只有生成數(shù)據(jù)分布,那么p(y=1|x)p(y=1|x)的形狀便是從左側(cè)到右側(cè)依次是:恒等于1,根據(jù)實(shí)際數(shù)據(jù)情況而波動(dòng),恒等于0
各個(gè)概率之間的關(guān)系
有這幾種概率
- p(y=1|x)p(y=1|x),上面已經(jīng)討論過(guò)了
- p(x,y=1)p(x,y=1),它實(shí)際上等于pr(x)pr(x),也就是真實(shí)數(shù)據(jù)的分布
- p(x|y=1)=p(x,y=1)p(y=1)p(x|y=1)=p(x,y=1)p(y=1)
這些概率之間的關(guān)系,可以參考之前思考過(guò)的二維高斯分布的情況。
作者:黑馬程序員云計(jì)算大數(shù)據(jù)培訓(xùn)學(xué)院
首發(fā):http://cloud.itheima.com/