首頁人工智能技術(shù)資訊正文

如何實(shí)現(xiàn)個(gè)性化推薦?

更新時(shí)間:2020-09-14 來源:黑馬程序員 瀏覽量:

相關(guān)背景

對于一家品牌電商,連接著供應(yīng)商和用戶,改善供應(yīng)鏈的同時(shí)給用戶提供高品質(zhì)、高質(zhì)量、無大牌溢價(jià)的商品。營銷側(cè)業(yè)務(wù)場景是在線電商的重中之重,面臨的場景挑戰(zhàn)包括:

·如何優(yōu)化流量分配?

·如何增加 GMV?

·如何提升用戶購物體驗(yàn)?

互聯(lián)網(wǎng)人口紅利消失殆盡,在存量爭奪用戶時(shí)間的戰(zhàn)場上,必須高效充分利用每份流量。使用個(gè)性化算法是各家必用技術(shù),在電商的營銷場景提升效果明顯,點(diǎn)擊率預(yù)估提升一小步,流水增益一大步。該目前主要采用深度模型應(yīng)用在搜索、推薦、廣告等場景,具體算法方向有DeepCTR、Embedding、NLP 等。

在轉(zhuǎn)向深度學(xué)習(xí)的這兩年,該方案個(gè)性化場景的用戶體驗(yàn)、指標(biāo)數(shù)據(jù)都有較大提升(產(chǎn)品形式、系統(tǒng)能力、算法效果都在持續(xù)優(yōu)化中)。個(gè)性化場景最重要的兩個(gè)階段是召回和排序,接下來會從這兩方面切入分享一些實(shí)踐經(jīng)驗(yàn)和思路總結(jié)。

個(gè)性化推薦


技術(shù)方案

能力統(tǒng)一召回體系

這里的召回更準(zhǔn)確定義是召回 + 粗排。召回的目的是快速縮小范圍,減輕精排的壓力。當(dāng)下的挑戰(zhàn)不在數(shù)據(jù)規(guī)模和系統(tǒng)壓力,我們設(shè)計(jì)系統(tǒng)最看重的是復(fù)用性、維護(hù)性和擴(kuò)展性。因此考慮對召回能力做大統(tǒng)一,涉及搜索、推薦、廣告、客服多個(gè)業(yè)務(wù)場景。


召回抽象

對召回來說,輸入輸出都是信息,只是信息的類別可能不同,同時(shí)必須定義信息間關(guān)系度量:$ score = f (InputData,OutputData) 。召回階段對時(shí)延比較敏感,不能選用太過復(fù)雜關(guān)系度量算法。對于多個(gè)場景,信息可以抽象為:

·搜索(輸入查詢詞,輸出商品列表、專題內(nèi)容列表)

·推薦(輸入用戶,輸出商品列表)

·廣告(輸入用戶,輸出素材列表)

·客服(輸入問題,輸出答案列表、相似問題列表)

信息載體包括文本和向量,兩端信息載體相同的情況下才能計(jì)算關(guān)系度量值。 顯而易見查詢詞、商品、問題 / 答案、專題內(nèi)容天然包含文本信息,而使用向量必須依靠模型做目標(biāo)的向量化表征。

類似 Airbnb[1] Sequence Embedding 思路,我們基于實(shí)現(xiàn)商品向量化表征,同時(shí)引入Batch內(nèi) pairwise loss 和 side info 進(jìn)一步提升模型的性能和效果?;谏唐废蛄靠梢躁P(guān)聯(lián)表征用戶、查詢詞、專題。問題 / 答案的向量化參考 sentence embedding 技術(shù),由專門的 NLP 同學(xué)負(fù)責(zé)。

召回能力

如果信息是文本或向量,召回能力需要支持:

·文字相關(guān)性

依靠 ElasticSearch 索引,BM25 算法度量相關(guān)性。

·語義相似性

Pre-train 和 fine-tuning 的 BERT 模型推斷相關(guān)性。

·向量最近鄰

近似最近鄰搜索(Approximate Nearest Neighbor),余弦距離計(jì)算相關(guān)性。

作為通用召回體系必須保證低延時(shí)、高可用,具體做系統(tǒng)架構(gòu)時(shí)我們將三種能力都用索引來支撐。文字相關(guān)性本來就是索引提供的能力;向量最近鄰基于 LSH(Locality-sensitive hashing)投影后再建索引,獲取索引正排數(shù)據(jù)(原始向量)計(jì)算匹配得分,實(shí)現(xiàn)向量的在線查詢能力。非 GPU 環(huán)境下 BERT 模型比較耗時(shí),可將熱門查詢詞和高頻問題(二八定律)做離線推斷,結(jié)果得分 T+1 同步到索引。

至此三種能力都整合在索引體系下,召回場景可以并行使用。舉個(gè)例子: 搜索場景:輸入查詢詞同時(shí)使用文字相關(guān)性,語義相似性(Query 和 ItemTitle 形成 setence pair),向量最近鄰召回商品(QueryVector 到 ItemVector)。這樣商品總量偏小,擴(kuò)展召回能力希望用戶能看到更多關(guān)聯(lián)商品。

推薦場景:輸入推薦模塊商品池條件和用戶向量,使用文字相關(guān)性(多路召回的商品過濾條件,是通用的索引條件查詢),向量最近鄰 (UserVector 到 ItemVector) 召回商品。

各顯神通精排服務(wù)

精排場景沒有考慮對能力做抽象統(tǒng)一,每個(gè)模塊核心訴求點(diǎn)會不同(有些戰(zhàn)略導(dǎo)向的場景可能只考慮曝光點(diǎn)擊量)。核心指標(biāo)上綜合考量曝光轉(zhuǎn)化率(CTR*CVR)、UV 價(jià)值、總體 GMV,這些都是算法需要全局優(yōu)化的目標(biāo),同時(shí)綜合業(yè)務(wù)方的人工策略,呈現(xiàn)給用戶最終的商品瀏覽效果。小伙伴可以充分發(fā)揮聰明才智,自由選擇特征和模型結(jié)構(gòu),以線上 AB Test 數(shù)據(jù)評估價(jià)值。我們的精排模型探索往大的說分為兩方面:追求精度效果的復(fù)雜深度模型和實(shí)時(shí)感知用戶偏好的在線模型,下文做詳細(xì)介紹。

復(fù)雜模型

使用深度模型做 DeepCTR 預(yù)估,主體思路是 Embedding&MLP,對模型做該方案嚴(yán)選場景的適配調(diào)整。我們首個(gè)深度模型是 WDL[2],Wide Part 依靠先驗(yàn)知識構(gòu)建特征,挑選高覆蓋、高價(jià)值屬性兩兩交叉構(gòu)建特征。Deep Part 依靠深度網(wǎng)絡(luò)實(shí)現(xiàn)特征組合,對商品 Id、類目 Id、屬性 Id Embedding,但不直接對用戶 Id Embedding,而是基于用戶和商品的行為序列表征用戶,引入注意力模塊[3] 計(jì)算用戶向量。

后續(xù)在定制 WDL 之上加入 CTR、CVR 的多任務(wù)學(xué)習(xí)[4],共享 Embedding 層權(quán)重,構(gòu)建 CTCVR LOSS,實(shí)現(xiàn)曝光階段的 CVR 預(yù)估。

在線模型

業(yè)界已經(jīng)形成共識數(shù)據(jù)新鮮度能進(jìn)一步提升模型效果。為實(shí)時(shí)感知用戶偏好,一般使用實(shí)時(shí)特征傳入深度模型,但存在兩個(gè)問題:

·實(shí)時(shí)特征在線計(jì)算用于推斷,數(shù)據(jù)清理用于訓(xùn)練;特征調(diào)整的維護(hù)成本和計(jì)算量比較大。

·實(shí)時(shí)特征線上計(jì)算有不可靠性,擾動模型效果。

我們選擇實(shí)現(xiàn)成本較低的方案:T+1 復(fù)雜模型的基礎(chǔ)上挑選 TopK 應(yīng)用實(shí)時(shí)重排序,在風(fēng)險(xiǎn)可控的前提下嘗試激進(jìn)實(shí)時(shí)算法?;谟脩艉蜕唐方换?shù)據(jù)計(jì)算用戶多類目的實(shí)時(shí)興趣向量(用戶向量表征參考上文召回說明),在不同的場景按需使用。如在搜索推薦,使用當(dāng)前上下文信息激活多維度用戶實(shí)時(shí)向量,計(jì)算向量距離重排序商品列表達(dá)到類似實(shí)時(shí)模型的效果。系統(tǒng)工程上收益一個(gè)是用戶和商品交互數(shù)據(jù)是基礎(chǔ)統(tǒng)計(jì),沒有額外特征維護(hù)成本,另一個(gè)使用向量有更好泛化性和數(shù)據(jù)容錯(cuò)性。該方案嚴(yán)選場景驗(yàn)證效果有明顯的提升。


結(jié)語

近幾年深度學(xué)習(xí)領(lǐng)域的技術(shù)革新非???,新模型新思路層出不窮,不由感嘆 “終身學(xué)習(xí)” 的知行合一頗為不易。營銷端個(gè)性化有豐富的深度學(xué)習(xí)應(yīng)用場景,從點(diǎn)擊率預(yù)估、語義匹配、向量化到素材合成、文案生成、人群畫像,我們一直在擴(kuò)充算法的能力邊界。


參考文獻(xiàn)

[1] Real-time Personalization using Embeddings for Search Ranking at Airbnb

[2] Wide & Deep Learning for Recommender Systems

[3] Deep Interest Network for Click-Through Rate Prediction

[4] Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate


猜你喜歡:

深度相機(jī)常見技術(shù):深度相機(jī)的相位求解

解決類別不平衡數(shù)據(jù)方法介紹

python人工智能之人臉識別綜合應(yīng)用與實(shí)踐

分享到:
在線咨詢 我要報(bào)名
和我們在線交談!