貝貝網(wǎng):特賣場景下的大數(shù)據(jù)平臺和機器學習實踐

互聯(lián)網(wǎng)IDC圈9月2日報道,8月29日-30日在上海國際時尚中心舉行的D-Future數(shù)據(jù)時代峰會是七牛為大家?guī)淼囊粓鰯?shù)據(jù)盛筵,匯聚了業(yè)界領(lǐng)袖、行業(yè)專家,他們從產(chǎn)業(yè)的角度和技術(shù)的角度解讀了數(shù)據(jù)從何而來,數(shù)據(jù)如何應(yīng)用,數(shù)據(jù)重新構(gòu)未來。

天祝藏族自治ssl適用于網(wǎng)站、小程序/APP、API接口等需要進行數(shù)據(jù)傳輸應(yīng)用場景,ssl證書未來市場廣闊!成為創(chuàng)新互聯(lián)建站的ssl證書銷售渠道,可以享受市場價格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:13518219792(備注:SSL證書合作)期待與您的合作!

如何快速的建設(shè)技術(shù)體系,發(fā)揮技術(shù)的價值。會上貝貝網(wǎng)大數(shù)據(jù)負責人周黃玲以《特賣場景下的大數(shù)據(jù)平臺和機器學習實踐》為題和大家分享一下在電商行業(yè)里面的典型的案例。

周黃玲

周黃玲

以下是周黃玲演講內(nèi)容(根據(jù)速記整理):

周黃玲:大家下午好。我是周黃玲,來自貝貝網(wǎng),貝貝網(wǎng)是一家專注母嬰特賣的電子網(wǎng)站,很高興和大家一起分享大數(shù)據(jù)平臺和技術(shù)實踐。我就讀北京優(yōu)點大學,2012年加入搜狗,2014年加入天貓,現(xiàn)在是在貝貝網(wǎng)負責大數(shù)據(jù)相關(guān)的工作,我們先看一下。母嬰特賣相對一般的電子商務(wù)網(wǎng)站有一些什么特點,我這里總結(jié)了三個,第一個特點是商品周期短,在我們網(wǎng)站上的商品,在線的時間不會超過5-7天,第二個是用戶需求的變化快,在母嬰行業(yè),可能是用戶的需求變化最快的領(lǐng)域,比如是用戶處在懷孕當中,關(guān)心的是孕媽的一些問題,幾個月以后,隨著寶寶的落地,就會準備一些紙尿褲和奶粉,而且隨著寶寶的長大,紙尿褲和奶粉的類型也會變化。

第三個是移動化,我們有80%的成交是來自移動端的。手機端的屏幕非常的小,可以給客戶的信息非常的有限,所以需要我們幫助用戶找他有興趣的東西。我們希望為網(wǎng)站的活動提供大數(shù)據(jù)的支撐,第二個是個性化的推薦,搜集用戶的行為,全面的了解用戶的購物意圖,推薦用戶感興趣的商品。

這是我們的架構(gòu)圖,最下面的是我們的數(shù)據(jù)搜集,這一部分的話,等一下會有一個介紹。我們用的是離線結(jié)果,時時計算,以后搜索引擎,在算法層有協(xié)同過濾,分類產(chǎn)生一些用品的商品特征,以后排序的模型。在業(yè)務(wù)層的話,業(yè)務(wù)的類型是豐富多彩的,我們會融入一些運營的規(guī)則進行調(diào)整,包括一些個性化的調(diào)整和推薦,以及營銷。

右邊數(shù)據(jù)報表我們有面向運營的,面向商家的,我們會涉及用戶的瀏覽日志,在PC上的一些行為,比如是用戶瀏覽了一些什么商品,電極了一些什么商品,對消費也有二種方式,一種是實時消費,另外是進行數(shù)據(jù)的挖掘。一住是基于全面的拉取,這種方式會在每天的凌晨進行一次統(tǒng)計,但是這種方式會有一天的延時,比如是今天上線的活動,可能明天才知道這個活動的效果,因為我們研發(fā)了一套實時的數(shù)據(jù)研發(fā)系統(tǒng),任何需要實時消費的系統(tǒng),只要訂閱三個就可以了。

分布式的調(diào)度是我們的核心,在我們的大數(shù)據(jù)平臺處于一個指揮的作用,比如是任務(wù)管理,任務(wù)監(jiān)控和任務(wù)日志,我們研發(fā)了一套分布式的系統(tǒng),里面有二種角色。Master主要是負責任務(wù)的管理,任務(wù)的分配,任務(wù)的執(zhí)行,任何的Master掛掉,都不會影響我們系統(tǒng)的運營。

在我們的整個的平臺上,很大一部分是推薦的產(chǎn)品,第一類是個性化的排序,個性化排序的特點是在侯選級的情況下,根據(jù)用戶的不同的購物的用途,為用戶做個性化的排序,用戶到達我們網(wǎng)站的時候,我們會推薦所有在線的品牌特賣,比如是一天500個,根據(jù)用戶的購物的意圖,做個性化的數(shù)據(jù)。

第二個是關(guān)聯(lián)推薦,比如是推薦和這個商品相似的商品,購買的商品可以推薦搭配的商品。第三個是個性化推薦,給指定的用戶推薦他感興趣的商品,比如是在用戶的資料的頁面,我們會直接給用戶推薦他感興趣的商品。

除了這三種推薦的形式,包括我們會通過個性化的短信,個性化的推送,引導(dǎo)用戶到我們的平臺,我們會給用戶推薦感興趣品牌,我們會對商品進行個性化的排序,還會有相似商品的推薦,用戶交易的環(huán)節(jié),還會推薦和這個商品搭配的商品,包括周期購買預(yù)測等。

為什么會有這種推薦,可以從二個方面來看,一個是我們網(wǎng)站本身是一個輕搜索重推薦的模式,在我們的網(wǎng)站上搜索的功能是非常的弱化的,我們最近的上線的搜索框也很不明顯,這是一個推薦商品非常重要的渠道,從推薦的本身來說,也可以看到它的三個方面價值,提升用戶的購物的體驗。幫助商家找到感興趣的用戶,也可以提高他的銷售額,對整個平臺來說,只有服務(wù)好用戶和商家,才能得到一個比較好的持續(xù)的發(fā)展。

推薦這么的重要,最重要的是用戶畫像,這是我們的吉祥物貝貝,我們會對它進行二個部分,一個是靜態(tài)的畫像,比如是性別,年齡,寶寶的年齡性別,以及一些動態(tài)的畫像,比如品牌,購買時間,購買渠道等等,我們的這個行業(yè)里面,最重要的一個特征就是用戶的性別年齡,不同的寶寶的性別年齡會影響到購物的偏好,很大的一部分的媽媽是填寫了一些用戶的信息的,比如說寶寶的年齡是0-1歲,可以利用這個用戶的行為特征,比如是它的瀏覽次數(shù),收藏次數(shù),有了這樣子的模型,就可以來填寫寶寶年齡的預(yù)測。

第二套很重要的標簽是購物偏好,主要是提到的一些動態(tài)標簽,比如是品牌內(nèi)部等等,我們會統(tǒng)計用戶在我們的平臺上的一些行為,根據(jù)這些行為的成本給予不同的選中,包括瀏覽電極,啟發(fā)式的做法非常的簡單,也是非常的容易理解,這些參數(shù)不好確定,這個時間的衰減應(yīng)該做如何的衰減的程度。

我們現(xiàn)在正在用機器學習的方式做用戶的偏好預(yù)測,把用戶當前的購物的偏好做特征來進行一些購物的偏好。有一個很重要的推薦的類型是個性化的排序,當用戶到了我們的PC首頁的時候,會展現(xiàn)每天500個在線的專場,用戶很難通過翻頁的方式來瀏覽所有的品牌,我們有一套規(guī)則的算法,模型有非常多的特征,可以考慮非常多的因子,規(guī)則往往是只有幾個關(guān)鍵的因子,比如是會把GMA往前排,規(guī)則是靠經(jīng)驗和參數(shù)的。已經(jīng)形成了一個優(yōu)化的問題。還有模型很方便加入用戶的特征做個性化的特征。

第一檔就提升了6%,至于怎么樣做,這個就是一個學習的流程,主要是離線和在線二個部分,在線系統(tǒng)搜集到了排序以后,也會根據(jù)用戶的ID和品牌的ID,構(gòu)建同樣的特征和模型進行組合,就可以得到用戶對每一個平臺的分數(shù)。

那特征是這里面最重要的一部分,有屬性特征,主要是各種維度的特性,還有是統(tǒng)計特征,還有偏好特征,偏好特征是我們做個性化推薦的最基本的推薦,這個是和用戶有關(guān)系的,比如是用戶的畫像。在這里面,我們做了很多的嘗試,剛開始的時候,有點擊率,點擊率很好做,我們發(fā)現(xiàn)點擊率的提升和我們的GMA的提升不是完全一致的。我們用過分類和排序的算法,排序的算法會好一點,分線型的模型也會更有優(yōu)勢一點。

我們到了電商網(wǎng)站的時候,肯定遇到過這樣子的產(chǎn)品,你看過的商品可能是感興趣的商品,在這個行業(yè)里面有很規(guī)律的算法,但是在母嬰特賣里面,有它自己的特點,它的商品每一行是代表了一個用戶,每一列是代表的一個商品,第一周上線的商品第三周上線的時候,另外二個已經(jīng)是下線了,第二個特點是在線的商品比較少,就會把舉證壓縮,這樣子的話,對這個舉證會變的不這么的稀疏。第三個是這個行業(yè)的特點,比如是寶寶的性別,寶寶的年齡是否是一致的,如果是一致的話,那是否有一個持續(xù)性。1-3歲的話,還可以,但是如果是對一個1-3歲的商品,可能就不大合適的。

我們根據(jù)這些特點做了一些改進,比如是我們有做時間,熱門打壓。相同的協(xié)同過濾的算法可能會不在線,一種是機遇標題和描述的相似度,還會加上運營的規(guī)則,是否匹配,有一些地方可以推薦同品牌,有一些可能推薦其他的品牌。

雖然我們剛才說的對算法進行了改進,單一的算法總是有一些局限性,因此我們現(xiàn)在正在做的是把多個算法結(jié)合在一起,比如是瀏覽的CF,購買的CF加上用戶的特征,進行一個個性化的重新排序,我們正在研究這么一套新的流程。

我們第一檔上線以后,可以看到在各個資源上都取得了很大的提高了,部分的資源上甚至是提高了500%的提升,我相信我們新的個性化的排列上線以后,會有更大的提升。

如果你購買了一個商品,再推薦一個相似的商品,這是不合理的推薦,用戶購買了一個商品以后,比如是夠末了C1以后,購買C2是一個簡單的記數(shù),比如是買奶嘴的用戶里面,39%的用戶會買奶瓶,買了紋胸的用戶里面,有20%的會買內(nèi)褲,買了紙尿褲的用戶會有30%買濕巾。

還有個性化的推薦的工作,但是還不完全一樣,主要是有一個很嚴重的痛點,經(jīng)常會收到一些短信的推送,可能是一些打擾的工作,但是在我們的平臺上,我們的運營也遇到了同樣的痛點,他們想搞活動的時候,他們也很難確定目標用戶是什么,所以他們確定了精準營銷的框架,能夠幫助運營,選出他的目標用戶,在適合的時間發(fā)送感興趣的商品

我們首先是會對用戶打上標簽,通過投放的請求,動態(tài)生成Hive,我們會返回目標用戶以及時間。我們在用戶的拉新方面也做了一部分的工作,我們平臺的業(yè)務(wù)的發(fā)展非常的迅速,我們吸引了一部分的用戶以后,我們希望把用戶轉(zhuǎn)化成購買用戶,一個是根據(jù)用戶注冊時候的靜態(tài)畫像,對用戶做個性化的配置,整體的轉(zhuǎn)化率是10%以上。雖然我們在這一方面已經(jīng)做了一些嘗試,但是未來還有更多的可以探索的地方,一個是在數(shù)據(jù)的方面,剛才提到的個性的推薦是,首先是會更加的全面和精準的把畫像做的更準確。第二個是時效性的方面,需要快速的捕捉客戶的需求。在模型方面,我們也會投入更多的精力,通過在線的方式更新我們的模型,應(yīng)用的話,雙十一也快到了,我們希望我們的個性化的算法也可以發(fā)揮一些作用,以及在商家端做一些嘗試,幫商家做一些預(yù)測等等。

說了這么多,最后介紹一下我們公司,我們是貝貝網(wǎng),這是我們的媽媽的特賣會,我們是一家專注于母嬰特賣的公司,成立于2014的4月,去年4月份上線以來,今年1月份完成了C輪的融資,我們的工作地點在杭州,對杭州興趣的同學可以聯(lián)系我,下面是聯(lián)系方式,謝謝大家。

新聞標題:貝貝網(wǎng):特賣場景下的大數(shù)據(jù)平臺和機器學習實踐
分享鏈接:http://muchs.cn/article44/sdighe.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供虛擬主機、服務(wù)器托管、小程序開發(fā)、網(wǎng)站策劃、網(wǎng)站改版關(guān)鍵詞優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

小程序開發(fā)