大數(shù)據(jù)之“建模術(shù)”:數(shù)據(jù)挖掘還原用戶的生活場景

互聯(lián)網(wǎng)IDC圈6月14日報(bào)道,建模無疑是大數(shù)據(jù)里面最藝術(shù)的部分,也是最令大數(shù)據(jù)從業(yè)者癡迷、得意的領(lǐng)域,一個(gè)好的模型就是一篇作品,是一首詩,令人心曠神怡。建模、模型并不是什么新鮮事物,它們早已出現(xiàn)在很多場合,譬如“產(chǎn)品模型”、“推薦模型”、“營銷模型”、“挖掘模型”等等。但,它們有什么不同?

創(chuàng)新互聯(lián)2013年至今,先為善左等服務(wù)建站,善左等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為善左企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。

建模的幻影有千萬種,有些人做過,有些人沒做過,我們該如何看待?建模是不是需具備很多專業(yè)知識,非專業(yè)人士無法掌握?小白楊的所思所想,都在下面的文字。

一、建模并不神秘:讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù)

一些建模的觀點(diǎn)已在前面的道與法兩篇體現(xiàn),歸納如下:

建模的本質(zhì)就是讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù)。 人類、智能體的認(rèn)知、行動(dòng)需要用到不同的數(shù)據(jù)(Know->行動(dòng)),如果這個(gè)數(shù)據(jù)沒有被直接掌握,那就要基于已知的事實(shí)數(shù)據(jù)推測,這個(gè)過程就是“建模”,得到的結(jié)果就是一個(gè)新的“數(shù)據(jù)”。

大數(shù)據(jù)之“建模術(shù)”:數(shù)據(jù)挖掘還原用戶的生活場景

建模就是在做偵探, 都是利用已掌握的大量的、不完整的、不一定可信的事實(shí)數(shù)據(jù)推導(dǎo)還原事實(shí)的全部。幾乎所有的領(lǐng)域都涉及建模。

模型分三大類,但萬變不離其宗。

第一類,利用已知的事實(shí)數(shù)據(jù)計(jì)算推測相關(guān)聯(lián)的其它事實(shí)數(shù)據(jù),譬如應(yīng)用人的屬性、行為數(shù)據(jù)推測它的消費(fèi)需求;

第二類,利用已知的事實(shí)數(shù)據(jù)計(jì)算推測規(guī)律性的數(shù)據(jù),譬如基于歷史的購買記錄分析商品的銷售趨勢、細(xì)分比較等;

第三類,利用已知的細(xì)節(jié)事實(shí)數(shù)據(jù)組合建立對事實(shí)全局的認(rèn)識(數(shù)據(jù)),譬如從生效時(shí)間、適用區(qū)域及客戶群、定價(jià)等維度建立產(chǎn)品模型,其實(shí)就是綜合這些細(xì)節(jié)數(shù)據(jù)形成了一個(gè)“產(chǎn)品”的“數(shù)據(jù)”。

對“新”的數(shù)據(jù)的認(rèn)識不要拘泥于一定要和以前的數(shù)據(jù)不一樣,多個(gè)數(shù)據(jù)組合形成新的含義也是一種新的數(shù)據(jù)

數(shù)據(jù)是人類對世界的觀測,把客觀世界抽樣、采集到數(shù)字世界里面,建模就是要在數(shù)字世界里面把客觀事實(shí)還原回來、預(yù)測它的發(fā)展。有趣的是,在數(shù)字世界里面,可以打破客觀物質(zhì)的當(dāng)前認(rèn)知局限,任意交叉組合,從而有無限創(chuàng)新的可能。

總結(jié)一下,建模本質(zhì)就是對已知數(shù)據(jù)的組合、簡單或者復(fù)雜的計(jì)算處理,最終轉(zhuǎn)換成一個(gè)新的數(shù)據(jù),從而影響行動(dòng)。

不同類型建模差別很大,接下來我們將聚焦到數(shù)據(jù)營銷領(lǐng)域來探討,部分觀點(diǎn)不具備普適性。

二、建模的六大誤區(qū)

誤區(qū)一:會(huì)用工具等于會(huì)建模? 數(shù)據(jù)挖掘 大多遵循CRISP-DM流程,弄來很多的數(shù)據(jù)維度(有甚者上百種),選取某一種算法,找來訓(xùn)練集訓(xùn)練出一堆莫名其妙的規(guī)則,輸出的目標(biāo)用戶特征誰也說不清楚,只能告訴你支持度、置信度多少。這個(gè)過程本來是沒有問題的,前提條件是有明確的挖掘方向。但是很多人都錯(cuò)把業(yè)務(wù)目標(biāo)當(dāng)挖掘方向了。

真正的建模應(yīng)該從業(yè)務(wù)目標(biāo)開始,先基于業(yè)務(wù)目標(biāo)理解客戶分解挖掘方向(特征明顯的群體),再找數(shù)據(jù)用算法關(guān)聯(lián)推導(dǎo)。懂工具能很好的完成挖掘方向到目標(biāo)結(jié)果的過程,但業(yè)務(wù)目標(biāo)到挖掘方向這個(gè)過程就不是只掌握工具就能夠勝任的了。銳的洞察挖掘方向、正確的數(shù)據(jù)選取是建摸的核心能力,比掌握工具更加重要!

誤區(qū)二:建模不與實(shí)際銷售場景相結(jié)合! 某央企(莫亂猜)各省公司大數(shù)據(jù)成功案例滿天飛,模型成功率動(dòng)輒30-40%。筆者看到的時(shí)候自慚形愧,也一直很納悶,做了這么多年精準(zhǔn)營銷,大部分模型的營銷成功率都是幾個(gè)百分點(diǎn),兩位數(shù)以上的鳳毛麟角,怎么別人的水平都已經(jīng)趕超美帝了!后來終于搞明白,原來他們的目標(biāo)客戶在各種渠道成功下單都算,不管是否施加了營銷動(dòng)作,而我們只統(tǒng)計(jì)針對目標(biāo)用戶采取營銷動(dòng)作的直接轉(zhuǎn)化下單。他們得意于挖出目標(biāo)用戶的精準(zhǔn),其實(shí),這些模型的高成功率只能說明這批用戶自然轉(zhuǎn)化率高,找出這些用戶并無實(shí)質(zhì)意義,因?yàn)椴皇┘尤魏蝿?dòng)作用戶就已經(jīng)購買了,挖它出來干嘛?

建模必須與實(shí)際銷售場景結(jié)合,要么找出自然轉(zhuǎn)化率高的用戶采取更低成本的接觸方式轉(zhuǎn)化,要么找出一批用戶施加營銷動(dòng)作后較自然轉(zhuǎn)化大大提升!

誤區(qū)三:盲目使用、過度依賴訓(xùn)練集! 訓(xùn)練集是個(gè)雙刃劍,正確使用能充分發(fā)揮技術(shù)算法的價(jià)值,而濫用則陷入誤區(qū)。前面說的某央企案例,其實(shí)訓(xùn)練那些模型并不困難,不就把各渠道成功下單用戶作為訓(xùn)練集嘛,掌握工具的新手都能做出來。訓(xùn)練集要與準(zhǔn)備施加的營銷動(dòng)作一致的才有意義。

訓(xùn)練集還要有代表性,譬如歷史的數(shù)據(jù)是和大客戶談妥對其所有員工批量轉(zhuǎn)化的,以這些數(shù)據(jù)為訓(xùn)練集就沒有任何意義。營銷場景初始往往沒有訓(xùn)練集,必須跳出“訓(xùn)練集”局限。

誤區(qū)四:要相關(guān)不要因果! 《大數(shù)據(jù)時(shí)代》作者提出這個(gè)觀點(diǎn)的時(shí)候,其實(shí)并不是要放棄追求因果,而是找出相關(guān)關(guān)系后,更迫切的是接下來怎么做,因果關(guān)系可以慢慢研究。這一點(diǎn)被很多人誤讀,世間沒有無緣無故的愛,也沒有無緣無故的恨,兩個(gè)事物相關(guān)度很高,背后必定有一串的因果鏈條,如果找不到,那可能是因?yàn)橛?xùn)練集的問題導(dǎo)致偽相關(guān),我們就要警惕了。

誤區(qū)五:過于迷信算法! 大道至簡,有效的東西一定是簡單的。非要復(fù)雜,那一定是因?yàn)闆]找到或者沒掌握關(guān)聯(lián)度更高的原始數(shù)據(jù)。算法并不能解決所有問題,沒有好的數(shù)據(jù)基礎(chǔ),它無能為力。建模涉及到很多關(guān)鍵要素,比拼的是綜合實(shí)力,在同等條件下,努力提升算法才是有意義的。

誤區(qū)六:盲目追求數(shù)據(jù)精度! 高的精度意味著更高的成本,對應(yīng)更少的數(shù)據(jù)規(guī)模,如何取舍就要運(yùn)用“法”篇說的ROI原則了。

三、建模七術(shù)

大數(shù)據(jù)之“建模術(shù)”:數(shù)據(jù)挖掘還原用戶的生活場景

1、場景驅(qū)動(dòng)

建模的第一件事情是搞清楚應(yīng)用場景,提煉賣點(diǎn)、利益點(diǎn),哪些是能打動(dòng)用戶的關(guān)鍵要素。從“命中目標(biāo)”和“命中營銷特性”這兩個(gè)方面去思考我們要找什么樣的用戶,匹配什么樣的關(guān)鍵特征。

2、迭代建模

建模要用互聯(lián)網(wǎng)思維“小步快跑,快速迭代”,快速對消費(fèi)者需求做出反應(yīng),否則數(shù)據(jù)會(huì)失去時(shí)效。因此我們應(yīng)從簡單開始入手,采用簡單算法快速輸出數(shù)據(jù),后續(xù)在實(shí)戰(zhàn)中不斷檢驗(yàn)、修正、迭代優(yōu)化,不斷提升數(shù)據(jù)的精準(zhǔn)性。

3、場景還原

確定業(yè)務(wù)目標(biāo)后,還原用戶的生活場景,設(shè)想用戶的需求場景,再考察數(shù)據(jù)能否關(guān)聯(lián)。理解生活,數(shù)據(jù)挖掘會(huì)很簡單。商業(yè)最終解決的是人們的物質(zhì)文化需求,你想挖掘什么樣的群體,先從生活中去理解它,它在什么場景下需要這些產(chǎn)品,有什么行為習(xí)慣,在我們的數(shù)據(jù)中留下了哪些蛛絲馬跡?譬如“外圍女”這個(gè)群體,你too simple對她們一無所知,就很難把她們找出來。為了挖掘“工業(yè)區(qū)人群”,我們特地組織前往廠區(qū)調(diào)研他們購買手機(jī)、上網(wǎng)、生活習(xí)慣等情況,為了挖掘“出租車司機(jī)”,我們打車的時(shí)候?qū)λ麄冞M(jìn)行了訪談。

五個(gè)方面理解還原

身份屬性:譬如商務(wù)精英消費(fèi)能力高使用Iphone手機(jī)比例高

狀態(tài)變化:譬如夜間位置變換,推測用戶搬家了有寬帶需求

行為表達(dá):譬如在社交網(wǎng)絡(luò)、搜索引擎等互聯(lián)網(wǎng)上表達(dá)了對目標(biāo)商品的關(guān)注

習(xí)慣偏好:譬如喜歡日本料理、西餐廳的人群超60%使用Iphone手機(jī)

關(guān)系推測:譬如和快遞員交互的用戶,我們推測它是一個(gè)電商消費(fèi)者

對于任何一個(gè)業(yè)務(wù)目標(biāo),都可以從上述五個(gè)方面還原與業(yè)務(wù)目標(biāo)相關(guān)聯(lián)的場景,還原足夠多的場景,就可以挖掘出足夠規(guī)模的用戶數(shù)據(jù)。

4、找數(shù)據(jù)關(guān)聯(lián)

還原出場景后,就要找數(shù)據(jù)進(jìn)行關(guān)聯(lián)。有些我們可以基于直接數(shù)據(jù)進(jìn)行輸出,沒有直接的數(shù)據(jù),則找間接數(shù)據(jù)選取算法進(jìn)行推導(dǎo),而間接數(shù)據(jù)的選取,可繼續(xù)應(yīng)用上述五個(gè)方面場景還原的方法。至于具體如何清洗數(shù)據(jù)、缺省異常值處理、算法選取、誤差分析等等那些實(shí)操細(xì)節(jié),文章很多。

5、快速收斂

建模是人與機(jī)器協(xié)作的結(jié)果,核心參與者是人,建模方向由人來確定,數(shù)據(jù)維度的選取主要是人(機(jī)器輔助驗(yàn)證),算法也是人設(shè)計(jì)的,機(jī)器所起的所用是訓(xùn)練迭代,而機(jī)器儲存的數(shù)據(jù)相對人腦太單一,人對數(shù)據(jù)結(jié)果、應(yīng)用結(jié)果進(jìn)行解讀,及時(shí)輸入一些理解能加快收斂的速度。

6、少即是多 

挖掘的目標(biāo)不僅僅是“有需求”,而是“能轉(zhuǎn)化”,因?yàn)楹玫臓I銷場景、文案,能激發(fā)那些原來看起來沒有需求的用戶的購買欲望,而即使是有需求的用戶,如果不能直擊它的痛點(diǎn)、愉悅點(diǎn),也難以轉(zhuǎn)化。

好的模型應(yīng)盡量簡單,很多復(fù)雜規(guī)則的模型有可能命中率高,但實(shí)際營銷應(yīng)用的時(shí)候,往往難以與營銷特性相匹配,效果不一定好;而簡單模型特征明顯,全力聚焦用戶特性策劃營銷動(dòng)作,更能引起用戶共鳴,產(chǎn)生興趣進(jìn)而購買。

7、高質(zhì)量的數(shù)據(jù)才是硬道理

正是因?yàn)槲覀儧]有直接數(shù)據(jù),所以我們只能找其它數(shù)據(jù)間接推導(dǎo),如果我們掌握的數(shù)據(jù)與目標(biāo)關(guān)聯(lián)度很高,那么算法可以很簡單,否則無論算法多么的先進(jìn),效果也是有一個(gè)瓶頸的。

與其花大力氣建模,筆者更愿意前瞻性的解決數(shù)據(jù)源問題,收集更多更有效的數(shù)據(jù)。筆者更愿意當(dāng)一個(gè)數(shù)據(jù)架構(gòu)師,也一直自命數(shù)據(jù)架構(gòu)師。

最后總結(jié)一下,建模其實(shí)并不神秘,本質(zhì)上是讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù)。而建模關(guān)鍵是要還原用戶的生活場景,找準(zhǔn)方向,找到合適的數(shù)據(jù)關(guān)聯(lián)推導(dǎo),快速校驗(yàn)迭代收斂。

文章標(biāo)題:大數(shù)據(jù)之“建模術(shù)”:數(shù)據(jù)挖掘還原用戶的生活場景
文章網(wǎng)址:http://muchs.cn/article36/soidsg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站策劃、品牌網(wǎng)站建設(shè)外貿(mào)建站、標(biāo)簽優(yōu)化、關(guān)鍵詞優(yōu)化網(wǎng)站設(shè)計(jì)公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都app開發(fā)公司