fastTEXT論文解讀并附實例代碼-創(chuàng)新互聯

上一篇博文是入門使用級別,但對于面試來說則不夠,畢竟領導一問三不知必定over,其基本原理還是要搞清楚,因而有此博文。paper在此

成都創(chuàng)新互聯公司自2013年起,先為鐘山等服務建站,鐘山等地企業(yè),進行企業(yè)商務咨詢服務。為鐘山企業(yè)網站制作PC+手機+微官網三網同步一站式服務解決您的所有建站問題。

0,緒論

考慮緊致特征以減少存儲空間,提出在PQ(?product quantization,也是笛卡爾乘積)基礎之上存儲詞向量。文本分類可用于垃圾過濾。fastTEXT基于n-gram特征,降維,以及更快的softmax分類器,一些關鍵部分,特征剪枝,量化,hash,再訓練使得文本分類模型很?。ㄒ话阈∮?00kB)而并沒有明顯的犧牲acc和速度。由于不受純二進制代碼的約束,采用了更傳統的編碼方式,即采用矢量的幅度/方向參數化。因此,只需要編碼/壓縮一個酉d維向量,這很好地符合上述LSH和PQ方法。

1,方法

在文本分類中,線性分類器依舊是有競爭力的,而且訓練更快。在線性文本分類中最有效的trick是使用一個低等級的約束減少計算負擔,同時在不同類別之間共享信息。這在更大輸出空間中更有效,尤其是一些類別訓練樣本較少時。本文中,一個類似的模型,取N個document的softmax loss的最小值,

\sum_{n=1}^{N}loss(y_{n},BAx_{n})

xn是one-hot向量的bag,yn是第n個document的label,在大的詞典和大的輸出空間中,矩陣A,B是大的,可占據GB內存,因此我們的目的就是減少此內存。

PQ 是一個在壓縮域(compressed-domain)近似近鄰檢索中流行的方法。一個隱式的定義:

一個d維度的向量x近似為:\hat{x}=\sum_{i=1}^{k}q_{i}(x),那么PQ在壓縮域估計內積為:x^{T}y\approx \hat{x}^{T}y

存儲空間更依賴于詞典大小,詞典可能很大,而有很大部分的詞典是無用的,或者多余的,直接減少高頻詞并不能令人滿意,比如高頻詞“the” 和“is”. 發(fā)現哪個詞或n-gram必須保留是特征選擇的問題。hash也可進一步減少內存。

分類器中的B也經過壓縮。總之這篇paper就是介紹的一個壓縮技術PQ,而模型還是線性模型,激活函數可以是softmax,還可以是hierarchical softmax,也就是哈夫曼樹:一個帶權的路徑長度最短的二叉樹,也叫最優(yōu)二叉樹。

下圖右邊即是哈夫曼樹,其權值為數值與深度的乘積和,13*1+7*2+2*3+5*3=48,此值小于左邊的

右邊字母的分類可以表示為:D-0,B-10,C-110,A-111,是多個二分類綜合在一起的。

其中的二分類由sigmoid來做,

3,壓縮實例:參考博文

依舊以博文中的dbpedia數據為例:

#訓練
fasttext supervised -input dbpedia.train -output train_out -dim 10 -lr 0.1 -wordNgrams 2 -minCount 1 -bucket 10000000 -epoch 5 -thread 4
#壓縮
fasttext quantize -output train_out  -input dbpedia.train -qnorm -retrain -epoch 1 -cutoff 100000
#測試原模型
fasttext test    train_out.bin dbpedia.test
#測試壓縮模型
fasttext test train_out.ftz dbpedia.test

關注本專欄獲取更多。?

愿我們終有重逢之時,而你還記得我們曾經討論的話題

你是否還在尋找穩(wěn)定的海外服務器提供商?創(chuàng)新互聯www.cdcxhl.cn海外機房具備T級流量清洗系統配攻擊溯源,準確流量調度確保服務器高可用性,企業(yè)級服務器適合批量采購,新人活動首月15元起,快前往官網查看詳情吧

當前題目:fastTEXT論文解讀并附實例代碼-創(chuàng)新互聯
本文URL:http://muchs.cn/article38/higsp.html

成都網站建設公司_創(chuàng)新互聯,為您提供網站改版、網站設計公司、手機網站建設面包屑導航、外貿建站、域名注冊

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯

成都做網站