不使用BN的高性能大規(guī)模圖像識別是怎樣的

這篇文章跟大家分析一下“不使用BN的高性能大規(guī)模圖像識別是怎樣的”。內(nèi)容詳細(xì)易懂,對“不使用BN的高性能大規(guī)模圖像識別是怎樣的”感興趣的朋友可以跟著小編的思路慢慢深入來閱讀一下,希望閱讀后能夠?qū)Υ蠹矣兴鶐椭?。下面跟著小編一起深入學(xué)習(xí)“不使用BN的高性能大規(guī)模圖像識別是怎樣的”的知識吧。

創(chuàng)新互聯(lián)公司為客戶提供專業(yè)的網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、程序、域名、空間一條龍服務(wù),提供基于WEB的系統(tǒng)開發(fā). 服務(wù)項(xiàng)目涵蓋了網(wǎng)頁設(shè)計(jì)、網(wǎng)站程序開發(fā)、WEB系統(tǒng)開發(fā)、微信二次開發(fā)、成都做手機(jī)網(wǎng)站等網(wǎng)站方面業(yè)務(wù)。

簡介與概述

因此,下面重點(diǎn)介紹不是使用BN來構(gòu)建圖像識別的卷積殘差神經(jīng)網(wǎng)絡(luò)。但是如果沒有BN,這些網(wǎng)絡(luò)通常無法很好地運(yùn)行或無法擴(kuò)展到更大的批處理大小,但是本篇論文構(gòu)建的網(wǎng)絡(luò)可以使用大的批次進(jìn)行倫聯(lián),并且比以前的最新方法(例如LambdaNets)更有效 。訓(xùn)練時(shí)間與準(zhǔn)確率如下圖表顯示,對于在ImageNet上進(jìn)行的相同的top-1準(zhǔn)確性評分,NFnet比EffNet-B7快8.7倍。此模型是沒有任何其他培訓(xùn)數(shù)據(jù)的最新技術(shù),也是新的最新遷移學(xué)習(xí)。NFnets目前在全球排行榜上排名第二,僅次于使用半監(jiān)督預(yù)訓(xùn)練和額外數(shù)據(jù)的方法。

不使用BN的高性能大規(guī)模圖像識別是怎樣的

BN有什么問題?

如果一個(gè)數(shù)據(jù)通過網(wǎng)絡(luò)進(jìn)行傳播,它在經(jīng)過各個(gè)層時(shí)將經(jīng)歷各種轉(zhuǎn)換,但是,如果以錯(cuò)誤的方式構(gòu)建網(wǎng)絡(luò),這種傳播就變得錯(cuò)上加錯(cuò)。在機(jī)器學(xué)習(xí)中,將數(shù)據(jù)集中在平均值周圍,并將其縮放為單位變量是一個(gè)很好的做法,但當(dāng)你在層中前進(jìn)時(shí),特別是如果你有像ReLU這樣的激活層,它們只提取信號的正部分。因此隨著時(shí)間的流逝,更深一層之間的中間表示可能會非常偏斜并且沒有居中。如果您的數(shù)據(jù)具有良好的條件數(shù)(即,以均值為中心,不太偏斜等),則當(dāng)前機(jī)器學(xué)習(xí)中的方法會更好地工作。

不使用BN的高性能大規(guī)模圖像識別是怎樣的

BN有3個(gè)顯著的缺點(diǎn)。首先,它是一個(gè)非常昂貴的計(jì)算,這會導(dǎo)致內(nèi)存開銷。你需要計(jì)算平均值,縮放需要將它們存儲在內(nèi)存中用于反向傳播算法。這增加了在某些網(wǎng)絡(luò)中評估梯度所需的時(shí)間。

其次,它在模型訓(xùn)練和在推理時(shí)引入了一個(gè)差異的行為。因?yàn)樵谕评頃r(shí)你不想要這種批依賴,二十希望能夠適配一個(gè)數(shù)據(jù)點(diǎn),并且這兩種操做的結(jié)果應(yīng)該是相同的。

第三,BN打破了小批量訓(xùn)練實(shí)例之間的獨(dú)立性。這意味著,現(xiàn)在批處理中哪些其他示例很重要。

這有兩個(gè)主要后果。首先,批大小將影響批規(guī)范化。如果你有一個(gè)小批量,平均值將是一個(gè)非常有噪聲的近似,然而,如果你有一個(gè)大批量,平均值將是一個(gè)很好的近似。我們知道對于一些應(yīng)用來說大批量的訓(xùn)練是有利的,他們穩(wěn)定了培訓(xùn),減少了培訓(xùn)時(shí)間等。

其次,分布式訓(xùn)練變得非常麻煩,因?yàn)槔?如果你的數(shù)據(jù)并行性,也就是說,你有這批數(shù)據(jù)批處理分為三個(gè)不同的部分,這三個(gè)部分向前傳播到所有的神經(jīng)網(wǎng)絡(luò)用于3個(gè)不同的機(jī)器上的訓(xùn)練。如果在所有3個(gè)網(wǎng)絡(luò)中都有一個(gè)BN層,那么您在技術(shù)上要做的就是將信號轉(zhuǎn)發(fā)到BN層,然后您必須在BN層之間傳遞批處理統(tǒng)計(jì)信息,因?yàn)榉駝t 在整個(gè)批次中沒有平均值和方差。這使網(wǎng)絡(luò)可以“欺騙”某些損失函數(shù)。

不使用BN的高性能大規(guī)模圖像識別是怎樣的

論文貢獻(xiàn)

作者提出了自適應(yīng)梯度裁剪(AGC),該方法基于梯度范數(shù)與參數(shù)范數(shù)的單位比例來裁剪梯度,他們證明了AGC允許我們訓(xùn)練具有更大批處理量和更強(qiáng)大數(shù)據(jù)增強(qiáng)功能的無規(guī)范化網(wǎng)絡(luò)。

作者設(shè)計(jì)了一個(gè)稱為NFNet的無規(guī)范化ResNet系列,該系列在ImageNet上針對各種訓(xùn)練等待時(shí)間設(shè)置了最好的驗(yàn)證精度。NFNet-F1模型達(dá)到與EfficientNet-B7相似的精度,同時(shí)訓(xùn)練速度提高了8.7倍,最大的模型在沒有額外數(shù)據(jù)的情況下,設(shè)定了一個(gè)全新的高度(86.5% top-1精度)。

作者還提到,在對3億張帶有標(biāo)簽的大型私有數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練后,對ImageNet進(jìn)行微調(diào)時(shí),NFNet與批歸一化網(wǎng)絡(luò)相比,其驗(yàn)證準(zhǔn)確率要高得多。最佳模型經(jīng)過微調(diào)后可達(dá)到89.2%的top-1

自適應(yīng)梯度裁剪(AGC)

梯度裁剪通常用于語言建模以穩(wěn)定訓(xùn)練,最近的工作表明,與梯度下降相比,它允許有更大的學(xué)習(xí)率的訓(xùn)練。梯度裁剪通常是通過約束梯度的模來實(shí)現(xiàn)的。具體來說,對于梯度向量G =?L/?θ,其中L表示損失,θ表示包含所有模型參數(shù)的向量,標(biāo)準(zhǔn)裁剪算法在更新θ之前對梯度進(jìn)行裁剪:

不使用BN的高性能大規(guī)模圖像識別是怎樣的

在訓(xùn)練過程中,優(yōu)化器為了達(dá)到全局最小值而進(jìn)行巨大的跳躍并不是一件很好的事情,所以梯度剪切只是說,無論何時(shí)任何參數(shù)的梯度非常大,我們都會剪切該梯度。如果梯度是好的,我們肯定會再次看到它,但如果梯度是壞的,我們想要限制它的影響。問題在于它對限幅參數(shù)λ非常敏感,原因是它不具有自適應(yīng)性。

AGC所做的是,它可以縮放漸變,不僅可以將漸變縮放到其自己的范數(shù),還可以將漸變裁剪為比率(漸變的大小/漸變所作用的權(quán)重是多少)。乍一看可能會有些困惑,詳細(xì)請看論文第4頁,以更清晰地理解AGC。

剪切閾值λ是必須調(diào)整的標(biāo)量超參數(shù)。根據(jù)經(jīng)驗(yàn),作者發(fā)現(xiàn),雖然這種削波算法使他們能夠以比以前更高的批次大小進(jìn)行訓(xùn)練,但是訓(xùn)練穩(wěn)定性對削波閾值的選擇極為敏感,在改變模型深度、批大小或?qū)W習(xí)速率時(shí)需要細(xì)粒度調(diào)整。作者通過選擇與梯度范數(shù)成反比的自適應(yīng)學(xué)習(xí)速率來忽略梯度的比例。

注意,最優(yōu)剪切參數(shù)λ可能取決于優(yōu)化器的選擇,學(xué)習(xí)率和批大小。根據(jù)經(jīng)驗(yàn)作者發(fā)現(xiàn)對于大批量生產(chǎn)λ應(yīng)該更小。

自適應(yīng)梯度裁剪(AGC)的消融

不使用BN的高性能大規(guī)模圖像識別是怎樣的

例如,如果你比較圖1中的批規(guī)范網(wǎng)絡(luò)(NF-ResNet和NF-ResNet + AGC),你可以看到在一定的批大小(2048)之后,非AGC會簡單地崩潰,而AGC會占上風(fēng)。這似乎是大批量生產(chǎn)的隱藏問題。作者抱怨說λ的剪切閾值是非常挑剔的。在圖2中,你可以看到λ對批大小有一個(gè)至關(guān)重要的依賴,另外上圖顯示在小批次大小下,可以在相當(dāng)大的閾值上進(jìn)行剪切。對于大批量,必須將閾值保持在非常低的水平,因?yàn)槿绻麑㈤撝敌藜舻酶邉t會崩潰。

關(guān)于不使用BN的高性能大規(guī)模圖像識別是怎樣的就分享到這里啦,希望上述內(nèi)容能夠讓大家有所提升。如果想要學(xué)習(xí)更多知識,請大家多多留意小編的更新。謝謝大家關(guān)注一下創(chuàng)新互聯(lián)網(wǎng)站!

文章名稱:不使用BN的高性能大規(guī)模圖像識別是怎樣的
標(biāo)題路徑:http://www.muchs.cn/article30/phojpo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供建站公司、做網(wǎng)站、網(wǎng)站策劃、定制開發(fā)、關(guān)鍵詞優(yōu)化、品牌網(wǎng)站設(shè)計(jì)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

手機(jī)網(wǎng)站建設(shè)