不使用BN的高性能大規(guī)模圖像識別是怎樣的

這篇文章跟大家分析一下“不使用BN的高性能大規(guī)模圖像識別是怎樣的”。內(nèi)容詳細(xì)易懂，對“不使用BN的高性能大規(guī)模圖像識別是怎樣的”感興趣的朋友可以跟著小編的思路慢慢深入來閱讀一下，希望閱讀后能夠?qū)Υ蠹矣兴鶐椭?。下面跟著小編一起深入學(xué)習(xí)“不使用BN的高性能大規(guī)模圖像識別是怎樣的”的知識吧。

創(chuàng)新互聯(lián)公司為客戶提供專業(yè)的網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、程序、域名、空間一條龍服務(wù)，提供基于WEB的系統(tǒng)開發(fā). 服務(wù)項(xiàng)目涵蓋了網(wǎng)頁設(shè)計(jì)、網(wǎng)站程序開發(fā)、WEB系統(tǒng)開發(fā)、微信二次開發(fā)、成都做手機(jī)網(wǎng)站等網(wǎng)站方面業(yè)務(wù)。

簡介與概述

因此，下面重點(diǎn)介紹不是使用BN來構(gòu)建圖像識別的卷積殘差神經(jīng)網(wǎng)絡(luò)。但是如果沒有BN，這些網(wǎng)絡(luò)通常無法很好地運(yùn)行或無法擴(kuò)展到更大的批處理大小，但是本篇論文構(gòu)建的網(wǎng)絡(luò)可以使用大的批次進(jìn)行倫聯(lián)，并且比以前的最新方法（例如LambdaNets）更有效。訓(xùn)練時(shí)間與準(zhǔn)確率如下圖表顯示，對于在ImageNet上進(jìn)行的相同的top-1準(zhǔn)確性評分，NFnet比EffNet-B7快8.7倍。此模型是沒有任何其他培訓(xùn)數(shù)據(jù)的最新技術(shù)，也是新的最新遷移學(xué)習(xí)。NFnets目前在全球排行榜上排名第二，僅次于使用半監(jiān)督預(yù)訓(xùn)練和額外數(shù)據(jù)的方法。

BN有什么問題？

如果一個(gè)數(shù)據(jù)通過網(wǎng)絡(luò)進(jìn)行傳播，它在經(jīng)過各個(gè)層時(shí)將經(jīng)歷各種轉(zhuǎn)換，但是，如果以錯(cuò)誤的方式構(gòu)建網(wǎng)絡(luò)，這種傳播就變得錯(cuò)上加錯(cuò)。在機(jī)器學(xué)習(xí)中，將數(shù)據(jù)集中在平均值周圍，并將其縮放為單位變量是一個(gè)很好的做法，但當(dāng)你在層中前進(jìn)時(shí)，特別是如果你有像ReLU這樣的激活層，它們只提取信號的正部分。因此隨著時(shí)間的流逝，更深一層之間的中間表示可能會非常偏斜并且沒有居中。如果您的數(shù)據(jù)具有良好的條件數(shù)（即，以均值為中心，不太偏斜等），則當(dāng)前機(jī)器學(xué)習(xí)中的方法會更好地工作。

不使用BN的高性能大規(guī)模圖像識別是怎樣的

BN有3個(gè)顯著的缺點(diǎn)。首先，它是一個(gè)非常昂貴的計(jì)算，這會導(dǎo)致內(nèi)存開銷。你需要計(jì)算平均值，縮放需要將它們存儲在內(nèi)存中用于反向傳播算法。這增加了在某些網(wǎng)絡(luò)中評估梯度所需的時(shí)間。

其次,它在模型訓(xùn)練和在推理時(shí)引入了一個(gè)差異的行為。因?yàn)樵谕评頃r(shí)你不想要這種批依賴,二十希望能夠適配一個(gè)數(shù)據(jù)點(diǎn),并且這兩種操做的結(jié)果應(yīng)該是相同的。

第三，BN打破了小批量訓(xùn)練實(shí)例之間的獨(dú)立性。這意味著，現(xiàn)在批處理中哪些其他示例很重要。

這有兩個(gè)主要后果。首先，批大小將影響批規(guī)范化。如果你有一個(gè)小批量，平均值將是一個(gè)非常有噪聲的近似，然而，如果你有一個(gè)大批量，平均值將是一個(gè)很好的近似。我們知道對于一些應(yīng)用來說大批量的訓(xùn)練是有利的，他們穩(wěn)定了培訓(xùn)，減少了培訓(xùn)時(shí)間等。

其次,分布式訓(xùn)練變得非常麻煩,因?yàn)槔?如果你的數(shù)據(jù)并行性,也就是說,你有這批數(shù)據(jù)批處理分為三個(gè)不同的部分,這三個(gè)部分向前傳播到所有的神經(jīng)網(wǎng)絡(luò)用于3個(gè)不同的機(jī)器上的訓(xùn)練。如果在所有3個(gè)網(wǎng)絡(luò)中都有一個(gè)BN層，那么您在技術(shù)上要做的就是將信號轉(zhuǎn)發(fā)到BN層，然后您必須在BN層之間傳遞批處理統(tǒng)計(jì)信息，因?yàn)榉駝t 在整個(gè)批次中沒有平均值和方差。這使網(wǎng)絡(luò)可以“欺騙”某些損失函數(shù)。

不使用BN的高性能大規(guī)模圖像識別是怎樣的

論文貢獻(xiàn)

作者提出了自適應(yīng)梯度裁剪（AGC），該方法基于梯度范數(shù)與參數(shù)范數(shù)的單位比例來裁剪梯度，他們證明了AGC允許我們訓(xùn)練具有更大批處理量和更強(qiáng)大數(shù)據(jù)增強(qiáng)功能的無規(guī)范化網(wǎng)絡(luò)。

作者設(shè)計(jì)了一個(gè)稱為NFNet的無規(guī)范化ResNet系列，該系列在ImageNet上針對各種訓(xùn)練等待時(shí)間設(shè)置了最好的驗(yàn)證精度。NFNet-F1模型達(dá)到與EfficientNet-B7相似的精度，同時(shí)訓(xùn)練速度提高了8.7倍，最大的模型在沒有額外數(shù)據(jù)的情況下，設(shè)定了一個(gè)全新的高度（86.5% top-1精度）。

作者還提到，在對3億張帶有標(biāo)簽的大型私有數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練后，對ImageNet進(jìn)行微調(diào)時(shí)，NFNet與批歸一化網(wǎng)絡(luò)相比，其驗(yàn)證準(zhǔn)確率要高得多。最佳模型經(jīng)過微調(diào)后可達(dá)到89.2％的top-1

自適應(yīng)梯度裁剪(AGC)

梯度裁剪通常用于語言建模以穩(wěn)定訓(xùn)練，最近的工作表明，與梯度下降相比，它允許有更大的學(xué)習(xí)率的訓(xùn)練。梯度裁剪通常是通過約束梯度的模來實(shí)現(xiàn)的。具體來說，對于梯度向量G =?L/?θ，其中L表示損失，θ表示包含所有模型參數(shù)的向量，標(biāo)準(zhǔn)裁剪算法在更新θ之前對梯度進(jìn)行裁剪:

不使用BN的高性能大規(guī)模圖像識別是怎樣的

在訓(xùn)練過程中，優(yōu)化器為了達(dá)到全局最小值而進(jìn)行巨大的跳躍并不是一件很好的事情，所以梯度剪切只是說，無論何時(shí)任何參數(shù)的梯度非常大，我們都會剪切該梯度。如果梯度是好的，我們肯定會再次看到它，但如果梯度是壞的，我們想要限制它的影響。問題在于它對限幅參數(shù)λ非常敏感，原因是它不具有自適應(yīng)性。

AGC所做的是，它可以縮放漸變，不僅可以將漸變縮放到其自己的范數(shù)，還可以將漸變裁剪為比率（漸變的大小/漸變所作用的權(quán)重是多少）。乍一看可能會有些困惑，詳細(xì)請看論文第4頁，以更清晰地理解AGC。

剪切閾值λ是必須調(diào)整的標(biāo)量超參數(shù)。根據(jù)經(jīng)驗(yàn)，作者發(fā)現(xiàn)，雖然這種削波算法使他們能夠以比以前更高的批次大小進(jìn)行訓(xùn)練，但是訓(xùn)練穩(wěn)定性對削波閾值的選擇極為敏感，在改變模型深度、批大小或?qū)W習(xí)速率時(shí)需要細(xì)粒度調(diào)整。作者通過選擇與梯度范數(shù)成反比的自適應(yīng)學(xué)習(xí)速率來忽略梯度的比例。

注意，最優(yōu)剪切參數(shù)λ可能取決于優(yōu)化器的選擇，學(xué)習(xí)率和批大小。根據(jù)經(jīng)驗(yàn)作者發(fā)現(xiàn)對于大批量生產(chǎn)λ應(yīng)該更小。

自適應(yīng)梯度裁剪(AGC)的消融

不使用BN的高性能大規(guī)模圖像識別是怎樣的

例如，如果你比較圖1中的批規(guī)范網(wǎng)絡(luò)(NF-ResNet和NF-ResNet + AGC)，你可以看到在一定的批大小(2048)之后，非AGC會簡單地崩潰，而AGC會占上風(fēng)。這似乎是大批量生產(chǎn)的隱藏問題。作者抱怨說λ的剪切閾值是非常挑剔的。在圖2中，你可以看到λ對批大小有一個(gè)至關(guān)重要的依賴，另外上圖顯示在小批次大小下，可以在相當(dāng)大的閾值上進(jìn)行剪切。對于大批量，必須將閾值保持在非常低的水平，因?yàn)槿绻麑㈤撝敌藜舻酶邉t會崩潰。

關(guān)于不使用BN的高性能大規(guī)模圖像識別是怎樣的就分享到這里啦，希望上述內(nèi)容能夠讓大家有所提升。如果想要學(xué)習(xí)更多知識，請大家多多留意小編的更新。謝謝大家關(guān)注一下創(chuàng)新互聯(lián)網(wǎng)站！

文章名稱：不使用BN的高性能大規(guī)模圖像識別是怎樣的
標(biāo)題路徑：http://www.muchs.cn/article30/phojpo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供建站公司、做網(wǎng)站、網(wǎng)站策劃、定制開發(fā)、關(guān)鍵詞優(yōu)化、品牌網(wǎng)站設(shè)計(jì)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容