梯度下降（GradientDescent）小結(jié)

在求解機(jī)器學(xué)習(xí)算法的模型參數(shù)，即無(wú)約束優(yōu)化問(wèn)題時(shí)，梯度下降（Gradient Descent）是最常采用的方法之一，另一種常用的方法是最小二乘法。這里就對(duì)梯度下降法做一個(gè)完整的總結(jié)。

為北侖等地區(qū)用戶提供了全套網(wǎng)頁(yè)設(shè)計(jì)制作服務(wù)，及北侖網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為成都做網(wǎng)站、成都網(wǎng)站制作、北侖網(wǎng)站設(shè)計(jì)，以傳統(tǒng)方式定制建設(shè)網(wǎng)站，并提供域名空間備案等一條龍服務(wù)，秉承以專(zhuān)業(yè)、用心的態(tài)度為用戶提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶的要求，就會(huì)得到認(rèn)可，從而選擇與我們長(zhǎng)期合作。這樣，我們也可以走得更遠(yuǎn)！

1. 梯度

在微積分里面，對(duì)多元函數(shù)的參數(shù)求偏導(dǎo)數(shù)，把求得的各個(gè)參數(shù)的偏導(dǎo)數(shù)以向量的形式寫(xiě)出來(lái)，就是梯度。比如函數(shù)f(x,y), 分別對(duì)x,y求偏導(dǎo)數(shù)，求得的梯度向量就是(f/x, f/y)T,簡(jiǎn)稱(chēng)grad f(x,y)或者▽f(x,y)。對(duì)于在點(diǎn)(x0,y0)的具體梯度向量就是(f/x0, f/y0)T.或者▽f(x0,y0)，如果是3個(gè)參數(shù)的向量梯度，就是(f/x, f/y，f/z)T,以此類(lèi)推。

那么這個(gè)梯度向量求出來(lái)有什么意義呢？他的意義從幾何意義上講，就是函數(shù)變化增加最快的地方。具體來(lái)說(shuō)，對(duì)于函數(shù)f(x,y),在點(diǎn)(x0,y0)，沿著梯度向量的方向就是(f/x0, f/y0)T的方向是f(x,y)增加最快的地方?；蛘哒f(shuō)，沿著梯度向量的方向，更加容易找到函數(shù)的最大值。反過(guò)來(lái)說(shuō)，沿著梯度向量相反的方向，也就是 -(f/x0, f/y0)T的方向，梯度減少最快，也就是更加容易找到函數(shù)的最小值。

2. 梯度下降與梯度上升

在機(jī)器學(xué)習(xí)算法中，在最小化損失函數(shù)時(shí)，可以通過(guò)梯度下降法來(lái)一步步的迭代求解，得到最小化的損失函數(shù)，和模型參數(shù)值。反過(guò)來(lái)，如果我們需要求解損失函數(shù)的最大值，這時(shí)就需要用梯度上升法來(lái)迭代了。

梯度下降法和梯度上升法是可以互相轉(zhuǎn)化的。比如我們需要求解損失函數(shù)f(θ)的最小值，這時(shí)我們需要用梯度下降法來(lái)迭代求解。但是實(shí)際上，我們可以反過(guò)來(lái)求解損失函數(shù) -f(θ)的最大值，這時(shí)梯度上升法就派上用場(chǎng)了。

下面來(lái)詳細(xì)總結(jié)下梯度下降法。

3. 梯度下降法算法詳解

3.1 梯度下降的直觀解釋

首先來(lái)看看梯度下降的一個(gè)直觀的解釋。比如我們?cè)谝蛔笊缴系哪程幬恢茫捎谖覀儾恢涝趺聪律?，于是決定走一步算一步，也就是在每走到一個(gè)位置的時(shí)候，求解當(dāng)前位置的梯度，沿著梯度的負(fù)方向，也就是當(dāng)前最陡峭的位置向下走一步，然后繼續(xù)求解當(dāng)前位置梯度，向這一步所在位置沿著最陡峭最易下山的位置走一步。這樣一步步的走下去，一直走到覺(jué)得我們已經(jīng)到了山腳。當(dāng)然這樣走下去，有可能我們不能走到山腳，而是到了某一個(gè)局部的山峰低處。

從上面的解釋可以看出，梯度下降不一定能夠找到全局的最優(yōu)解，有可能是一個(gè)局部最優(yōu)解。當(dāng)然，如果損失函數(shù)是凸函數(shù)，梯度下降法得到的解就一定是全局最優(yōu)解。

3.2 梯度下降的相關(guān)概念

在詳細(xì)了解梯度下降的算法之前，我們先看看相關(guān)的一些概念。

1. 步長(zhǎng)（Learning rate）：步長(zhǎng)決定了在梯度下降迭代的過(guò)程中，每一步沿梯度負(fù)方向前進(jìn)的長(zhǎng)度。用上面下山的例子，步長(zhǎng)就是在當(dāng)前這一步所在位置沿著最陡峭最易下山的位置走的那一步的長(zhǎng)度。

2.特征（feature）：指的是樣本中輸入部分，比如樣本（x0,y0）,（x1,y1）,則樣本特征為x，樣本輸出為y。

3. 假設(shè)函數(shù)（hypothesis function）：在監(jiān)督學(xué)習(xí)中，為了擬合輸入樣本，而使用的假設(shè)函數(shù)，記為hθ(x)。比如對(duì)于樣本（xi,yi）(i=1,2,...n),可以采用擬合函數(shù)如下： hθ(x) = θ0+θ1x。

4. 損失函數(shù)（loss function）：為了評(píng)估模型擬合的好壞，通常用損失函數(shù)來(lái)度量擬合的程度。損失函數(shù)極小化，意味著擬合程度最好，對(duì)應(yīng)的模型參數(shù)即為最優(yōu)參數(shù)。在線性回歸中，損失函數(shù)通常為樣本輸出和假設(shè)函數(shù)的差取平方。比如對(duì)于樣本（xi,yi）(i=1,2,...n),采用線性回歸，損失函數(shù)為：

J(θ0,θ1)=∑i=1m(hθ(xi)yi)2J(θ0,θ1)=∑i=1m(hθ(xi)yi)2

　　　　其中xixi表示樣本特征x的第i個(gè)元素，yiyi表示樣本輸出y的第i個(gè)元素，hθ(xi)hθ(xi)為假設(shè)函數(shù)。

3.3 梯度下降的詳細(xì)算法

梯度下降法的算法可以有代數(shù)法和矩陣法（也稱(chēng)向量法）兩種表示，如果對(duì)矩陣分析不熟悉，則代數(shù)法更加容易理解。不過(guò)矩陣法更加的簡(jiǎn)潔，且由于使用了矩陣，實(shí)現(xiàn)邏輯更加的一目了然。這里先介紹代數(shù)法，后介紹矩陣法。

3.3.1 梯度下降法的代數(shù)方式描述

1. 先決條件：確認(rèn)優(yōu)化模型的假設(shè)函數(shù)和損失函數(shù)。

比如對(duì)于線性回歸，假設(shè)函數(shù)表示為 hθ(x1,x2,...xn)=θ0+θ1x1+...+θnxnhθ(x1,x2,...xn)=θ0+θ1x1+...+θnxn, 其中θiθi (i = 0,1,2... n)為模型參數(shù)，xixi (i = 0,1,2... n)為每個(gè)樣本的n個(gè)特征值。這個(gè)表示可以簡(jiǎn)化，我們?cè)黾右粋€(gè)特征x0=1x0=1 ，這樣hθ(x0,x1,...xn)=∑i=0nθixihθ(x0,x1,...xn)=∑i=0nθixi。

同樣是線性回歸，對(duì)應(yīng)于上面的假設(shè)函數(shù)，損失函數(shù)為：

J(θ0,θ1...,θn)=∑i=0m(hθ(x0,x1,...xn)yi)2J(θ0,θ1...,θn)=∑i=0m(hθ(x0,x1,...xn)yi)2

2. 算法相關(guān)參數(shù)初始化：主要是初始化θ0,θ1...,θnθ0,θ1...,θn,算法終止距離εε以及步長(zhǎng)αα。在沒(méi)有任何先驗(yàn)知識(shí)的時(shí)候，我喜歡將所有的θθ初始化為0，將步長(zhǎng)初始化為1。在調(diào)優(yōu)的時(shí)候再優(yōu)化。

3. 算法過(guò)程：

1）確定當(dāng)前位置的損失函數(shù)的梯度，對(duì)于θiθi,其梯度表達(dá)式如下：

θiJ(θ0,θ1...,θn)θiJ(θ0,θ1...,θn)

2）用步長(zhǎng)乘以損失函數(shù)的梯度，得到當(dāng)前位置下降的距離，即αθiJ(θ0,θ1...,θn)αθiJ(θ0,θ1...,θn)對(duì)應(yīng)于前面登山例子中的某一步。

3）確定是否所有的θiθi,梯度下降的距離都小于εε，如果小于εε則算法終止，當(dāng)前所有的θiθi(i=0,1,...n)即為最終結(jié)果。否則進(jìn)入步驟4.

4）更新所有的θθ，對(duì)于θiθi，其更新表達(dá)式如下。更新完畢后繼續(xù)轉(zhuǎn)入步驟1.

θi=θiαθiJ(θ0,θ1...,θn)θi=θiαθiJ(θ0,θ1...,θn)

下面用線性回歸的例子來(lái)具體描述梯度下降。假設(shè)我們的樣本是(x(0)1,x(0)2,...x(0)n,y0),(x(1)1,x(1)2,...x(1)n,y1),...(x(m)1,x(m)2,...x(m)n,yn)(x1(0),x2(0),...xn(0),y0),(x1(1),x2(1),...xn(1),y1),...(x1(m),x2(m),...xn(m),yn),損失函數(shù)如前面先決條件所述：

J(θ0,θ1...,θn)=∑i=0m(hθ(x0,x1,...xn)yi)2J(θ0,θ1...,θn)=∑i=0m(hθ(x0,x1,...xn)yi)2。

則在算法過(guò)程步驟1中對(duì)于θiθi 的偏導(dǎo)數(shù)計(jì)算如下：

　　　　θiJ(θ0,θ1...,θn)=1m∑j=0m(hθ(xj0,xj1,...xjn)yj)xjiθiJ(θ0,θ1...,θn)=1m∑j=0m(hθ(x0j,x1j,...xnj)yj)xij

由于樣本中沒(méi)有x0x0上式中令所有的xj0x0j為1.

步驟4中θiθi的更新表達(dá)式如下：

θi=θiα1m∑j=0m(hθ(xj0,xj1,...xjn)yj)xjiθi=θiα1m∑j=0m(hθ(x0j,x1j,...xnj)yj)xij

從這個(gè)例子可以看出當(dāng)前點(diǎn)的梯度方向是由所有的樣本決定的，加1m1m 是為了好理解。由于步長(zhǎng)也為常數(shù)，他們的乘機(jī)也為常數(shù)，所以這里α1mα1m可以用一個(gè)常數(shù)表示。

在下面第4節(jié)會(huì)詳細(xì)講到的梯度下降法的變種，他們主要的區(qū)別就是對(duì)樣本的采用方法不同。這里我們采用的是用所有樣本。

3.3.2 梯度下降法的矩陣方式描述

這一部分主要講解梯度下降法的矩陣方式表述，相對(duì)于3.3.1的代數(shù)法，要求有一定的矩陣分析的基礎(chǔ)知識(shí)，尤其是矩陣求導(dǎo)的知識(shí)。

1. 先決條件：和3.3.1類(lèi)似，需要確認(rèn)優(yōu)化模型的假設(shè)函數(shù)和損失函數(shù)。對(duì)于線性回歸，假設(shè)函數(shù)hθ(x1,x2,...xn)=θ0+θ1x1+...+θnxnhθ(x1,x2,...xn)=θ0+θ1x1+...+θnxn的矩陣表達(dá)方式為：

hθ(x)=Xθhθ(x)=Xθ ，其中，假設(shè)函數(shù)hθ(X)hθ(X)為mx1的向量,θθ為nx1的向量，里面有n個(gè)代數(shù)法的模型參數(shù)。XX為mxn維的矩陣。m代表樣本的個(gè)數(shù)，n代表樣本的特征數(shù)。

損失函數(shù)的表達(dá)式為：J(θ)=12(XθY)T(XθY)J(θ)=12(XθY)T(XθY), 其中YY是樣本的輸出向量，維度為mx1.

2. 算法相關(guān)參數(shù)初始化: θθ向量可以初始化為默認(rèn)值，或者調(diào)優(yōu)后的值。算法終止距離εε，步長(zhǎng)αα和3.3.1比沒(méi)有變化。

3. 算法過(guò)程：

1）確定當(dāng)前位置的損失函數(shù)的梯度，對(duì)于θθ向量,其梯度表達(dá)式如下：

θJ(θ)θJ(θ)

2）用步長(zhǎng)乘以損失函數(shù)的梯度，得到當(dāng)前位置下降的距離，即αθJ(θ)αθJ(θ)對(duì)應(yīng)于前面登山例子中的某一步。

3）確定θθ向量里面的每個(gè)值,梯度下降的距離都小于εε，如果小于εε則算法終止，當(dāng)前θθ向量即為最終結(jié)果。否則進(jìn)入步驟4.

4）更新θθ向量，其更新表達(dá)式如下。更新完畢后繼續(xù)轉(zhuǎn)入步驟1.

θ=θαθJ(θ)θ=θαθJ(θ)

還是用線性回歸的例子來(lái)描述具體的算法過(guò)程。

損失函數(shù)對(duì)于θθ向量的偏導(dǎo)數(shù)計(jì)算如下：

θJ(θ)=XT(XθY)θJ(θ)=XT(XθY)

步驟4中θθ向量的更新表達(dá)式如下：θ=θαXT(XθY)θ=θαXT(XθY)

對(duì)于3.3.1的代數(shù)法，可以看到矩陣法要簡(jiǎn)潔很多。這里面用到了矩陣求導(dǎo)鏈?zhǔn)椒▌t，和兩個(gè)矩陣求導(dǎo)的公式。

公式1：X(XXT)=2XX(XXT)=2X

公式2：θ(Xθ)=XTθ(Xθ)=XT

如果需要熟悉矩陣求導(dǎo)建議參考張賢達(dá)的《矩陣分析與應(yīng)用》一書(shū)。

3.4 梯度下降的算法調(diào)優(yōu)

在使用梯度下降時(shí)，需要進(jìn)行調(diào)優(yōu)。哪些地方需要調(diào)優(yōu)呢？

1. 算法的步長(zhǎng)選擇。在前面的算法描述中，我提到取步長(zhǎng)為1，但是實(shí)際上取值取決于數(shù)據(jù)樣本，可以多取一些值，從大到小，分別運(yùn)行算法，看看迭代效果，如果損失函數(shù)在變小，說(shuō)明取值有效，否則要增大步長(zhǎng)。前面說(shuō)了。步長(zhǎng)太大，會(huì)導(dǎo)致迭代過(guò)快，甚至有可能錯(cuò)過(guò)最優(yōu)解。步長(zhǎng)太小，迭代速度太慢，很長(zhǎng)時(shí)間算法都不能結(jié)束。所以算法的步長(zhǎng)需要多次運(yùn)行后才能得到一個(gè)較為優(yōu)的值。

2. 算法參數(shù)的初始值選擇。初始值不同，獲得的最小值也有可能不同，因此梯度下降求得的只是局部最小值；當(dāng)然如果損失函數(shù)是凸函數(shù)則一定是最優(yōu)解。由于有局部最優(yōu)解的風(fēng)險(xiǎn)，需要多次用不同初始值運(yùn)行算法，關(guān)鍵損失函數(shù)的最小值，選擇損失函數(shù)最小化的初值。

3.歸一化。由于樣本不同特征的取值范圍不一樣，可能導(dǎo)致迭代很慢，為了減少特征取值的影響，可以對(duì)特征數(shù)據(jù)歸一化，也就是對(duì)于每個(gè)特征x，求出它的期望xˉˉˉxˉ和標(biāo)準(zhǔn)差std(x)，然后轉(zhuǎn)化為：

xxˉˉˉstd(x)xxˉstd(x)

這樣特征的新期望為0，新方差為1，迭代次數(shù)可以大大加快。

4. 梯度下降法大家族（BGD，SGD，MBGD）

4.1 批量梯度下降法（Batch Gradient Descent）

批量梯度下降法，是梯度下降法最常用的形式，具體做法也就是在更新參數(shù)時(shí)使用所有的樣本來(lái)進(jìn)行更新，這個(gè)方法對(duì)應(yīng)于前面3.3.1的線性回歸的梯度下降算法，也就是說(shuō)3.3.1的梯度下降算法就是批量梯度下降法。

θi=θiα∑j=0m(hθ(xj0,xj1,...xjn)yj)xjiθi=θiα∑j=0m(hθ(x0j,x1j,...xnj)yj)xij

由于我們有m個(gè)樣本，這里求梯度的時(shí)候就用了所有m個(gè)樣本的梯度數(shù)據(jù)。

4.2 隨機(jī)梯度下降法（Stochastic Gradient Descent）

隨機(jī)梯度下降法，其實(shí)和批量梯度下降法原理類(lèi)似，區(qū)別在與求梯度時(shí)沒(méi)有用所有的m個(gè)樣本的數(shù)據(jù)，而是僅僅選取一個(gè)樣本j來(lái)求梯度。對(duì)應(yīng)的更新公式是：

θi=θiα(hθ(xj0,xj1,...xjn)yj)xjiθi=θiα(hθ(x0j,x1j,...xnj)yj)xij

隨機(jī)梯度下降法，和4.1的批量梯度下降法是兩個(gè)極端，一個(gè)采用所有數(shù)據(jù)來(lái)梯度下降，一個(gè)用一個(gè)樣本來(lái)梯度下降。自然各自的優(yōu)缺點(diǎn)都非常突出。對(duì)于訓(xùn)練速度來(lái)說(shuō)，隨機(jī)梯度下降法由于每次僅僅采用一個(gè)樣本來(lái)迭代，訓(xùn)練速度很快，而批量梯度下降法在樣本量很大的時(shí)候，訓(xùn)練速度不能讓人滿意。對(duì)于準(zhǔn)確度來(lái)說(shuō)，隨機(jī)梯度下降法用于僅僅用一個(gè)樣本決定梯度方向，導(dǎo)致解很有可能不是最優(yōu)。對(duì)于收斂速度來(lái)說(shuō)，由于隨機(jī)梯度下降法一次迭代一個(gè)樣本，導(dǎo)致迭代方向變化很大，不能很快的收斂到局部最優(yōu)解。

那么，有沒(méi)有一個(gè)中庸的辦法能夠結(jié)合兩種方法的優(yōu)點(diǎn)呢？有！這就是4.3的小批量梯度下降法。

4.3 小批量梯度下降法（Mini-batch Gradient Descent）

小批量梯度下降法是批量梯度下降法和隨機(jī)梯度下降法的折衷，也就是對(duì)于m個(gè)樣本，我們采用x個(gè)樣子來(lái)迭代，1<x<m。一般可以取x=10，當(dāng)然根據(jù)樣本的數(shù)據(jù)，可以調(diào)整這個(gè)x的值。對(duì)應(yīng)的更新公式是：

θi=θiα∑j=tt+x1(hθ(xj0,xj1,...xjn)yj)xjiθi=θiα∑j=tt+x1(hθ(x0j,x1j,...xnj)yj)xij

5. 梯度下降法和其他無(wú)約束優(yōu)化算法的比較

在機(jī)器學(xué)習(xí)中的無(wú)約束優(yōu)化算法，除了梯度下降以外，還有前面提到的最小二乘法，此外還有牛頓法和擬牛頓法。

梯度下降法和最小二乘法相比，梯度下降法需要選擇步長(zhǎng)，而最小二乘法不需要。梯度下降法是迭代求解，最小二乘法是計(jì)算解析解。如果樣本量不算很大，且存在解析解，最小二乘法比起梯度下降法要有優(yōu)勢(shì)，計(jì)算速度很快。但是如果樣本量很大，用最小二乘法由于需要求一個(gè)超級(jí)大的逆矩陣，這時(shí)就很難或者很慢才能求解解析解了，使用迭代的梯度下降法比較有優(yōu)勢(shì)。

梯度下降法和牛頓法/擬牛頓法相比，兩者都是迭代求解，不過(guò)梯度下降法是梯度求解，而牛頓法/擬牛頓法是用二階的海森矩陣的逆矩陣或偽逆矩陣求解。相對(duì)而言，使用牛頓法/擬牛頓法收斂更快。但是每次迭代的時(shí)間比梯度下降法長(zhǎng)。

本文名稱(chēng)：梯度下降（GradientDescent）小結(jié)
當(dāng)前地址：http://muchs.cn/article32/jiogsc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供企業(yè)建站、品牌網(wǎng)站設(shè)計(jì)、、自適應(yīng)網(wǎng)站、小程序開(kāi)發(fā)、域名注冊(cè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容